A tecnológica norte-americana voltou a criar um sistema de inteligência artificial, mas o CaptionBot é possivelmente um dos mais esperto da empresa: mesmo tendo dito que uma imagem da Terra parecia uma garrafa.

Na semana passada a Microsoft revelou qual o seu grande plano para os próximos tempos: criar serviços de conversação como uma plataforma. Através da disponibilização de ferramentas de inteligência artificial a tecnológica de Redmond espera que os programadores integrem bots em vários serviços online.

A liderar este esquadrão de inteligência estará a Cortana, o estado da arte da Microsoft neste segmento. Com base nas tecnologias que usa para alimentar a assistente digital, a gigante de Redmond disponibilizou pacotes de desenvolvimento que permitem criar ferramentas semelhantes.

Pedir para criar não chega e por isso mesmo é que a Microsoft voltou a desenvolver mais um serviço de inteligência artificial. O projeto CaptionBot reúne as melhores tecnologias de reconhecimento de imagem da Microsoft: visão computacional, reconhecimento de emoções e de objetos.

Quando a empresa revelou alguns exemplos do CaptionBot durante a BUILD2016 fiquei surpreendido com os resultados que tinham sido mostrados em direto – ‘certamente que foram arranjados‘, pensei eu.

Mas a ferramenta está disponível para todos na Internet e é muito fácil de usar: basta fazer upload de uma imagem e esperar que o CaptionBot faça a sua análise e partilhe o respetivo palpite.

Depois de algumas utilizações fico com a certeza que a Microsoft tem de facto aqui uma boa base tecnológica: quase todas as imagens receberam uma descrição correta ou parcialmente correta ao ponto de não ser uma asneira.

Por exemplo, quando carreguei a imagem de destaque usada no artigo sobre o lançamento do jogo Final Fantasy XV, o CaptionBot disse que não tinha muitas certezas, mas que parecia ver uma pessoa em frente a montanhas. Bom palpite tendo em conta que é uma criação digital e de design animado.

O que mais surpreendeu foi quando fiz upload de uma imagem da personagem Frodo Baggins da trilogia de filmes O Senhor dos Anéis. “Eu não consigo realmente descrever a imagem, mas vejo uma pessoa, em ambiente exterior, com roupa. Tenho 99% de certeza que é o Elijah Wood”.

Ding, ding, ding. Análise correta.

frodo-baggins-captionbot

Crédito: moviepilot.com

Para quem disse que não conseguia descrever a imagem, foi assustadoramente perspicaz.

Tentei mais alguns exemplos: uma fotografia do tipo passe usada num documento oficial fez o bot dizer que via um homem a usar camisa, gravata, com um ar sisudo… “És tu na imagem?”, lia-se na descrição – e sim, era uma fotografia minha. Sorte de principiante ou poder da analítica de dados a todos o vapor?

Só não acertou na parte da gravata. Mas como se não bastasse, ainda teve o atrevimento de dizer que tinha 59% de parecença com um ator norte-americano. Que específico: 59%, nem mais, nem menos.

Um outro exemplo curioso, mas que ao mesmo tempo mostra o potencial da tecnologia. Mostrei-lhe uma fotografia da equipa do Real Madrid no início de um jogo. “Penso que é um grupo de homens e eles parecem 😐😐😐😐😐😐😁😁😐😐😁”, numa alusão aos diferentes estados de espírito dos atletas.

Mudando de cenário e mostrando uma imagem do aquário do Oceanário de Lisboa, o CaptionBot disse ver natureza, corais, água, mas não viu por exemplo o elemento em destaque: um peixe bem saliente no centro da fotografia.

Numa outra experiência conseguiu reconhecer um periquito dentro de uma gaiola, mas mais à frente confundiu o planeta Terra com uma garrafa. Isto para dizer que neste momento nem as máquinas são perfeitas.

A experiência está ao alcance de todos e se para a maioria dos utilizadores de Internet servirá apenas como brincadeira, para os programadores terá muito mais interesse pois é uma boa demonstração tecnológica das ferramentas que têm à sua disposição e de forma gratuita.

Os serviços cognitivos da Microsoft querem mudar por completo a forma como os utilizadores se relacionam com a Internet – na prática querem colocá-los a falar com robôs como se estivessem a falar com um amigo. E pelo que é possível inferir desta demonstração, tenha cuidado com a cara que faz, o computador poderá saber exatamente aquilo que está a expressar, mesmo que não o diga.

Sem mais artigos