DeepMind AlphaZero

AlphaZero, mais um passo rumo à humanização das máquinas

“O Deep Blue sabia jogar xadrez maravilhosamente, mas se lhe colocassem à frente um jogo de damas nada fazia”.

A frase é de Matthias Knorr, investigador alemão que está em Portugal desde 2006 e que no ano passado foi distinguido com o Prémio Científico IBM. Matthias falava sobre os avanços que têm sido feitos em inteligência artificial e como são na sua maioria muito específicos. Uma boa parte das ferramentas criadas é exímia numa tarefa concreta, mas de pouco ou nada vale nas restantes.

Siga o Future Behind: Facebook | Twitter | Instagram

A par da questão da falta de isenção e da atribuição de responsabilidade, a criação de sistemas de inteligência artificial que sejam abrangentes num grande número de tarefas é outro dos objetivos que tem sido perseguido pelos investigadores. Ainda antes do ano acabar, ficamos um pouco mais perto dessa concretização.

Ontem, 5 de dezembro, um grupo de investigadores da DeepMind, a divisão da Alphabet responsável por desenvolvimentos em inteligência artificial, publicou um estudo no qual detalham um novo mecanismo de AI, denominado AlphaZero, destaca o The Verge.

O principal resultado da investigação é que o AlphaZero aprendeu sozinho a jogar três dos jogos de tabuleiro mais complexos que existem – xadrez, shogi e Go -, tendo precisado apenas de 24 horas para se tornar num mestre quase invencível nos três domínios.

Se olharmos para as conquistas feitas especificamente em cada um dos jogos, os resultados são ainda mais impressionantes: precisou apenas de duas horas para dominar o shogi, uma derivação japonesa do xadrez com regras diferentes; precisou apenas de quatro horas de treino para ser um ‘grão-mestre’ em xadrez; e precisou de oito horas para conseguir derrotar o anterior algoritmo desenvolvido pela DeepMind para o jogo Go.

O AlphaZero é um ‘descendente’ do AlphaZero Go, mas foi criado justamente para ser mais generalista e para que possa evoluir de forma autónoma em objetivos muito distintos. Ainda que os três jogos partilhem entre si conceitos complexos de estratégia, a forma como todos os jogos se desenrolam é completamente distinta.

Por exemplo, no shogi as peças capturadas ao adversário podem regressar ao tabuleiro pela mão de quem as capturou e quase todas as peças quando chegam à última linha do terreno de jogo do adversário são promovidas, querendo isto dizer que ganham novas características de movimentação no tabuleiro.

“No estudo, generalizamos esta abordagem através de um único algoritmo AlphaZero que consegue atingir, tabula rasa, uma performance sobre-humana em domínios muito desafiantes”, pode ler-se no paper publicado no repositório da Universidade de Cornell, dos EUA.

Os investigadores da DeepMind apenas deram ao algoritmo as regras básicas de cada jogo. A partir desse ponto o AlphaZero jogou contra si próprio e foi aprendendo com os erros e conquistas de cada partida. Ao fim dos períodos de tempo referidos, já era capaz de derrotar outros mecanismos de inteligência artificial que são considerados como referências nos seus jogos.

Leia também | Nasceu a primeira religião que venera um deus de inteligência artificial

“[O AlphaZero] Substitui o conhecimento prévio e os aumentos específicos de domínio usados em programas tradicionais de jogos por redes neurais e por um algoritmo de aprendizagem de reforço”, explicam os investigadores no seu estudo. Por outras palavras, o AlphaZero avalia não só as probabilidades de cada jogada, como o seu valor associado, para depois fazer a escolha final.

No final de cada jogo o sistema atribui uma pontuação a cada desfecho – um ponto negativo em caso de derrota, zero em caso de empate e um ponto positivo em caso de vitória -, pontuação esta que serve para o algoritmo minimizar nos jogos seguintes as hipóteses de erro de acordo com as simulações que tinha feito.

No caso do algoritmo AlphaZero Go, cada nova partida de Go era jogada com a melhor versão anterior desse mesmo algoritmo. Desta forma os investigadores garantiam que o seu ‘novo’ algoritmo, aquele que começava do zero, estava a competir contra a sua melhor versão anterior, o que ajudaria a acelerar os processos de aprendizagem.

Mas no caso do AlphaZero, com uma abordagem mais generalista, os investigadores optaram por melhorar continuamente o mesmo algoritmo e que operou sempre sob as mesmas circunstâncias – definições gerais, arquitetura de rede e outros parâmetros – independentemente do jogo.

Esta abordagem permitiu chegar a uma das conclusões mais importantes do estudo: o AlphaZero tornou-se muito mais eficiente a atingir resultados superiores aos das máquinas especializadas nos diferentes jogos de tabuleiro. A ferramenta Stockfish, uma das mais avançadas em inteligência artificial para xadrez, fez 70 milhões de pesquisas de posição no tabuleiro por segundo, enquanto o AlphaZero precisou de apenas 80 mil pesquisas. Já o Elmo, algoritmo de referência para o jogo shogi, fez 35 milhões de pesquisas de posição por segundo, enquanto o AlphaZero só precisou de 40 mil.

“O AlphaZero compensa o número mais baixo de avaliações ao usar uma rede neural para focar-se muito mais na seleção das variações das jogadas mais promissoras – indiscutivelmente uma abordagem muito mais ‘humana’”, escrevem os investigadores.

Depois da ‘originalidade’ do AlphaGo, agora temos a abordagem ‘humana’ do AlphaZero. E ainda só estamos em 2017.