Dois braços robóticos foram colocados para disputar um jogo interminável de tênis de mesa. A partida ocorre nas dependências de um centro de pesquisa do Google DeepMind e é feita como uma aplicação prática de um projeto responsável por treinar sistemas de inteligência artificial.
A empresa britância de IA, adquirida pelo Google em 2015, é especializada em criar algoritmos de aprendizado, para que máquinas possam aprender a executar tarefas distintas, independente de uma programação específica para tal.
A partida entre os robôs, portanto, não ocorreu apenas para determinar um vencedor, ou para que um recorde fosse estabelecido. A missão é fazer com que as máquinas, operadas justamente por sistemas de IA, não dependam da supervisão da pessoas para que possam agir, da maneira que for. Ou seja, o confronto teve como motivação o futuro da robótica.
Isso não significa, no entanto, que o sucesso na partida de cada um dos lados não tenha sido avaliado. O progresso de ambos foi observado, a partir de movimentos como uma raquetada com mais ou menos efeito, a previsão de posicionamento do oponente para prever uma investida, e até a adaptação a uma jogada inesperada.
Veja:
Mas por que tênis de mesa?
A escolha pelo esporte em específico não aconteceu de forma aleatória. O tênis de mesa exige um conjunto de habilidades e respostas complexas, das quais poucos robôs ainda são capazes de executar. Exemplos são a percepção visual de alta frequência, o controle motor refinado, planejamento tático e reação a estímulos de alta variação, em tempo real.
Em entrevista à revista IEEE Spectrum, os pesquisadores descrevem o tênis de mesa como “um ambiente restrito, mas altamente dinâmico”. A partida impõe desafios multifacetados, ao contrário de tarefas roteirizadas ou mais previsíveis, como andar em linha reta, por exemplo.
A prática ainda exerce a função de excelente campo de testes para exercícios de simulação-realidade. Se trata da capacidade do robô em levar o que aprendeu para o contexto prático, sem que haja perda significativa do que foi processado, no momento de mostrar desempenho. Para isso, no entanto, é preciso lidar com física complexa, variabilidade de movimento e imprevisibilidade humana.
Respostas
Há um nome do modelo responsável por inserir a inteligência artificial nos braços robóticos. O esquema de ensino acontece através do aprendizado por reforço (“reinforcement learning”). Se trata de uma técnica onde um agente aprende a tomar decisões, ao maximizar recompensas ao longo do tempo. A cada decisão acertada, a máquina tem como retorno um “reforço” positivo.
Os robôs foram, antes de tudo, treinados em ralis cooperativos. Depois de desenvolver controle básico sobre a raquete, sem o estresse da competição, foi alcançado o momento de focar no domínio dos fundamentos. A partir desse ponto, a introdução de partidas competitivas marcou um ponto de virada.
O sistema, por isso, fo induzido a simular cenários com múltiplas táticas possíveis. Foi possível aprender a atacar e a defender, por exemplo. A cada ponto perdido, era preciso adaptar a política de jogo, o que resultava na criação de um ciclo evolutivo de aprendizado mútuo, contínuo.
Apesar disso, os resultados ainda não correspondiam às expectativas. O leque de habilidades era limitado. Quando um novo estilo de jogo era aprendido, o antigo era esquecido. Como consequência, partidas curtas e pouco variadas se formavam.
A solução, com isso, foi a reintrodução de humanos nos confrontos. Assim, diante de humanos iniciantes e até mesmo de nível intermediário, os sistemas acabaram expostos a uma distribuição mais ampla de dados. Assim, foi possível a desenvoltura de uma robustez maior, principalmente a situações de imprevisibilidade.
No fim, os braços robóticos conseguiram vencer todos os iniciantes e, inclusive, 55% de todos os intermediários que enfrentaram. Ainda que não tenham derrotado adversários mais experientes, mostraram evolução clara. Os dados coletados nessas partidas, além disso, foram úteis para uma retroalimentação dos modelos. Isso gerou melhorias estruturais no comportamento dos robôs.
Brasiliense de 21 anos, apaixonado desde o princípio da vida por esportes, mas de maneira um pouco mais afetuosa pelo futebol. No jornalismo desde 2020, ano de entrada no Ceub