Até agora, a automação no mundo digital tem sido um processo rígido e quebradiço. Os assistentes de IA e os bots dependem de integrações pré-programadas (APIs) para comunicar com outras aplicações. Se um website muda o design de um botão, a automação falha. A Google acaba de apresentar uma tecnologia que promete tornar este método obsoleto, com o lançamento do Gemini 2.5 Computer Use.

Este não é apenas mais um modelo de IA. É um agente digital que interage com as aplicações e os websites da mesma forma que nós: olhando para o ecrã e usando um rato e um teclado virtuais. É um passo de gigante em direção a um futuro onde poderás simplesmente pedir à IA para executar tarefas complexas, e vê-la a navegar, clicar e escrever por ti, como se fosse um assistente humano ao teu lado.

Como é que esta IA “vê” e “toca” no teu ecrã?

A abordagem do Gemini 2.5 Computer Use é engenhosa e fundamentalmente diferente da automação tradicional. Em vez de se ligar ao código de um site, ele opera diretamente na interface gráfica do utilizador (GUI), num ciclo contínuo de “ver, pensar, agir”:

  1. Captura uma imagem do ecrã para entender o contexto visual do que está a ser pedido.
  2. Analisa essa imagem para identificar elementos interativos como botões, caixas de texto, menus e links.
  3. Gera e executa a ação necessária, como clicar num botão específico, escrever texto num formulário ou arrastar um item.
  4. Captura uma nova imagem do ecrã para ver o resultado da sua ação.
  5. Repete o processo até que a tarefa que lhe pediste esteja concluída.

Imagina que estás a guiar um amigo ao telefone, dizendo-lhe onde clicar para preencher um formulário. A diferença é que, neste caso, a IA é o teu amigo, e ela está a guiar-se a si mesma, usando a sua visão computacional para interpretar o ecrã.

Image 4

O que poderás fazer com um “assistente-robot”?

As possibilidades abertas por esta tecnologia são imensas, prometendo automatizar muitas das tarefas mais aborrecidas do nosso dia a dia digital. A Google já demonstrou a sua capacidade para executar ações como:

  • Preencher e submeter formulários online complexos.
  • Fazer o login em contas online (embora isto exija que confies as tuas credenciais à IA).
  • Automatizar a entrada de dados, como copiar informação de uma fatura para uma folha de cálculo.
  • Realizar testes de interface para programadores, verificando se todos os botões de uma nova app funcionam.
  • Executar fluxos de trabalho de comércio eletrónico, como encontrar um produto, adicioná-lo ao carrinho e preencher os dados de envio e pagamento.

O objetivo final é criar “agentes de IA” de uso geral, capazes de operar qualquer aplicação digital. O sonho é poderes dizer “encontra o voo mais barato para Paris para o próximo fim de semana e faz a reserva com os meus dados”, e simplesmente veres a magia a acontecer.

Os riscos de entregar o controlo ao teu copiloto digital

Entregar este nível de controlo a uma IA levanta, naturalmente, enormes questões de segurança. A Google afirma ter implementado “barreiras de proteção” robustas para mitigar os riscos. O modelo, por exemplo, não consegue contornar CAPTCHAs, e as operações mais sensíveis (como confirmar uma compra) deverão exigir sempre a aprovação final do utilizador.

Ainda assim, a possibilidade de uma IA ser enganada para executar ações maliciosas ou para expor informação confidencial é um risco real. A segurança e a fiabilidade destas “barreiras” serão o fator decisivo para a confiança e a adoção desta tecnologia.

Por agora, o Gemini 2.5 Computer Use está otimizado para funcionar em navegadores de internet e em interfaces móveis Android. O controlo ao nível do sistema operativo de um computador (como o Windows ou o macOS) ainda não é suportado. A tecnologia está disponível em modo de antevisão para programadores, o que significa que ainda vai demorar algum tempo até a vermos integrada nos produtos de consumo que usamos todos os dias.

Ainda assim, este é um dos vislumbres mais claros e emocionantes do futuro da automação pessoal. A era dos assistentes de IA que não só falam, mas também fazem, está oficialmente a começar.

Outros artigos interessantes: