Nos últimos anos, estive esperando pelo “glow-up” da Alexa em IA.
Sou um usuário fiel da Alexa, a assistente de voz que comanda os dispositivos domésticos e alto-falantes inteligentes da Amazon, há mais de uma década. Tenho cinco caixas de som habilitadas para Alexa espalhadas pela minha casa e, embora eu não as use para nada complicado — basicamente tocar música, configurar cronômetros e obter a previsão do tempo —, elas são boas no que fazem.
Mas desde 2023, quando o ChatGPT adicionou um modo de voz em IA capaz de responder perguntas de forma fluida e conversacional, ficou óbvio que a Alexa precisaria de um transplante cerebral — um novo sistema de IA baseado nos mesmos modelos de linguagem de larga escala (LLMs, na sigla em inglês) que alimentam o ChatGPT e outros produtos. Sistemas baseados em LLMs são mais inteligentes e versáteis do que os antigos. Eles conseguem lidar com pedidos mais complexos, tornando-se uma escolha óbvia para a próxima geração de assistentes de voz.
A Amazon concorda. Nos últimos anos, a empresa vem trabalhando freneticamente para atualizar a IA dentro da Alexa. Foi um processo árduo. Substituir a tecnologia de IA de uma assistente de voz não é tão simples quanto trocar por um novo modelo, e a reformulação da Alexa foi atrasada por disputas internas e desafios técnicos ao longo do caminho. Além disso, os LLMs não são um encaixe perfeito para esse tipo de produto, que não só precisa funcionar com inúmeros serviços já existentes e milhões de dispositivos compatíveis com Alexa, mas também executar de forma confiável tarefas básicas.
Mas, finalmente, a nova Alexa — conhecida como Alexa+ — chegou. É uma grande e ambiciosa reformulação que tenta unir as habilidades conversacionais dos chatbots de IA generativa às tarefas cotidianas que a velha Alexa executava bem.
A Alexa+, disponível para testadores por meio de um programa de acesso antecipado nos últimos meses, agora está sendo lançada de forma mais ampla. Eu a obtive recentemente depois de comprar um dispositivo compatível (o Echo Show 8, que tem uma tela de 8 polegadas) e me inscrever na versão atualizada. (Membros Prime receberão a Alexa+ sem custo, enquanto não assinantes precisarão pagar)
O New York Times anunciou recentemente um acordo de licenciamento com a Amazon, que permitirá à empresa usar conteúdo do jornal em seus sistemas de IA, incluindo a Alexa+. O NYT também está processando a OpenAI, criadora do ChatGPT, e a Microsoft por supostas violações de direitos autorais relacionadas ao treinamento de sistemas de IA.
Dois passos à frente, um para trás
Tenho boas e más notícias para os fãs da Alexa.
A boa notícia é que a nova Alexa+ é, de fato, mais divertida de conversar do que a antiga, com vozes sintéticas mais realistas e um ritmo mais humano. (São oito vozes disponíveis; usei a padrão, uma voz feminina animada.)
Gostei de algumas das novas capacidades da Alexa+, como reservar uma mesa em um restaurante e gerar histórias longas para depois lê-las para minha filha de 3 anos.
A nova Alexa também é melhor em lidar com pedidos de várias etapas. “Defina três cronômetros de cozinha para 15, 25 e 45 minutos” e “crie um itinerário de um dia para uma viagem a San Diego e envie para o meu e-mail” foram dois comandos que funcionaram comigo.
E a Alexa+ não exige que você diga a palavra de ativação a cada vez que fala com ela; é possível ter uma conversa contínua ou fazer perguntas de acompanhamento — o que é uma boa mudança.
A má notícia é que, apesar de suas novas capacidades, a Alexa+ é instável e pouco confiável para que eu a recomende. Em meus testes, ela não apenas ficou atrás do modo de voz do ChatGPT e de outros assistentes de voz com IA que experimentei, como também foi visivelmente pior do que a Alexa original em algumas tarefas básicas.
Quando pedi para a Alexa+ cancelar um alarme certa manhã — um comando que já havia dado centenas de vezes para a antiga Alexa sem problemas — ela simplesmente me ignorou.
Quando enviei por e-mail um artigo científico para o e-mail da Alexa a fim de ouvir a Alexa+ resumi-lo enquanto eu lavava a louça, recebi uma mensagem de erro dizendo que o documento não podia ser encontrado.
A Alexa+ também alucinou alguns fatos e cometeu erros inexplicáveis. Quando pedi para procurar o ralador de quatro lados recomendado pelo Wirecutter (seção de avaliação de produtos do NYT) e adicioná-lo ao meu carrinho da Amazon, ela respondeu que “de acordo com o Wirecutter, o melhor ralador é o OXO Good Grips Box Grater”. Na verdade, a escolha do Wirecutter é o Cuisipro 4-Sided Box Grater. Felizmente, percebi o erro antes de comprar. Quando pedi para me guiar na instalação de um novo modelo de IA no meu laptop, ela se atrapalhou e começou a repetir: “Ah, não, meus fios se cruzaram.”
E eu não tive acesso a alguns dos novos recursos da Alexa+ que a Amazon anunciou, como a função de “rotinas”, que dispara várias ações diferentes quando um usuário entra em um cômodo. (Eu queria que a Alexa+ me cumprimentasse de manhã com um discurso motivacional e uma versão em alto volume de “Eye of the Tiger”, mas a função de detecção de presença ainda não foi ativada, segundo um porta-voz da Amazon.)
Daniel Rausch, vice-presidente da Amazon responsável pela Alexa e pelo Echo, disse em uma entrevista recente a um podcast que muitas dessas falhas seriam corrigidas em breve, conforme a Alexa+ fosse lançada mais amplamente e mais recursos entrassem em operação.
— Temos algumas arestas para polir — diz ele.
Alexa, me dê 500 palavras sobre a história dos cronômetros de cozinha
Rausch afirmou que o maior desafio em colocar modelos de IA generativa na Alexa é que eles são sistemas fundamentalmente diferentes.
A Alexa antiga, disse ele, era construída em cima de uma teia complicada de algoritmos determinísticos baseados em regras. Definir cronômetros, tocar músicas no Spotify, apagar a lâmpada da sala — todas essas funções exigiam chamar ferramentas diferentes e se conectar a interfaces distintas, e todas precisavam ser programadas uma por uma.
Adicionar IA generativa à Alexa obrigou a Amazon a reconstruir muitos desses processos, contou Rausch. Os modelos de linguagem de larga escala, disse ele, são “estocásticos”, ou seja, funcionam com base em probabilidades em vez de um conjunto rígido de regras. Isso tornou a Alexa mais criativa, mas menos confiável.
Também tornou a assistente de voz mais lenta. Rausch lembrou de uma demonstração interna inicial em que a Alexa+ demorou mais de 30 segundos para tocar uma música — um atraso “exaustivo”, segundo ele, que levou a equipe a repensar sua abordagem.
— Esses modelos são lentos para responder quando estão seguindo um conjunto profundo de instruções. Estamos pedindo para eles fazerem algo bastante difícil — diz.
Outro desafio, acrescentou, foi a verbosidade da IA generativa. Inicialmente, quando os engenheiros conectaram a Alexa aos LLMs, o sistema às vezes produzia respostas longas e prolixas ou acrescentava complexidade desnecessária. A Alexa+ poderia responder a um pedido de cronômetro de 10 minutos com um ensaio de 500 palavras sobre a história dos cronômetros de cozinha.
A solução, explicou Rausch, foi passar vários anos combinando mais de 70 modelos de IA — alguns propriedades da Amazon e outros de fornecedores externos, como o Claude, da Anthropic — em uma única interface de voz, com um sistema de orquestração que direciona o pedido do usuário ao modelo mais adequado para lidar com ele.
— A mágica, quando funciona bem, é conseguir fazer essas novas formas de falar com a Alexa se conectarem a resultados ou comportamentos previsíveis — afirma.
Aprendendo um novo idioma
Há outras barreiras também. Uma delas, afirmou Rausch, é que muitos usuários de longa data aprenderam a “falar Alexa”, formulando seus pedidos diários em comandos familiares que sabiam que o sistema entenderia.
— Todos nós meio que desenvolvemos nosso próprio jeito de configurar um cronômetro para cozinhar o macarrão no ponto — diz.
Mas a Alexa+ processa a linguagem de uma forma mais fluida. Os usuários podem falar com ela como falariam com uma pessoa — sem necessidade de um “pidgin robótico” — e isso pode exigir um reaprendizado.
Imagino que muitos dos problemas serão corrigidos e que a maioria dos usuários se acostumará ao novo jeito de falar com a Alexa+. Também estou inclinado a dar um desconto para a Amazon, já que incorporar tecnologia baseada em LLM a uma assistente de voz confiável parece ser um problema técnico espinhoso — e não é como se alguém já tivesse resolvido isso. (A Apple, que vem tentando há anos dar um upgrade de IA para a Siri, certamente não conseguiu.)
Também não acho que as limitações da Alexa+ indiquem que modelos de IA generativa sejam inerentemente pouco confiáveis ou que nunca funcionarão como assistentes de voz pessoais. No fim das contas, acho que simplesmente é muito difícil combinar IA generativa com sistemas antigos e legados — uma lição que muitas empresas, dentro e fora da área de tecnologia, estão aprendendo da maneira difícil agora — e que vai levar tempo para ajustar todas as falhas.
Por enquanto, vou rebaixar meus dispositivos para a versão mais antiga e menos inteligente da Alexa e deixar os testes beta para outros. Com a IA, assim como com os humanos, às vezes a inteligência bruta importa menos do que a forma como você a usa.