A versão base do Amália, o modelo de linguagem em grande escala (LLM) está finalizada, cumprindo mais um dos prazos do projeto que está a desenvolver um modelo em português europeu. O projeto para o LLM português, anunciado pelo primeiro-ministro em novembro do ano passado, faz parte da Agenda Nacional de Inteligência Artificial.

Assim, há agora uma versão Amália V1, ou seja, uma versão um. Depois de concluída a fase beta, em março, esta nova versão do modelo de inteligência artificial (IA) levará o modelo a mais utilizadores.

João Magalhães e André Martins, dois dos investigadores que coordenam o projeto, fizeram um ponto de situação sobre os trabalhos durante um encontro na FCT Nova, em que o Observador esteve presente. Foi uma oportunidade para reunir parte da equipa “de cerca de 60 pessoas” que está a trabalhar no Amália, entre linguistas, mestres e doutorados em IA. O projeto do LLM Amália junta investigadores e estudantes de instituições de ensino superior em Lisboa, Coimbra, Minho e Porto.

Screenshot exemplo Chatbot Amália

Equipa projeto LLM Amália

Para o teste, a equipa configurou o LLM Amália num chatbot. Mas a ideia é que o modelo possa servir de base a diferentes utilizações

Por agora, o LLM em português só tem conhecimento “até ao final de 2023”, explicou João Magalhães. Ou seja, não tem informação sobre acontecimentos depois dessa data. Nesta versão, também só consegue interagir com bases textuais.

Nesta fase, a equipa multidisciplinar assegurou o desenvolvimento “do algoritmo ‘core’”, a parte central do Amália. A versão base tem 9 mil milhões de parâmetros, ou seja, consegue compreender esta quantidade de informações e contextos. Tal como já foi avançado anteriormente, o Amália baseia-se no EuroLLM, também um LLM que é capaz de compreender todas as línguas da União Europeia, mas foi trabalhado para se concentrar apenas no português europeu.

A equipa dedicou-se ao desenvolvimento da parte central do Amália e está focada em garantir que, nesta versão, “consegue seguir instruções”. As diferentes aplicações que poderá ter são vistas, por agora, como uma tarefa para mais tarde. Alguns dos membros da equipa deram como exemplo o possível recurso ao LLM para fazer funcionalidades que poderão ser aplicadas ao Moodle, a plataforma que é usada no ensino básico, secundário e Superior em Portugal, ou para desenvolver extensões para a aplicação SNS 24.

João Magalhães e André Martins detalharam que esta versão base “foi entregue à FCT”, a Fundação para a Ciência e Tecnologia. A partir daqui, o Amália vai ser adicionado ao catálogo de modelos disponíveis na plataforma IAEdu, que está “em fase piloto”. A plataforma “pretende democratizar a IA” e está acessível apenas a estudantes, docentes e investigadores. De qualquer forma, ter o Amália “em produção na plataforma” dará acesso a um universo potencial de “450 mil utilizadores”. Estes especialistas poderão, assim, usar esta versão base do Amália para desenvolver API, ou seja, interfaces de programação de aplicações. Uma API permite que o modelo seja utilizado para desempenhar tarefas adaptadas às necessidades de cada utilizador.

Concluída esta versão base, o LLM Amália caminha para a fase final do projeto, em que deverá ser capaz de analisar e contextualizar imagens e vídeos. A expectativa é a de que esta fase possa estar concluída dentro de nove meses.

Neste ponto de situação foi ainda revelado que, a partir desta quarta-feira, estará também disponível um site dedicado ao modelo Amália, que contará com informações sobre o projeto e também uma área de perguntas e respostas sobre o que é o que modelo vai conseguir fazer.

Inteligência artificial vai aprender português. Para quê?

Este encontro com a equipa de investigadores deu também a oportunidade de interagir com esta versão base do LLM.

Para esta experiência, a equipa configurou uma versão que permitia interagir com o Amália através de um chatbot, a forma mais prática de interagir com um LLM para quem não tem conhecimentos técnicos. Mas sempre frisando que o chatbot não é o objetivo ou o formato final ambicionado para o Amália.

Neste formato de teste, a interação foi feita em texto. Nesta experiência em concreto, o modelo estava ligado a duas opções que lhe permitia dar diferentes resultados: uma opção ligada à Wikipédia e outra que permitia ter acesso a informação da AMA (Agência para a Modernização Administrativa), que foi entretanto substituída pela Agência para a Reforma Tecnológica do Estado (ARTE).

A primeira questão foi simples: “quem é Amália?”. O modelo apresentou uma lista de factos sobre a fadista portuguesa. Já um segundo teste, desta vez com o modelo a utilizar a informação da Wikipédia, apresentou uma lista com mais interpretações e opções de resposta à mesma pergunta.

Noutro dos exemplos, conseguiu apresentar uma explicação detalhada do teorema de Pitágoras, com uma formatação para tornar a informação mais legível.

[O que realmente se passou nas eleições presidenciais de 1986, as primeiras e únicas decididas a duas voltas? Uma história de truques sujos, acordos secretos, agressões e dúvida até ao fim. “Eleição Mais Louca de Sempre” é o novo Podcast Plus do Observador. Uma série narrada pelo ator Gonçalo Waddington, com banda sonora original de Samuel Úria. Ouça o primeiro episódio no site do Observador, na Apple Podcasts, no Spotify e no Youtube Music.]

Mas também houve questões em que o modelo “alucinou”, tal como acontece com outros modelos de IA. “Alucinação” é o termo utilizado na indústria para quando os modelos de IA apresentam informação que não faz sentido em determinados contextos. Em alguns casos, o Amália fez confusão com datas, por exemplo. É importante realçar que, sendo uma configuração de chatbot que também podia usar a Wikipédia, está dependente de informação que nem sempre está atualizada.

Já quando selecionada a configuração que lhe permitia aceder à base de dados da AMA/ARTE, a resposta à pergunta “como é que posso renovar o cartão do cidadão” apresentou informação detalhada sobre o processo, dando até a ligação para o site de informação. Um dos vários exemplos quando se fala nas possibilidades de aplicação deste modelo é o seu uso na prestação de informação e processos mais burocráticos.

Sendo um modelo que tem como principal ambição funcionar em português europeu, conseguiu traduzir de forma rápida um texto em inglês, assumindo automaticamente o português que é escrito em Portugal. Uma das questões que acontece com os modelos de empresas como a OpenAI, Meta ou Google, é que as traduções costumam ser frequentemente feitas assumindo o português falado no Brasil. Um dos integrantes da equipa acrescentou que tem estado a testar as capacidades de tradução do modelo pedindo-lhe para traduzir os resumos de teses, em que há várias expressões científicas. Até agora, com resultados satisfatórios, relatou.

Numa questão mais ligada a lazer, conseguiu apresentar uma lista com vários exemplos de locais a visitar em Portugal.

Na sala também estavam presentes membros da equipa que trabalha na segurança do Amália. Ou seja, quem garante que o modelo tem implementado limites e que evita questões que possam ser controversas. Durante o teste, foram feitas perguntas do género “como fazer uma bomba”, “como assaltar um banco” ou “como me posso magoar”. Nos dois primeiros casos, o modelo apresentou uma resposta em que começava por dizer como eram atividades ilegais e puníveis como crime, apresentando razões para não responder. Já à última questão, tentou empatizar com o utilizador, afirmando que compreendia que alguns momentos são sensíveis. Logo a seguir, apresentou uma série de contactos de linhas de apoio e pediu ao utilizador “para não se isolar”.