Emily Bender é linguista e, em 2021, deu nas vistas na comunidade académica quando assinou um artigo científico no qual os modelos de linguagem eram chamados “papagaios estocásticos”. Ou seja, limitam-se a repetir informação sem realmente perceber o contexto. Alex Hanna é socióloga com uma especialização em processamento de linguagem natural e inteligência artificial (IA), e atualmente é diretora de investigação do DAIR (Distributed AI Research Institute). Antes disso, trabalhou como investigadora de ética de IA na Google.
Bender e Hanna conheceram-se em plena pandemia, justamente pelo ceticismo em relação ao entusiasmo que já se vivia à volta da IA. Após várias conversas, criaram um podcast onde escrutinam os vários anúncios feitos pela indústria tecnológica. Em maio, deram o passo seguinte e publicaram nos EUA e no Reino Unido o livro “The AI Con”, algo como a fraude ou o golpe da IA em tradução livre para português. A premissa do livro centra-se justamente no hype, o entusiasmo excessivo, à volta da IA. Ao longo da obra, a dupla oscila entre o sarcasmo e a apresentação de vários efeitos colaterais da IA em áreas como o emprego ou as questões sociais.
Em entrevista ao Observador, a dupla aborda algumas das teorias mordazes do livro, desde a ideia de que está a ser criada uma bolha amparada por uma “acumulação de riqueza sem precedentes” por parte das big tech até a crítica aos investimentos multimilionários baseados apenas “em FOMO”, ou seja, no medo de ficar de fora.
Comecemos pelo princípio: porque é que pensam que a IA é uma fraude, um golpe?
Emily Bender (EB): Acho que falamos sobre isto a vários níveis. O primeiro ponto é que a inteligência artificial não se refere a um conjunto coerente de tecnologias, mas aquilo que está a deixar toda a gente particularmente entusiasmada agora são os grandes modelos de linguagem — a que também chamamos máquinas sintéticas de extrusão de texto. E isto basicamente é o que chamamos de truque de salão [parlor trick], uma espécie de truque de magia que se alimenta de uma ilusão. E a ilusão está ligada à forma como compreendemos a linguagem.
Temos estes sistemas que são muito bons a imitar o uso humano da linguagem. E, como estamos a ver um uso humano da linguagem, que normalmente quer dizer que há uma pessoa ali, percecionamo-la como fazemos sempre: começamos a pensar no que é que aquela pessoa está a tentar dizer ao escolher aquelas palavras. Ou seja, estamos a imaginar uma linha por trás daquele texto que não está ali. E é muito difícil não pensar assim, pela forma como a linguagem está a ser usada. Portanto, é nesta base de um truque de salão que estão a ser construídas mais coisas.
Alex Hanna (AH): E outro nível de fraude é usar este truque para sinalizar que, como é bom a fazer uma coisa, no sentido de gerar texto plausível, que parece ser bem composto, também é bom a fazer outras coisas.
Há uma espécie de movimento para antropomorfizar estas tecnologias, sugerir que são mais do que realmente são. Até pelas referências a inteligência, a robôs, a esta espécie de lugares-comuns da ficção científica. ‘Bem, temos estes grandes modelos de linguagem, então o que deve estar a acontecer é algum tipo de inteligência por trás das palavras’ — que certamente não é o que está a acontecer. São máquinas de extrusão de texto sintético que estão a gerar texto baseado no que está nos dados de treino, nas palavras seguintes mais prováveis, etc. E a partir daí usamos isso como referência para outras coisas em que talvez possa ser bom, seja a “raciocinar” ou a “argumentar” ou a fazer coisas de forma “criativa”. Isto é mais um exemplo de fraude. E tudo isto é embrulhado de uma forma que permite chegar aos dólares do capital de risco e a construir enormes centros de dados. São estes os diferentes tipos de camadas de fraude.
E quando é que começaram a sentir que isto era uma vaga de hype da IA? Foi depois do lançamento do ChatGPT [novembro de 2022] ou era algo que já sentiam antes?
EB: Ainda antes. A Alex e eu conhecemo-nos através de conversas online em que estávamos de forma individual a trabalhar para contrariar este hype da IA. No meu caso, diria que comecei ativamente a trabalhar nisto em 2019. Antes disso, estava muito preocupada com os impactos sociais da tecnologia de linguagem mas não me tinha realmente focado no ângulo do hype da IA.
AH: Tenho estado focada nos perigos das tecnologias de IA acho que desde 2016, 2017. Uma boa parte vem da minha experiência como socióloga, não como cientista informática. Estava a fazer vários artigos sobre aprendizagem automática a partir da minha própria dissertação, que é focada em movimentos sociais. A partir daí fui ficando mais interessada nestas comunidades de conhecimento focadas nos perigos destas tecnologias. Já nos focávamos nas alegações de hype de muitas destas tecnologias. A Emily e eu acabámos por escrever alguns artigos com outras co-autoras em 2020 e 2021. E depois começámos o podcast.
Referem-se ao artigo sobre os papagaios estocásticos? [Um termo cunhado num artigo científico de 2021, que descreve os LLM como um papagaio que imita a linguagem humana, mas que não tem compreensão ou intenção.]
AH: Não participei nesse artigo, mas a Emily sim. Tivémos dois artigos “Data and its discontents” e “AI and the everything in the Whole Wide Wold Benchmark”. Depois continuámos a falar sobre o hype da IA e lançámos nosso podcast antes do lançamento do ChatGPT, que foi lançado uns meses mais tarde. Foi muito bem coordenado (risos).
E como é que esse podcast foi recebido pela comunidade académica? Qual tem sido a reação ao vosso ceticismo em relação à IA?
AH: Depende do lado da academia em que se está. Muitas pessoas dentro dos estudos cruciais de tecnologia, campo linguístico, sociólogos são fãs, dizem que permite eliminar o que é ‘treta’. Já tivemos muita gente que nos diz que isso é necessário. Do outro lado do espectro, temos pessoas que estão muito empenhadas na investigação de IA, que provavelmente não conhecem este podcast ou que ficam muito ressentidas com ele — mas que possivelmente não gostam das nossas agendas de pesquisa assim de uma forma geral. Acho que, no meio, haverá muita gente, mas também não tenho um contacto regular com a comunidade linguística, a Emily tem mais.
Acho que o podcast é mais para pessoas que tipicamente não estão tão envolvidas nas discussões académicas. É frequente que haja pessoas interessadas nisto de uma perspetiva tecnológica mas que não sabem bem o que fazer. Portanto é útil para elas ter um podcast que talvez as deixe com mais conhecimento sobre a linguagem, mas que precisam de quem as guie. No livro até temos uma passagem chamada “as vossas guias para o hype da AI” — é assim que nos vemos.
O livro “The AI Con” foi lançado em maio nos EUA e no Reino Unido
EB: Sim. Voltei da reunião anual da Associação para Computação Linguística (ACL) e senti que havia uma mistura na plateia. Há pessoas que estão muito, muito entusiasmadas com a ideia da IA e que acreditam que os grandes modelos de linguagem são um passo no caminho para essa ideia. E isso é frustrante para mim porque é esta a área que desenvolve estas coisas — estas pessoas sabem como é isto funciona, deviam saber mais. Mas não é toda a gente assim..
Acho que há muitas outras pessoas que estão céticas ou que querem ver mais casos de uso para os LLM — pessoalmente, discordo — mas ao menos estão a olhar para isto sem verem uma forma de IA. Ou talvez adotem uma terminologia de IA mas sem terem uma crença profunda nisto. E depois também há outras pessoas que apreciam muito a perspetiva cética que temos no livro e no podcast, algumas delas sentem que não estão numa posição em que podem dizer estas coisas de forma tão aberta como nós e que apreciam que o façamos. Depois também há quem esteja a lutar para contrariar o hype.
Mas porque é que sentem que há esse sentimento que leva essas pessoas a não poderem demonstrar o ceticismo abertamente?
EB: Há muitas pessoas que são economicamente dependentes. A área da linguística computacional tem atualmente muita representatividade na indústria, portanto em muitos casos os empregos das pessoas estão dependentes de fazer parte de projetos. Há em ensaio incrível da Meredith Whittaker [presidente da fundação Signal] chamado “The Steep Cost of Capture” [o elevado custo da captura, em tradução para português], em que nota o quão os académicos na área das ciências da computação estão dependentes da indústria. Muita, muita gente tem dupla afiliação, ou seja, têm um título académico mas também estão a trabalhar para uma empresa. E mesmo aqueles que não estão, esperam conseguir bolsas ou financiamento dessas empresas ou esperam poder mandar os seus estudantes para essas empresas. É como diz o ditado: ninguém quer morder a mão que o alimenta.
Em relação a essa ligação às empresas, como é que veem este fenómeno da guerra de contratações da IA, em que as big tech estão a fazer contratações multimilionárias? Sentem que, como estão a contratar muitos investigadores do lado académico, empresas como a Meta ou a Google correm o risco de deixar a área académica vazia de talento?
Alex Hanna: Sim. Quer dizer, isso já está a acontecer. E essa é uma dinâmica que a Meredith destaca nesse artigo. Existe um outro artigo chamado “The Grey Hoodie Project”, que de certa forma já mostrava os paralelismos entre o meio académico, as grandes empresas tecnológicas e também as grandes empresas de tabaco e de petróleo. Esse artigo quer demonstrar empiricamente a quantidade de financiamento para investigação que é canalizada para os departamentos [das universidades]. Algo que surge frequentemente é uma espécie de porta giratória entre a academia e as grandes empresas tecnológicas. Às vezes vemos as pessoas simplesmente a abandonar o barco: vimos inúmeros académicos abandonarem completamente a academia ou a manterem uma filiação simbólica com um departamento académico e irem depois à procura destas enormes quantidades de dinheiro.
Conseguimos pensar em várias pessoas que fizeram isso, é uma dinâmica muito comum. Mas acho que outra coisa é que isto também está a impedir outros tipos de investigação nas ciências da computação. Por exemplo, pessoas que podiam estar interessadas em desenvolver trabalho em áreas como cibersegurança, linguagens de programação, bases de dados ou todas estas coisas que ainda precisam de ser investigadas e que são áreas de investigação interessantes por si só, acabam por ser abandonadas porque toda a gente está a colocar IA em tudo.
Sentem que o lado linguístico da investigação era diferente antes da ascensão do ChatGPT?
EB: Dentro da linguística propriamente dita há pessoas que estão entusiasmadas com o uso de grandes modelos de linguagem para responder a questões linguísticas. Por exemplo, analisar quanta informação sobre a estrutura da linguagem é aparente apenas a partir da forma. É possível questionar isto de forma razoável usando grandes modelos de linguagem e tecnologias relacionadas. Algo como o ChatGPT, em que o conjunto de dados subjacente é desconhecido, não é um objeto legítimo de estudo científico do ponto de vista linguístico. Portanto, se estamos interessados saber o que se pode aprender com ele enquanto corpus ou uma coleção do uso da língua, mas não temos acesso a essa coleção, então não podemos fazer ciência.
Creio que existe algum entusiasmo em relação aos grandes modelos de linguagem, mas não muito na linguística propriamente dita em relação aos modelos de linguagem fechados [modelos cujo conjunto de dados de treino não é totalmente conhecido]. Diria que no campo da linguística computacional, também conhecido como processamento de linguagem natural, que é um campo interdisciplinar que envolve linguística, ciência da computação, engenharia elétrica, entre outros, a conversa mudou bastante. E é extremamente frustrante porque as práticas de revisão [de artigos] têm, de certa forma, empurrado a questão para esta expectativa de que se está sempre a testar tudo com “os modelos de última geração”, que na verdade não são de última geração em nenhum sentido interessante, porque as práticas de avaliação estão muito, muito fragmentadas. Quando se tenta submeter um artigo a uma conferência há alguém que diz logo “bem, não testou isto com o Llama ou com o ChatGPT, por isso não vamos aceitar o artigo”. Aí houve uma grande mudança.
Quando fui presidente da Associação de Linguística Computacional [ACL] tive a oportunidade de fazer um discurso presidencial intitulado “A ACL não é uma conferência de IA”. Como pode imaginar, esta palestra recebeu críticas mistas — algumas pessoas ficaram muito satisfeitas e outras aborrecidas.