A inovação no campo da inteligência artificial não tem parado de crescer, e a DeepSeek, uma empresa chinesa, está a desafiar os limites com uma abordagem totalmente nova. Se está a perguntar-se como é que a DeepSeek difere dos gigantes da IA, como o ChatGPT e o Gemini, a resposta está na forma como a empresa está a reimaginar a gestão de memória dos seus modelos de linguagem.
A DeepSeek introduziu um conceito inovador que pode redefinir a forma como os modelos de inteligência artificial gerem informações. Em vez de utilizar os tradicionais tokens de texto, a empresa está a converter texto em imagens compactadas, ou “tokens visuais”. Esta metodologia não só optimiza a memória dos modelos de IA, mas também promete reduzir o “context rot”, um problema comum onde as IAs perdem a coerência em interações longas.
A técnica, detalhada num estudo recente, foi aplicada a um novo modelo de Reconhecimento Óptico de Caracteres (OCR). Este modelo permite reter quase a mesma quantidade de informação que os métodos convencionais, mas usando menos tokens. O método envolve “fotografar” as páginas e armazenar as informações em formato de imagem, utilizando compressão em camadas para economizar espaço sem comprometer a acessibilidade.

Os modelos de linguagem grande (LLMs) atuais enfrentam desafios significativos, especialmente quando se trata de gerir vastas quantidades de dados textuais. A divisão de texto em milhares de tokens pode ser dispendiosa em termos de processamento, levando ao “apodrecimento do contexto”. A abordagem da DeepSeek, que já captou a atenção de especialistas como Andrej Karpathy, ex-líder de IA da Tesla, promete ser uma solução viável para este problema. Karpathy destacou que os tokens de texto tradicionais podem ser ineficientes, enquanto as imagens oferecem um potencial significativamente maior para os LLMs.
A inovação da DeepSeek não só melhora a gestão de memória, como também facilita a geração de dados de treinamento, um recurso cada vez mais escasso. Com esta nova metodologia, o sistema de OCR da DeepSeek consegue gerar mais de 200 mil páginas de dados de treinamento por dia com apenas uma GPU.
No entanto, ainda existem desafios a serem superados. Apesar dos avanços, a memória dos modelos da DeepSeek ainda é tratada de forma linear, lembrando apenas as informações mais recentes. Como observou a professora Manling Li, de futuros desenvolvimentos espera-se que a memória das IA evolua para um estado mais dinâmico, lembrando eventos transformadores do passado e esquecendo informações irrelevantes mais recentes, de forma semelhante à memória humana.
A DeepSeek já demonstrou a sua capacidade de surpreender a indústria, como quando lançou o DeepSeek-R1, um modelo que competiu com os principais sistemas do mercado utilizando significativamente menos recursos computacionais. Este novo avanço na conversão de texto em imagem pode posicionar a empresa como uma líder inovadora no campo da IA.
À medida que o campo da inteligência artificial continua a evoluir, a contribuição da DeepSeek pode ser um ponto de viragem, oferecendo soluções que não apenas desafiam as normas, mas também estabelecem novos padrões para o que é possível na gestão de dados e memória em sistemas de IA.
Fonte: MIT Review