A nova IA do DeepSeek, o DeepSeek-OCR, e o artigo que a acompanha reimaginam fundamentalmente a forma como os grandes modelos de linguagem processam informações, comprimindo o texto em representações visuais. Em vez de alimentar o texto em um modelo de linguagem como tokens, o DeepSeek o converteu em imagens.

O resultado é até 10 vezes mais eficiente e abre as portas para janelas de contexto muito maiores — a quantidade de texto que um modelo de linguagem pode considerar ativamente de uma só vez ao gerar uma resposta. Isso também pode significar uma maneira nova e mais barata para os clientes empresariais aproveitarem o poder da inteligência artificial (IA).

Novo modelo do DeepSeek é muito mais eficiente com o entendimento de textos  Foto: Simon Lehmann

Os primeiros testes mostraram resultados impressionantes. Para cada 10 tokens de texto, o modelo precisa apenas de um “token de visão” para representar as mesmas informações com 97% de precisão, escreveram os pesquisadores em seu artigo técnico. Mesmo quando comprimido até 20 vezes, a precisão ainda é de cerca de 60%. Isso significa que o modelo pode armazenar e lidar com 10 vezes mais informações no mesmo espaço, tornando-o especialmente bom para documentos longos ou permitindo que a IA compreenda conjuntos maiores de dados de uma só vez.

A nova pesquisa chamou a atenção de várias figuras conhecidas da IA, incluindo Andrej Karpathy, cofundador da OpenAI, que chegou a sugerir que todas as entradas para LLMs poderiam ser melhores como imagens.

“A parte mais interessante para mim… é se os pixels são melhores entradas para LLMs do que o texto. Se os tokens de texto são um desperdício e simplesmente péssimos na entrada. Talvez faça mais sentido que todas as entradas para LLMs sejam apenas imagens. Mesmo que você tenha uma entrada de texto puro, talvez prefira renderizá-la e depois alimentá-la”, escreveu Karpathy, em uma postagem no X, que destacou várias outras vantagens das entradas baseadas em imagens.

O que isso significa para a IA empresarial

A pesquisa pode ter muitas implicações para a forma como as empresas utilizam a IA. Os modelos de linguagem são limitados pelo número de tokens que podem processar de uma só vez, mas comprimir texto em imagens desta forma pode permitir que os modelos processem bases de conhecimento muito maiores. Os usuários também não precisam converter manualmente o seu texto. O modelo do DeepSeek renderiza automaticamente a entrada de texto como imagens 2D internamente, processa-as através do seu codificador de visão e, em seguida, trabalha com a representação visual comprimida.

Os sistemas de IA só podem considerar ativamente uma quantidade limitada de texto por vez, então os usuários precisam pesquisar ou alimentar os modelos com documentos pouco a pouco. Mas com uma janela de contexto muito maior, seria possível alimentar um sistema de IA com todos os documentos de uma empresa ou uma base de código inteira de uma só vez. Em outras palavras, em vez de pedir a uma ferramenta de IA para pesquisar cada arquivo individualmente, uma empresa poderia colocar tudo na “memória” da IA de uma só vez e pedir que ela analisasse as informações a partir daí.

O modelo está disponível publicamente e é de código aberto, então os desenvolvedores já estão experimentando-o ativamente.

“O potencial de obter um LLM de ponta com uma janela de contexto de 10 ou 20 milhões de tokens é muito empolgante”, disse Jeffrey Emanuel, ex-investidor quantitativo. “Basicamente, você poderia enfiar todos os documentos internos importantes de uma empresa em um preâmbulo de prompt e armazená-los em cache com a OpenAI e, em seguida, apenas adicionar sua consulta ou prompt específico em cima disso e não ter que lidar com ferramentas de pesquisa, mantendo a rapidez e a economia.”

Ele também sugeriu que as empresas poderiam alimentar um modelo com uma base de código inteira de uma só vez e, em seguida, simplesmente atualizá-lo a cada nova alteração, permitindo que o modelo acompanhasse a versão mais recente sem ter que recarregar tudo do zero.

O artigo também abre as portas para algumas possibilidades intrigantes sobre como os LLMs podem armazenar informações, como o uso de representações visuais de uma forma que ecoa os “palácios da memória” humanos, onde pistas espaciais e visuais ajudam a organizar e recuperar conhecimento.

É claro que há ressalvas. Por um lado, o trabalho do DeepSeek se concentra principalmente na eficiência com que os dados podem ser armazenados e reconstruídos, e não se os LLMs podem raciocinar sobre esses tokens visuais com a mesma eficácia com que fazem com textos regulares. A abordagem também pode introduzir novas complexidades, como lidar com diferentes resoluções de imagem ou variações de cor.

Mesmo assim, a ideia de que um modelo poderia processar informações com mais eficiência ao ver o texto pode ser uma grande mudança na forma como os sistemas de IA lidam com o conhecimento. Afinal, uma imagem vale mais que mil palavras ou, como o DeepSeek parece estar descobrindo, dez mil.

Este conteúdo foi traduzido com o auxílio de ferramentas de Inteligência Artificial e revisado por nossa equipe editorial. Saiba mais em nossa Política de IA.

c.2024 Fortune Media IP Limited

Distribuído por The New York Times Licensing Group