A SK hynix formalizou com a NVIDIA o desenvolvimento de uma nova geração de unidades SSD destinadas ao uso em sistemas de inteligência artificial com o objetivo de multiplicar por dez o desempenho atual desses sistemas de armazenamento, segundo informa o jornal coreano ChosunBiz.
O problema que procuram resolver é o estrangulamento de memória que ocorreu quando as GPUs se impuseram como plataforma de referência para o treino de grandes modelos de IA. Antes dessa transição, o processamento das cargas concentrava-se na CPU, que executa tarefas em série e não exigia um volume de memória tão elevado, uma vez que a DRAM convencional fornecia os dados de forma sequencial com uma largura de banda ajustada a estas necessidades.
Com a chegada de modelos de IA baseados em grandes matrizes e operações vetoriais, o processamento em série da CPU revelou-se insuficiente, uma vez que os tempos de execução se prolongavam excessivamente. Em contrapartida, a GPU, concebida para o cálculo em paralelo, revelou-se mais adequada para este tipo de tarefas.
No entanto, a implantação massiva de GPU revelou uma nova limitação: a memória principal, baseada em DRAM ajustada ao ecossistema da CPU, não fornecia a largura de banda necessária. A estrutura de transferência sequencial da DRAM tradicional gerava períodos em que a GPU ficava à espera de dados, produzindo tempos de inatividade da memória e travando a capacidade de cálculo global.
Como resolver este problema? De acordo com a ChosunBiz, a NVIDIA e a SK hynix estão a desenvolver o que a primeira batizou de projeto Storage Next, enquanto a segunda o conhece como AI-N P, e com o qual pretendem atingir até 100 milhões de operações de entrada/saída por segundo (IOPS) num SSD específico para ambientes de IA em 2027.
Paralelamente ao seu trabalho com a NVIDIA, a SK hynix também colabora com a SanDisk no campo da High Bandwidth Flash (HBF), uma tecnologia que organiza a NAND flash para fornecer uma grande largura de banda a partir do modelo de empilhamento massivo de chips que já é utilizado nas memórias HBM para lhes conferir maior rapidez.
A HBM conta com vários chips DRAM empilhados para multiplicar a largura de banda e criar um caminho de dados muito mais amplo, e foi introduzida como uma forma de alimentar a GPU com grandes volumes de informação de forma contínua.
A capacidade da HBM revelou-se um fator crítico; de acordo com referências do setor, um modelo como o GPT-4, utilizado no ChatGPT, pode necessitar de cerca de 3,6 TB para a inferência, enquanto a capacidade associada a uma GPU com HBM3E de quinta geração situa-se em torno dos 192 GB. Em cenários de inferência, a capacidade da HBM é insuficiente para modelos que podem exigir até 3,6 TB por consulta, o que obriga a agrupar entre seis e sete GPU por pedido e aumenta significativamente o custo do serviço. Esta necessidade de agrupar várias GPU não só aumenta o investimento em hardware, como também o consumo de energia e a complexidade de operação da infraestrutura.
A memória HBM sofre de outra desvantagem: não foi concebida para conservar essa informação por um longo período, o que complica a resposta a casos de utilização em que a personalização e a inferência se tornam elementos essenciais do serviço.
É necessário, portanto, ir além dos limites atuais da memória, que é o que estas três empresas estão a fazer através de dois projetos distintos.