Dans l’industrie technologique, en particulier dans la conception de processeurs, il est possible de trouver un certain équilibre entre universalité et performance. Bien que les puces ou les systèmes informatiques puissent être conçus pour offrir l’universalité et donc exécuter une grande variété de tâches, il est généralement aussi possible de concevoir et d’optimiser des systèmes pour des applications très spécifiques. Dans le cas d’une puce informatique, toute son architecture peut être conçue autour de types de données définis, sans aucun mécanisme pour traiter les cas particuliers. Ce concept peut sembler familier à certains d’entre vous : Dans le domaine du crypto-mining, par exemple, les CPU et GPU à usage général ont été largement remplacés par des ASIC, qui sont extrêmement efficaces dans leur tâche unique, mais inutilisables pour toute autre chose.

Une évolution similaire se dessine dans le domaine de l’accélération de l’IA. Les processeurs intégrant des NPU ont déjà atteint le marché grand public. La société Taalas a récemment présenté le HC1, une puce qui n’est pas conçue pour accélérer n’importe quel modèle d’IA, mais un modèle très spécifique : le relativement petit Llama 3.1 8B. Malgré sa spécialisation, un certain degré de réglage fin reste possible. Selon Taalas, la puce peut atteindre 16.960 tokens par seconde, contre 353 tokens par seconde pour le Nvidia B200. Comparé au Cerebras WSE-3, le HC1 offrirait des performances dix fois supérieures tout en consommant moins d’énergie – sans compter qu’il coûte environ 20 fois moins cher. Les prix et la disponibilité n’ont pas encore été annoncés.