Les grands modèles de langage (LLM) contemporains abordent les problèmes complexes principalement par le biais de la technique de la « chaîne de pensée » (Chain-of-Thought, CoT). Cette méthode consiste à décomposer un problème en étapes intermédiaires sous forme de texte, forçant le modèle à verbaliser son processus de réflexion via des mots, alors qu’il existerait une méthode nettement plus rapide.
Bien que cette approche ait amélioré les capacités de raisonnement des LLM, elle présente certaines limites. Dans leur publication, les chercheurs de Sapient Intelligence qualifient la méthode CoT de « béquille » plutôt que de solution satisfaisante. Ils affirment que cette technique repose sur des décompositions fragiles définies par l’homme, où une seule erreur ou un mauvais ordonnancement des étapes peut faire échouer l’ensemble du processus de raisonnement.
Publicité, votre contenu continue ci-dessous
Publicité
Cette dépendance à la génération de langage explicite lie le raisonnement du modèle au niveau des « tokens », ce qui exige souvent de grandes quantités de données d’entraînement et produit des réponses longues et lentes, même si l’on a l’impression que nos IA actuelles sont déjà très rapides, on peut faire jusqu’à 100 fois mieux selon ces chercheurs.
Une approche hiérarchique inspirée du cerveau humain
Pour dépasser les limites des IA actuelles, les chercheurs ont exploré un nouveau concept de raisonnement qui s’aligne davantage sur la pensée humaine. Comme le note l’étude, « le cerveau maintient des chaînes de raisonnement longues et cohérentes avec une efficacité remarquable dans un espace latent, sans traduction constante vers le langage ».
La mise en œuvre d’un tel raisonnement profond en IA est complexe. Les architectures récurrentes, alternatives, peuvent souffrir de « convergence précoce » (early convergence), où le modèle adopte une solution trop rapidement, parfois pour plaire à l’utilisateur, mais où certaines réponses ne sont pas convaincantes. Qui n’a jamais émis une requête à ChatGPT avec une réponse de ce dernier totalement à côté de la plaque, juste pour répondre à la question ?
Publicité, votre contenu continue ci-dessous
Publicité
L’équipe de Sapient s’est tournée vers les neurosciences pour concevoir son Modèle de Raisonnement Hiérarchique (HRM). Le modèle est doté de deux modules récurrents couplés :
- Un module de haut niveau (H) pour la planification lente et abstraite.
- Un module de bas niveau (L) pour les calculs rapides et détaillés.
Le modèle d’IA HRM travaille comme le cerveau humain
© arXiv
Cette structure permet un processus que l’équipe nomme la « convergence hiérarchique ». Le module rapide L traite une partie du problème jusqu’à atteindre une solution locale stable. Ensuite, le module lent H intègre ce résultat, met à jour sa stratégie globale et assigne un nouveau sous-problème affiné au module L. Ce mécanisme réinitialise le module L, l’empêchant de se bloquer et permettant au système global d’exécuter une longue séquence d’étapes de raisonnement avec une architecture légère qui ne souffre pas des problèmes de convergence précoce.
Le modèle HRM face aux autres modèles d’IA LLM
© arXiv
Concernant l’interprétabilité, Guan Wang, fondateur et PDG de Sapient Intelligence, explique que les processus internes du HRM peuvent être décodés et visualisés. Il ajoute que la transparence de la CoT peut être trompeuse, citant des études montrant que les modèles peuvent parfois fournir des réponses correctes avec un raisonnement erroné, et inversement.
Performances du HRM en action
Pour évaluer leur modèle, les chercheurs ont testé le HRM sur des bancs d’essai exigeant des capacités de recherche et de retour en arrière importantes, comme le corpus ARC-AGI (Abstraction and Reasoning Corpus), des grilles de Sudoku de difficulté extrême et des labyrinthes complexes.
Les résultats indiquent que le HRM peut résoudre des problèmes qui sont hors de portée pour les LLM avancés, même de la prochaine version de GPT 5. Sur les tests « Sudoku-Extreme » et « Maze-Hard », les modèles de pointe basés sur la CoT ont obtenu un score de 0% de réussite. En revanche, le HRM a atteint une précision quasi parfaite après un entraînement sur seulement 1000 exemples pour chaque tâche.
Publicité, votre contenu continue ci-dessous
Publicité
Comparaison des modèles LLM face au modèle HRM
© arXiv
Sur le banc d’essai ARC-AGI, qui évalue le raisonnement abstrait, le HRM de 27 millions de paramètres a obtenu un score de 40,3%. Cette performance dépasse celle de modèles CoT beaucoup plus grands comme o3-mini-high (34,5%) et Claude 3.7 Sonnet (21,2%).
Un changement à venir pour les modèles de langage ?
Selon Guan Wang, si les LLM restent pertinents pour les tâches linguistiques ou créatives, une architecture de type HRM offre des performances supérieures pour les « tâches complexes ou déterministes », notamment les « problèmes séquentiels nécessitant une prise de décision complexe ou une planification à long terme ». Les domaines comme la robotique, l’IA embarquée ou l’exploration scientifique, où les données sont rares et la latence est critique, sont des cas d’usage pertinents, plus que des IA conversationnelles.
L’efficacité de l’architecture se traduit par des avantages concrets pour les entreprises. Le traitement parallèle du HRM pourrait permettre une « réduction de 100 fois du temps d’accomplissement des tâches » par rapport aux IA actuelles. Cela signifie une latence d’inférence plus faible et la capacité de faire fonctionner des systèmes de raisonnement puissants sur des appareils en périphérie.
Les économies de coûts sont également notables. L’entraînement du modèle pour des tâches comme la résolution de Sudoku à un niveau professionnel nécessite environ deux heures de GPU, et pour le test ARC-AGI, entre 50 et 200 heures de GPU. C’est une fraction des ressources nécessaires pour les grands modèles que nous connaissons aujourd’hui.
Sapient Intelligence travaille déjà à faire évoluer le HRM vers un module de raisonnement plus généraliste, avec des résultats préliminaires dans les domaines de la santé, de la prévision climatique et de la robotique.Ces futurs modèles intègreront également des fonctionnalités d’auto-correction, afin de limiter fortement les erreurs.
Publicité, votre contenu continue ci-dessous
Publicité
Envie de faire encore plus d’économies ? Découvrez nos codes promo sélectionnés pour vous.