Alors que l’intelligence artificielle semble progresser à une vitesse fulgurante, un nouveau juge de paix vient de doucher les espoirs d’une domination immédiate des machines. Baptisé « Humanity’s Last Exam » (HLE), ce test d’un genre nouveau, élaboré par des chercheurs du Center for AI Safety et de Scale AI, a été conçu pour être le rempart ultime contre la simple mémorisation numérique. En soumettant les modèles les plus puissants du marché à des problèmes que même des moteurs de recherche ne peuvent résoudre, les scientifiques ont mis en lumière une réalité fascinante : malgré leur puissance de calcul, les IA échouent encore là où l’expertise humaine de haut niveau commence.
Un protocole de sélection impitoyable
Le projet HLE n’est pas un simple questionnaire de culture générale, mais une véritable forteresse intellectuelle. Pour sa conception, plus de 1 000 experts issus de 500 institutions prestigieuses ont été mobilisés afin de soumettre environ 70 000 questions initiales. Le critère de sélection était drastique : chaque énigme devait avoir une solution unique et vérifiable, tout en étant totalement absente d’Internet. Cette contrainte majeure vise à empêcher les modèles de « tricher » en régurgitant des données apprises lors de leur entraînement, une limite que les tests actuels peinent souvent à contourner.
L’originalité du processus réside également dans l’usage de l’IA contre elle-même. Chaque question soumise par les experts passait d’abord sous le crible des modèles les plus performants, tels que GPT-4o ou Claude 3.5 Sonnet. Si une machine parvenait à répondre correctement, la question était immédiatement rejetée car jugée trop simple. Au final, seules 2 500 questions de niveau doctorat ont été conservées, formant un corpus si complexe qu’il pose des difficultés majeures à des étudiants en master de droit ou en physique théorique.
Les résultats obtenus lors des premiers passages ont été particulièrement éloquents. En janvier 2025, le modèle o1 d’OpenAI, pourtant considéré comme une référence en matière de raisonnement, n’avait décroché qu’un score dérisoire de 8,3 %. Cette contre-performance historique a souligné le fossé qui sépare la capacité de traitement de l’information et la véritable compréhension de domaines pointus. Le test HLE oblige ainsi les machines à sortir de leur zone de confort statistique pour s’aventurer sur le terrain du raisonnement pur et de l’abstraction scientifique.
Crédit : CIPhotos
Le plafond de verre de l’intelligence artificielle
Au 12 février 2026, la situation a évolué, mais le sommet reste encore loin d’être atteint. Le modèle Gemini 3 Deep Think de Google détient actuellement le record mondial avec un score de 48,4 %. Si ce bond en avant en un an est impressionnant, il reste dérisoire comparé aux 90 % de réussite affichés par les experts humains dans leurs domaines respectifs. Ce décalage prouve que si l’IA progresse dans sa capacité à manipuler des concepts complexes, elle ne possède pas encore la finesse d’analyse nécessaire pour égaler un chercheur chevronné.
La distinction entre la réussite à cet examen et l’avènement d’une Intelligence Artificielle Générale (IAG) est un point sur lequel les auteurs de l’étude publiée dans Nature insistent lourdement. Atteindre une précision élevée au test HLE démontrerait une connaissance scientifique de pointe, mais ne suffirait pas à prouver une capacité de recherche autonome. Comme le souligne le neuroscientifique Manuel Schottdorf, le succès à cet examen est une condition nécessaire, mais absolument pas suffisante, pour affirmer que les machines ont atteint une véritable forme d’intelligence.
L’enjeu de « Humanity’s Last Exam » dépasse donc la simple compétition technique. Il s’agit de définir les contours de ce qui rend l’esprit humain unique : la capacité à résoudre des problèmes inédits sans recourir à un immense catalogue de réponses préétablies. Alors que les développeurs espèrent franchir la barre des 50 % d’ici la fin de l’année 2026, ce test restera sans doute le baromètre le plus fiable pour mesurer si l’IA est capable de penser par elle-même, ou si elle reste un miroir sophistiqué de nos propres connaissances mémorisées.
L’étude est publiée dans la revue Nature.