Les chatbots d’intelligence artificielle peuvent fournir des réponses convaincantes, tout en demeurant largement incompris de l’intérieur. Pour déconstruire cette « boîte noire », des chercheurs d’Anthropic développent des méthodes d’interprétabilité mécaniste, qui cartographient certains mécanismes internes des modèles de langage.
La fascination pour les réponses des chatbots d’intelligence artificielle — qu’elles soient brillantes ou incohérentes — est bien connue. Le raisonnement conduisant les modèles d’IA à proposer de telles réponses l’est moins. Même ceux qui les fabriquent ne parviennent pas toujours à expliquer ce qui se passe dans ce qu’ils considèrent être des « boîtes noires ».
Pour déjouer cette opacité, des chercheurs d’Anthropic — derrière Claude, une famille de grands modèles de langage (LLM) — ont conçu des outils qui permettent de suivre une partie des milliers de signaux internes qui s’activent en chaîne quand un LLM produit une réponse.
Un scanner pour IA
L’idée s’apparente à un scanner cérébral lors duquel on ne lit pas une pensée, mais l’on voit des schémas d’activité. Cette pratique appelée « interprétabilité mécaniste » a été désignée comme l’une des 10 technologies révolutionnaires de l’année par la MIT Technology Review le 12 janvier 2026. La revue rapporte une expérience menée par Anthropic en juillet 2025 pour concrétiser cette approche.
Les chercheurs de l’entreprise ont souhaité comprendre comment Claude parvenait à donner de bonnes et de mauvaises réponses. Ainsi ont-ils testé le robot conversationnel en lui demandant si « une banane est jaune » et si « une banane est rouge ». Les scientifiques ont découvert que le chatbot, s’il répond correctement aux deux questions, n’utilise pas le même mécanisme pour valider une phrase vraie que pour rejeter une phrase fausse.
🗣️ MIT Technology Review just spotlighted mechanistic interpretability as a 2026 breakthrough, highlighting new “microscope” tools from labs like Anthropic and OpenAI to peer inside powerful AI models.#AI #Safety #Explainability #Research #AIFreakyFacts https://t.co/yLtAWU8k1c
— Steve Atwal (@steveatwal) January 14, 2026
Pourquoi les incohérences survivent
Une partie du modèle a intégré la couleur des bananes, une autre tamponne l’énoncé comme vrai. Autrement dit, les chatbots ne traitent pas l’information comme les humains, surfant potentiellement entre deux sources internes qui ne disent pas la même chose. Par ailleurs, sans ancrage solide dans la réalité, les incohérences ont le champ libre.
Pour les entreprises d’IA, l’enjeu est crucial puisqu’elles visent l’alignement, soit le fait que le modèle de langage poursuit bien les buts fixés par ses concepteurs. Or, pour tenir cette promesse, il ne suffit pas que le modèle donne de bonnes réponses. Il faut aussi qu’il ait une logique interne stable d’un scénario à l’autre, ce qui n’est peut-être pas le cas. Le voile sur le fonctionnement interne de l’intelligence artificielle est donc loin d’être levé.
Les données transmises par le biais de ce formulaire sont destinées
à PressTiC Numerama, en sa qualité de responsable de traitement. Ces données
sont traitées avec votre consentement aux fins de vous envoyer par e-mail des actualités et
informations relatives aux contenus éditoriaux publiés sur ce site. Vous pouvez vous opposer à tout
moment à ces e-mails en cliquant sur les liens de désinscriptions présents dans chacun d’eux. Pour
plus d’informations, vous pouvez consulter l’intégralité de notre politique de traitement de vos
données
personnelles.
Vous disposez d’un droit d’accès, de rectification, d’effacement, de limitation, de portabilité et
d’opposition pour motif légitime aux données personnelles vous concernant. Pour exercer l’un de ces
droits, merci d’effectuer votre demande via notre formulaire de demandes d’exercices de
droits
dédié.

Toute l’actu tech en un clin d’œil
Ajoutez Numerama à votre écran d’accueil et restez connectés au futur !
Installer Numerama