Sur X et sur LinkedIn, une petite phrase met à nu les limites du
bon sens des machines : « Je dois laver ma voiture,
la station est à 150m. J’y vais à pied ou en voiture ? » Derrière
cette scène de parking en apparence anodine, quatre grandes IA se
contredisent spectaculairement.
La réflexion décor pourtant simple : une voiture sale, une
station de lavage automatique à 150 mètres, soit à peine deux
minutes de marche. Pour un humain, la réponse paraît aller de soi.
Pour plusieurs systèmes d’intelligence
artificielle, ce court trajet devient un casse-tête où
l’écologie, le confort et la pluie brouillent la logique la plus
basique.
ChatGPT, Copilot, Gemini et Mistral… Les 150m de la
discorde
ChatGPT conseille vivement d’y aller à pied.
Il met en avant le temps gagné par rapport aux manœuvres en
voiture, l’impact environnemental et la santé du moteur, avant de
conclure que c’est « plus rapide, plus simple, plus propre », a
répondu l’outil de
OpenAI. Microsoft Copilot suit la même idée,
en comparant l’usage de la voiture pour 150 mètres à un tapis
roulant pour aller à la salle de sport, tout en admettant que
certaines stations imposent l’arrivée directe du véhicule.
Face à eux, Google Gemini adopte une lecture
plus terre à terre. Gemini 1.5 Flash tranche : « Il est plus logique
et pratique d’y aller en voiture […] vous ne pourrez pas
effectuer le lavage si votre véhicule n’est pas sur place », a
expliqué Google Gemini 1.5 Flash. Autrement dit, pas de voiture,
pas de lavage. Mistral Le Chat, lui, reste au
milieu du gué : il liste avantages et inconvénients des deux
options, propose la marche s’il fait beau, la voiture en cas de
pluie, sans assumer clairement qu’il faut surtout… amener la
voiture jusqu’à la station.
© DR
Ce que ce test révèle sur le cerveau des modèles de
langage
Pour l’analyse à l’origine de ce test, la conclusion est claire
: « L’IA ne vit pas (encore) dans notre monde ». La raison est simple
: les grands modèles de langage ne manipulent pas
des objets mais des phrases. Dans ce cas précis, ChatGPT et Copilot
ont surtout associé « 150m » à marche à pied, santé et écologie,
quand Gemini a relié « laver voiture » au fait que la voiture doit
être physiquement présente sur le lieu du service.
Sur LinkedIn, le développeur
Marek Kalnik rappelle qu’un LLM « ne comprend rien » au sens
humain du terme, il prédit des textes plausibles. Le chercheur Yann
LeCun parle de « modèle du monde » pour désigner cette représentation
du réel encore très partielle. Un humain comprend tout de suite que
la station est un portique prévu pour un véhicule, que le seau et
l’éponge ne sont pas fournis, et que la marche est un détail
secondaire.
Comment garder son bon sens quand on
parle à une IA
Dans un autre exemple cité, Gemini va jusqu’à récupérer la
station de lavage la plus proche et ses horaires, avec une
fermeture annoncée à 20 h 45. Ce type de service impressionne, mais
il ne remplace pas le regard critique de l’utilisateur. Pour une
question du quotidien, préciser le contexte (« station automatique »,
« voiture garée chez moi ») aide déjà beaucoup. Demander au système
d’énoncer ses hypothèses avant de trancher permet aussi de repérer
une incohérence physique, comme une voiture restée sagement sur le
trottoir pendant que son propriétaire part laver… autre chose que
son véhicule.