Comment résoudre le problème du contrôle qualité de l’IA générative ?

Pour garantir la qualité des données, Amazon s’appuyait par le passé sur l’expertise de milliers d’employés spécialisés dans la gestion des fiches produits. L’entreprise utilisait également des centaines de modèles de machine learning (ML), chacun optimisé pour une catégorie de produits (comme les chemises ou les téléviseurs) et un élément de mise en page (comme les titres ou les descriptions des produits). Les spécialistes travaillaient avec ces modèles pour ajouter ou supprimer des informations, identifier les inexactitudes, consolider les renseignements, traduire le texte dans différentes langues et intégrer des données provenant de sources extérieures. Ces modèles traditionnels de ML ont leurs limites : ils sont plus adaptés aux ensembles de données structurés de petite taille, et leur application à différentes catégories de produits est coûteuse. Un modèle de ML entraîné, disons, sur les chemises ne peut pas être utilisé de manière rentable pour les téléviseurs ou tout produit autre que les chemises. En revanche, les grands modèles linguistiques (LLM) sont formés sur de vastes ensembles de données et fonctionnent pour toutes les catégories de produits. En remplaçant les modèles de ML par des LLM, Amazon a simplifié son infrastructure technologique (moins de modèles), son organisation (moins de spécialistes opérationnels) et a ainsi réduit ses coûts.

Garantir la fiabilité de la nouvelle approche

Au cours des premières semaines qui ont suivi le lancement de Catalog AI, environ 8 % de ses résultats n’étaient pas fiables. Le système inventait des informations, en omettait d’autres ou donnait des conseils qui n’intéressaient pas les clients. Par exemple, il indiquait qu’une pompe électrique possédait une puissance de 15 chevaux, alors que cette information n’était pas disponible. De même, lorsqu’on lui demandait des informations sur le matériau d’un canapé, le modèle fournissait des précisions sur le matériau utilisé pour le cadre plutôt que pour les sièges, ces derniers étant ce qui intéressait la plupart des clients. Pour remédier à ces problèmes de qualité et tester l’efficacité des changements possibles, Amazon a pris les quatre mesures suivantes.

1/ Réaliser un audit

Pour pouvoir effectuer un suivi, une entreprise doit connaître les performances de base du système. Dans l’industrie manufacturière, cela se fait en évaluant un processus pendant une période stable et en utilisant ces informations pour fixer des limites de contrôle. Amazon a fait en sorte que le LLM génère des milliers de pages produits qui étaient déjà connues. Les auditeurs humains ont alors comparé les pages du LLM avec les informations existantes, noté leur fiabilité et analysé les causes profondes des mauvaises performances éventuelles. Cela a conduit à un certain nombre d’améliorations rapides, que nous décrirons ci-dessous.

2/ Déployer des garde-fous

Une « hallucination » – c’est-à-dire un résultat faux ou inexact présenté comme vrai – survient généralement lorsqu’un modèle parvient à une conclusion qui ne repose pas sur les données d’entrée. Une façon d’améliorer la fiabilité et d’éviter les hallucinations consiste à contraindre le LLM, de manière qu’il ne produise que des résultats dérivés de données spécifiques à l’entreprise et non des informations générales provenant du Web ou de sources de données sans rapport avec celle-ci. Mais il y a un compromis à faire : plus le LLM est libre d’accéder aux données internes et externes, et plus le système peut explorer, modifier et tester de nouvelles idées. Par exemple, en s’appuyant sur des informations obtenues sur le Web, le LLM peut conseiller de ne pas passer les assiettes en carton au lave-vaisselle. Imposer trop de contraintes aux entrées d’un LLM réduit sa capacité à faire de telles déductions. C’est pourquoi, au lieu de limiter les entrées de son LLM, Amazon a décidé de mettre en place trois autres types de contraintes.

Des règles simples. Pour garantir la fiabilité, on peut demander au système de rejeter les contenus qui ne respectent pas certaines règles. Exemple de règle : un nombre indiquant un poids doit être suivi d’unités de mesure, comme kilogrammes ou livres. Amazon a créé une règle selon laquelle Catalog AI doit rejeter les suggestions apportant des modifications mineures à la fiche existante (par exemple, en changeant le style du produit de « contemporain » en « moderne »). Des règles simples régissent également la mise en page afin que les clients bénéficient d’une expérience cohérente sur l’ensemble du site.

Des profils statistiques. Les garde-fous fonctionnent comme les limites de la maîtrise statistique des procédés (MSP) dans les usines. Lorsque des variables de processus dépassent ces limites, une alarme se déclenche, et la cause profonde du problème est examinée. Pour créer de tels garde-fous pour les modèles d’IA générative, les entreprises peuvent utiliser les données sur les produits existants afi n de déterminer si le produit se situe dans une fourchette attendue. Par exemple, un LLM pourra générer des informations produit sur une table vendue par un fournisseur tiers. Les informations sur les tables habituelles vendues dans la boutique en ligne d’Amazon sont utilisées pour établir les garde-fous. Quand les informations produit créées par le LLM sortent des limites de contrôle, le LLM est interrogé par un autre LLM. Dans certains cas, le premier LLM peut reconnaître ses propres erreurs lorsqu’il est invité à expliquer la raison d’être de ses informations.

L’IA contrôlant l’IA. Ce que nous venons de décrire en est un exemple. Mais il n’est pas possible d’avoir des règles ou des garde-fous qui couvrent tous les résultats possibles de l’IA. Le second système d’IA générative peut s’en charger. Amazon utilise l’IA générative pour rechercher les problèmes posés par l’IA générative. Le premier LLM, le générateur de contenu, est formé pour construire des hypothèses ; le second, le réviseur de contenu, est formé pour vérifier les résultats du premier. Ils sont connectés et engagent automatiquement des conversations en puisant dans leurs différentes connaissances de base.

Par exemple, Amazon utilise un LLM pour détecter les incohérences entre les pages produits – notamment en s’assurant que la couleur dans le titre du produit correspond bien à celle de l’image. Si une divergence est détectée, les modifi cations apportées aux informations d’un produit sont bloquées. Le système d’IA générative peut être interrogé par l’examinateur de contenu, qui lui posera des questions comme : « Pourquoi la nouvelle page produit est-elle meilleure que la page existante ? » Ce qui obligera le générateur de contenu à analyser le résultat et éventuellement à abandonner sa suggestion initiale. Pour augmenter la rigueur des contrôles de fiabilité, Catalog AI peut se connecter à des LLM internes et externes entraînés sur des données différentes. Parce qu’ils ont été formés sur des informations diff érentes, ces LLM détectent des problèmes différents. Par exemple, si le générateur LLM commet une erreur de raisonnement et calcule mal le volume du produit, l’examinateur LLM, entraîné sur un ensemble de données distinct, sera susceptible de détecter l’erreur et de la bloquer.

Une fois qu’une hypothèse provenant de l’IA générative a passé tous les contrôles qualité, elle est alors publiée sur une plateforme d’expérimentation, où son effi cacité peut être évaluée : le changement proposé augmentera-t-il le chiff re d’affaires ou la quantité d’unités vendues ?

3/ Tester l’efficacité

Les entreprises ont besoin de trouver des moyens efficaces d’évaluer quelles idées sont pertinentes parmi les nombreuses idées produites par l’IA générative. Auparavant, les spécialistes du catalogue d’Amazon créaient des règles et des algorithmes qui approuvaient, concevaient et amélioraient automatiquement les mises en page qu’ils jugeaient les plus performantes. Cette approche avait plusieurs limites : en créant ces règles et ces algorithmes, les spécialistes intégraient des hypothèses non vérifiées et utilisaient des tests qui n’étaient pas toujours rentables ni automatisés. De plus, les études de marché traditionnelles (par exemple, les groupes de discussion et les sondages) pouvaient être trompeuses, car ce que disaient les clients ne correspondait pas toujours à ce qu’ils faisaient. Il était donc très difficile d’anticiper leurs préférences. Un membre de la direction de Booking.com a confié à l’un d’entre nous (Stefan) : « Nous constatons chaque jour que les gens sont très mauvais pour ce qui est de jouer aux devinettes. Nos prédictions sur le comportement des clients sont fausses neuf fois sur dix. »

Afin d’identifier les changements qui trouvent un écho auprès des clients, l’équipe de Catalog AI a intégré des tests A/B dans le fux de travail du système. Tester scientifiquement le volume extrêmement élevé de résultats fournis par l’IA générative nécessite une infrastructure d’expérimentation : des instruments (pour enregistrer des éléments tels que les clics, les survols de souris et les horaires des événements), des pipelines de données et des data scientists. Plusieurs outils et services de tierces parties facilitent les expériences, mais, pour passer à l’échelle supérieure, une entreprise doit intégrer étroitement cette fonctionnalité à son flux de travail. Chez Amazon, l’infrastructure est entièrement automatisée : toutes les modifi cations des pages produits proposées par Catalog AI sont soumises à des tests A/B.

Il effectue une expérience contrôlée qui compare deux possibilités (ou plus) : « A » (le témoin, ou champion) correspond à la fiche actuelle de produit et « B » (le challenger) est une modification de ces informations générée par l’IA dans un but précis : par exemple, améliorer les taux de conversion clients. Les utilisateurs sont assignés de façon aléatoire à ces expériences, et des métriques composites sont calculées et comparées. Ces métriques doivent être alignées sur les objectifs stratégiques ; les meilleures métriques à court terme permettent également de prédire les résultats à long terme. (Voir « The Surprising Power of Online Experiments », HBR édition américaine, septembre-octobre 2017.)

Lors d’une expérience récente portant sur un produit de soin de la peau, Catalog AI a généré une description du challenger axée sur les principales qualités du produit ; la description du champion contenait une longue liste de caractéristiques et de leurs avantages. Alors que le champion expliquait en détail les actions bénéfiques découlant de ces caractéristiques, telles que le débouchage des pores, l’amélioration de la texture de la peau et la réduction des rougeurs, la version beaucoup plus courte proposée par l’IA se contentait d’énumérer les effets positifs du produit : une peau plus lisse et hydratée, et une diminution des rides. La version plus courte augmenta significativement les ventes auprès d’un groupe de clients sélectionnés au hasard.

D’autres expériences ont révélé que le LLM omettait certains bénéfices dans les titres des produits. C’est ainsi que la suppression par l’IA des mots « peau éclatante » du titre du produit (qui est passé ainsi de « Gel douche moussant au beurre de mangue pour une peau éclatante, 400 ml (lot de 4) » à « Gel douche moussant au beurre de mangue, 400 ml, lot de 4 ») a eu un impact négatif sur les ventes.

Dans l’ensemble, les expériences ont montré qu’environ 40 % du contenu généré par l’IA qui passe les contrôles de fiabilité d’Amazon soit améliore les principaux indicateurs de performance, tels que la conversion des clients en ventes, soit n’a aucun impact, positif ou négatif. En revanche, les 60 % restants produisent des résultats nettement négatifs. Ce contenu n’est généralement pas publié dans le catalogue de l’entreprise.

4/ Créer un système d’apprentissage

Un système qualité idéal devrait être un système d’apprentissage qui s’améliore continuellement avec peu d’interventions humaines, voire pas du tout. Et le système d’Amazon génère des données qui améliorent les performances de son LLM, le rendant plus effi cace pour remettre en question les hypothèses sur ce que les clients aiment ou n’aiment pas. Néanmoins, les scientifiques de l’entreprise ont constaté qu’il est toujours utile d’impliquer de temps à autre des êtres humains pour générer de meilleures données d’apprentissage. Par exemple, les analyses humaines d’expériences négatives permettent parfois de détecter et de corriger des failles dans le LLM. Au cours d’un examen, une équipe s’est aperçue que le LLM indiquait, de manière erronée, « sans garantie » par défaut lorsqu’aucune information n’était fournie. Cependant, à mesure que Catalog AI s’améliorera, l’intervention humaine se limitera à la conception du système et aux décisions relatives à l’infrastructure. Voici les éléments nécessaires à la création d’un système d’apprentissage.

Un modèle client. Pour accélérer le retour d’information, les entreprises peuvent développer une métrique composite modélisant les préférences des clients. Bien que disposer d’un modèle client ne soit pas, à proprement parler, une exigence pour construire un système d’apprentissage, il rend le système beaucoup plus rapide, à condition qu’il soit précis. Un modèle permet à une entreprise d’obtenir un retour d’information quasiment instantané en menant des expériences virtuelles. De même que l’on peut réaliser des simulations de collisions automobiles sur ordinateur plutôt que d’endommager des prototypes physiques, les tests des résultats de l’IA peuvent être effectués beaucoup plus vite, car ils ne nécessitent plus l’implication de clients réels.

Concevoir une métrique qui réagisse de la même manière qu’un client type nécessite une réflexion approfondie. L’entreprise doit déterminer quelles sont les données à inclure et les valider par de nombreuses expériences clients. Catalog AI utilise un modèle client ainsi que des tests en direct : la métrique Catalog Data Quality (CDQ). Elle contient des informations provenant de règles, de profils statistiques et de contrôles de fiabilité. À terme, la CDQ remplacera la plupart des tests impliquant de vrais clients, ce qui accélérera l’apprentissage du système.

Des expériences multivariées. Outre les tests A/B, le système d’Amazon utilise des expériences multivariées – c’est-à-dire des expériences plus élaborées qui fournissent des aperçus approfondis sur la manière dont plusieurs variables (par exemple, le texte, la couleur et les images) interagissent ou déterminent les meilleurs choix de conception. Les algorithmes d’Amazon dégagent des tendances et les analysent à l’aide d’expériences multivariées sur des produits dont les pages Web bénéficient d’un trafic client élevé et dont l’impact sur les principales métriques de performance est statistiquement significatif. Les expériences donnant les résultats les plus notables (celles qui ont un impact positif supérieur à 1 % sur certaines métriques principales et un impact négatif inférieur à 1% sur d’autres) sont examinées par des data scientists afin d’y déceler des tendances et des erreurs. Compte tenu du volume du trafic client et des transactions sur la marketplace d’Amazon, même de petits changements dans des millions de fiches produits peuvent se traduire par des milliards de dollars de recettes supplémentaires. Les entreprises dont le trafic sur le site Web est nettement inférieur auront des seuils différents de ceux d’Amazon pour la mise en oeuvre d’une modification.

Bien que l’objectif soit que Catalog AI apprenne de lui-même de façon automatique, les utilisateurs contribuent désormais à son processus d’apprentissage. Certaines expériences isolent des effets et créent des anecdotes pouvant être partagées entre l’équipe qui gère Catalog AI et les data scientists.

Par exemple, l’équipe Catalog AI Titles peut demander au LLM de générer des titres de produits de longueurs variables et des contenus informatifs différents :

Protéines végétales en poudre de marque X, vanille, 22 g de protéines, 20 doses (79 caractères) Protéines végétales en poudre de marque X, vanille, 22 g de protéines, sans OGM, vegan, sans gluten, sans produits laitiers ni soja, 20 doses (141 caractères)Protéines végétales de marque X, vanille, 22 g de protéines, sans OGM, vegan, sans gluten, sans produits laitiers ni soja, sans arômes artificiels, sans colorants synthétiques, sans conservateurs ni additifs, 20 doses (217 caractères)

Des expériences permettent de déterminer lequel de ces trois titres de produits est le plus efficace, puis de l’utiliser pour entraîner le LLM. En générant de meilleures données d’entraînement pour toutes les catégories de produits, la qualité des résultats de Catalog AI s’est considérablement améliorée : aujourd’hui, 80 % des résultats de Catalog AI passent avec succès les contrôles qualité initiaux.

Des tests de concepts. Lors de son lancement, Catalog AI a généré des millions de modifications de fiches produits qui ont dû être testées auprès des clients. En principe, chaque modification aurait dû être testée dans le cadre d’une expérience indépendante, mais de nombreuses fiches produits ne suscitent pas suffisamment de trafic client pour atteindre les tailles d’échantillon critiques requises. (Pour obtenir une fiabilité statistique, plus l’effet attendu d’une modification est faible et plus le nombre d’observations nécessaires pour la distinguer du bruit de fond est élevé.)

Lorsque le trafic client n’est pas suffisamment important – moins d’un million de vues –, la plateforme d’expérimentation analyse automatiquement le contenu généré par l’IA en rassemblant les fiches de produits similaires dans des tests à concept unique pour découvrir des informations. Un algorithme spécial regroupe le contenu, parfois à partir de milliers de fiches générées par l’IA, en fonction des catégories de produits. (Pour les produits totalisant plus d’un million de vues, une expérience autonome est menée.) Les lots sont aussi réduits que possible, tout en respectant les exigences en matière de tailles d’échantillons statistiques. L’IA génère des milliers de variantes pour améliorer la description, mettons, de cafetières, variantes qui sont combinées dans une expérience à concept unique. Ces expériences peuvent remettre en question les hypothèses sur les préférences clients n’ayant jamais été testées.

C’est ainsi qu’une expérience a remis en question une hypothèse admise de longue date par les spécialistes et qui avait été intégrée dans les modèles de machine learning : à savoir que les acheteurs préfèrent un fort contraste entre un fond blanc et le produit affiché. Le test de concept explora la manière dont les images améliorées par l’IA impacteraient l’engagement des clients. Les milliers de pages que généra l’IA proposaient des suggestions pour l’arrière-plan qui montraient les produits dans l’environnement de l’acheteur. Ces suggestions furent regroupées dans un test de concept, lequel avait un témoin sur fond blanc et un mannequin portant un haut thermique noir. L’image testée comportait un fond enrichi, avec le mannequin portant le haut noir au milieu d’un décor intérieur afi n d’aider les clients à visualiser le produit dans son usage quotidien. L’expérience établit que l’ajout d’un arrière-plan enrichi augmentait les ventes, et ce changement fut mis en oeuvre pour des centaines d’articles de mode basiques.

Améliorer l’efficacité des projets d’IA

Une fois que les systèmes qualité sont en place, ils peuvent faire plus que gérer la qualité des résultats générés par l’IA ; ils peuvent également aider à orienter les ressources vers les projets d’IA en cours ayant le meilleur retour sur investissement. En général, les groupes d’entreprises menant ces initiatives soumettent des estimations trop optimistes de leurs rendements financiers attendus, qui, à leur tour, déterminent l’affectation des spécialistes et des ressources informatiques. (En fait, 41 % des 2 770 chefs d’entreprise de six secteurs d’activité interrogés par Deloitte en 2024 ont déclaré que leurs organisations avaient du mal à défi nir et à mesurer l’impact de leurs eff orts en matière d’IA générative.) Lorsque, au contraire, le système qualité teste l’effi cacité des nouveaux projets auprès des clients, les dirigeants peuvent s’appuyer sur des indices tangibles pour décider de la meilleure façon d’allouer les ressources. Cela leur permet également de revoir l’allocation plus fréquemment en fonction des tests en cours.

Ce système permet notamment à une entreprise d’apprendre à partir de prototypes, pour quantifi er l’impact des efforts concernant un projet sur des sous-ensembles de clients, avant de procéder à un déploiement à plus grande échelle. Les améliorations apportées à Catalog AI commencent souvent sous forme de prototypes, qui sont parfois en concurrence les uns avec les autres. Les équipes eff ectuent des expériences et utilisent les résultats pour demander des ressources supplémentaires afi n de les faire évoluer, et les vainqueurs sont déployés par la suite. Le projet Amelia d’Amazon, son assistant d’IA générative destiné aux vendeurs, est progressivement mis à la disposition d’un plus grand nombre d’entre eux, tandis que les performances du modèle sont surveillées et les commentaires clients pris en compte.

L’expérimentation peut aussi permettre de gérer les compromis liés à l’infrastructure IA, notamment entre les performances des modèles et les coûts de calcul. Augmenter la taille des LLM peut n’apporter que des avantages marginaux et leur apprentissage prendre beaucoup de temps. En réalisant des expérimentations, Amazon a constaté que certains modèles plus petits ont de meilleures performances que des modèles plus grands, car ils nécessitent moins de ressources, peuvent être réentraînés plus fréquemment et ont des temps de réponse plus rapides aux demandes des clients. D’autres entreprises peuvent réaliser des expériences similaires pour décider quelle marche à suivre leur serait le plus profi table sur des questions comme développer des LLM en interne ou utiliser des modèles provenant de tiers.

Il y a plusieurs décennies, David Garvin, professeur à la Harvard Business School, a écrit un article sur l’avantage durable que procuraient aux entreprises les systèmes qualité (voir « Quality on the Line », HBR édition américaine, septembre-octobre 1983). Dans son étude sur les fabricants de climatiseurs individuels, il a constaté que les taux de défaillance des produits vendus par les fabricants de la plus haute qualité étaient entre 500 et 1 000 fois inférieurs à ceux des fabricants de la plus basse qualité. Atteindre un niveau de qualité élevé, concluait-il, se résumait à disposer d’un système rigoureux de contrôle qualité. À l’ère de l’IA, la leçon de Garvin est toujours d’actualité.

Pour accéder à l’intégralité de tous nos articles : cliquez ici

A lire aussi :

Comment résoudre le problème du contrôle qualité de l’IA générative ?

Tags: