{"id":7241,"date":"2026-02-16T22:11:22","date_gmt":"2026-02-16T22:11:22","guid":{"rendered":"https:\/\/www.europesays.com\/ch-fr\/7241\/"},"modified":"2026-02-16T22:11:22","modified_gmt":"2026-02-16T22:11:22","slug":"comment-resoudre-le-probleme-du-controle-qualite-de-lia-generative","status":"publish","type":"post","link":"https:\/\/www.europesays.com\/ch-fr\/7241\/","title":{"rendered":"Comment r\u00e9soudre le probl\u00e8me du contr\u00f4le qualit\u00e9 de l\u2019IA g\u00e9n\u00e9rative ?"},"content":{"rendered":"<p>Pour garantir la qualit\u00e9 des donn\u00e9es, Amazon s\u2019appuyait par le pass\u00e9 sur l\u2019expertise de milliers d\u2019employ\u00e9s sp\u00e9cialis\u00e9s dans la gestion des fiches produits. L\u2019entreprise utilisait \u00e9galement des centaines de mod\u00e8les de <a href=\"https:\/\/www.hbrfrance.fr\/innovation\/ai-machine-learning-pour-une-personnalisation-reussie-61083\" rel=\"nofollow noopener\" target=\"_blank\">machine learning<\/a> (ML), chacun optimis\u00e9 pour une cat\u00e9gorie de produits (comme les chemises ou les t\u00e9l\u00e9viseurs) et un \u00e9l\u00e9ment de mise en page (comme les titres ou les descriptions des produits). Les sp\u00e9cialistes travaillaient avec ces mod\u00e8les pour ajouter ou supprimer des informations, identifier les inexactitudes, consolider les renseignements, traduire le texte dans diff\u00e9rentes langues et int\u00e9grer des donn\u00e9es provenant de sources ext\u00e9rieures. Ces mod\u00e8les traditionnels de ML ont leurs limites : ils sont plus adapt\u00e9s aux ensembles de donn\u00e9es structur\u00e9s de petite taille, et leur application \u00e0 diff\u00e9rentes cat\u00e9gories de produits est co\u00fbteuse. Un mod\u00e8le de ML entra\u00een\u00e9, disons, sur les chemises ne peut pas \u00eatre utilis\u00e9 de mani\u00e8re rentable pour les t\u00e9l\u00e9viseurs ou tout produit autre que les chemises. En revanche, les grands mod\u00e8les linguistiques (LLM) sont form\u00e9s sur de vastes ensembles de donn\u00e9es et fonctionnent pour toutes les cat\u00e9gories de produits. En rempla\u00e7ant les mod\u00e8les de ML par des LLM, Amazon a simplifi\u00e9 son infrastructure technologique (moins de mod\u00e8les), son organisation (moins de sp\u00e9cialistes op\u00e9rationnels) et a ainsi r\u00e9duit ses co\u00fbts. <\/p>\n<p>Garantir la fiabilit\u00e9 de la nouvelle approche <\/p>\n<p>Au cours des premi\u00e8res semaines qui ont suivi le lancement de Catalog AI, environ 8 % de ses r\u00e9sultats n\u2019\u00e9taient pas fiables. Le syst\u00e8me inventait des informations, en omettait d\u2019autres ou donnait des conseils qui n\u2019int\u00e9ressaient pas les clients. Par exemple, il indiquait qu\u2019une pompe \u00e9lectrique poss\u00e9dait une puissance de 15 chevaux, alors que cette information n\u2019\u00e9tait pas disponible. De m\u00eame, lorsqu\u2019on lui demandait des informations sur le mat\u00e9riau d\u2019un canap\u00e9, le mod\u00e8le fournissait des pr\u00e9cisions sur le mat\u00e9riau utilis\u00e9 pour le cadre plut\u00f4t que pour les si\u00e8ges, ces derniers \u00e9tant ce qui int\u00e9ressait la plupart des clients. Pour rem\u00e9dier \u00e0 ces probl\u00e8mes de qualit\u00e9 et tester l\u2019efficacit\u00e9 des changements possibles, Amazon a pris les quatre mesures suivantes. <\/p>\n<p>1\/ R\u00e9aliser un audit <\/p>\n<p>Pour pouvoir effectuer un suivi, une entreprise doit conna\u00eetre les performances de base du syst\u00e8me. Dans l\u2019industrie manufacturi\u00e8re, cela se fait en \u00e9valuant un processus pendant une p\u00e9riode stable et en utilisant ces informations pour fixer des limites de contr\u00f4le. Amazon a fait en sorte que le LLM g\u00e9n\u00e8re des milliers de pages produits qui \u00e9taient d\u00e9j\u00e0 connues. Les auditeurs humains ont alors compar\u00e9 les pages du LLM avec les informations existantes, not\u00e9 leur fiabilit\u00e9 et analys\u00e9 les causes profondes des mauvaises performances \u00e9ventuelles. Cela a conduit \u00e0 un certain nombre d\u2019am\u00e9liorations rapides, que nous d\u00e9crirons ci-dessous. <\/p>\n<p>2\/ D\u00e9ployer des garde-fous <\/p>\n<p>Une \u00ab hallucination \u00bb \u2013 c\u2019est-\u00e0-dire un r\u00e9sultat faux ou inexact pr\u00e9sent\u00e9 comme vrai \u2013 survient g\u00e9n\u00e9ralement lorsqu\u2019un mod\u00e8le parvient \u00e0 une conclusion qui ne repose pas sur les donn\u00e9es d\u2019entr\u00e9e. Une fa\u00e7on d\u2019am\u00e9liorer la fiabilit\u00e9 et d\u2019\u00e9viter les hallucinations consiste \u00e0 contraindre le LLM, de mani\u00e8re qu\u2019il ne produise que des r\u00e9sultats d\u00e9riv\u00e9s de donn\u00e9es sp\u00e9cifiques \u00e0 l\u2019entreprise et non des informations g\u00e9n\u00e9rales provenant du Web ou de sources de donn\u00e9es sans rapport avec celle-ci. Mais il y a un compromis \u00e0 faire : plus le LLM est libre d\u2019acc\u00e9der aux donn\u00e9es internes et externes, et plus le syst\u00e8me peut explorer, modifier et tester de nouvelles id\u00e9es. Par exemple, en s\u2019appuyant sur des informations obtenues sur le Web, le LLM peut conseiller de ne pas passer les assiettes en carton au lave-vaisselle. Imposer trop de contraintes aux entr\u00e9es d\u2019un LLM r\u00e9duit sa capacit\u00e9 \u00e0 faire de telles d\u00e9ductions. C\u2019est pourquoi, au lieu de limiter les entr\u00e9es de son LLM, Amazon a d\u00e9cid\u00e9 de mettre en place trois autres types de contraintes. <\/p>\n<p>Des r\u00e8gles simples. Pour garantir la fiabilit\u00e9, on peut demander au syst\u00e8me de rejeter les contenus qui ne respectent pas certaines r\u00e8gles. Exemple de r\u00e8gle : un nombre indiquant un poids doit \u00eatre suivi d\u2019unit\u00e9s de mesure, comme kilogrammes ou livres. Amazon a cr\u00e9\u00e9 une r\u00e8gle selon laquelle Catalog AI doit rejeter les suggestions apportant des modifications mineures \u00e0 la fiche existante (par exemple, en changeant le style du produit de \u00ab contemporain \u00bb en \u00ab moderne \u00bb). Des r\u00e8gles simples r\u00e9gissent \u00e9galement la mise en page afin que les clients b\u00e9n\u00e9ficient d\u2019une exp\u00e9rience coh\u00e9rente sur l\u2019ensemble du site. <\/p>\n<p>Des profils statistiques. Les garde-fous fonctionnent comme les limites de la ma\u00eetrise statistique des proc\u00e9d\u00e9s (MSP) dans les usines. Lorsque des variables de processus d\u00e9passent ces limites, une alarme se d\u00e9clenche, et la cause profonde du probl\u00e8me est examin\u00e9e. Pour cr\u00e9er de tels garde-fous pour les mod\u00e8les d\u2019IA g\u00e9n\u00e9rative, les entreprises peuvent utiliser les donn\u00e9es sur les produits existants afi n de d\u00e9terminer si le produit se situe dans une fourchette attendue. Par exemple, un LLM pourra g\u00e9n\u00e9rer des informations produit sur une table vendue par un fournisseur tiers. Les informations sur les tables habituelles vendues dans la boutique en ligne d\u2019Amazon sont utilis\u00e9es pour \u00e9tablir les garde-fous. Quand les informations produit cr\u00e9\u00e9es par le LLM sortent des limites de contr\u00f4le, le LLM est interrog\u00e9 par un autre LLM. Dans certains cas, le premier LLM peut reconna\u00eetre ses propres erreurs lorsqu\u2019il est invit\u00e9 \u00e0 expliquer la raison d\u2019\u00eatre de ses informations. <\/p>\n<p>L\u2019IA contr\u00f4lant l\u2019IA. Ce que nous venons de d\u00e9crire en est un exemple. Mais il n\u2019est pas possible d\u2019avoir des r\u00e8gles ou des garde-fous qui couvrent tous les r\u00e9sultats possibles de l\u2019IA. Le second syst\u00e8me d\u2019IA g\u00e9n\u00e9rative peut s\u2019en charger. Amazon utilise l\u2019IA g\u00e9n\u00e9rative pour rechercher les probl\u00e8mes pos\u00e9s par l\u2019IA g\u00e9n\u00e9rative. Le premier LLM, le g\u00e9n\u00e9rateur de contenu, est form\u00e9 pour construire des hypoth\u00e8ses ; le second, le r\u00e9viseur de contenu, est form\u00e9 pour v\u00e9rifier les r\u00e9sultats du premier. Ils sont connect\u00e9s et engagent automatiquement des conversations en puisant dans leurs diff\u00e9rentes connaissances de base. <\/p>\n<p>Par exemple, Amazon utilise un LLM pour d\u00e9tecter les incoh\u00e9rences entre les pages produits \u2013 notamment en s\u2019assurant que la couleur dans le titre du produit correspond bien \u00e0 celle de l\u2019image. Si une divergence est d\u00e9tect\u00e9e, les modifi cations apport\u00e9es aux informations d\u2019un produit sont bloqu\u00e9es. Le syst\u00e8me d\u2019IA g\u00e9n\u00e9rative peut \u00eatre interrog\u00e9 par l\u2019examinateur de contenu, qui lui posera des questions comme : \u00ab Pourquoi la nouvelle page produit est-elle meilleure que la page existante ? \u00bb Ce qui obligera le g\u00e9n\u00e9rateur de contenu \u00e0 analyser le r\u00e9sultat et \u00e9ventuellement \u00e0 abandonner sa suggestion initiale. Pour augmenter la rigueur des contr\u00f4les de fiabilit\u00e9, Catalog AI peut se connecter \u00e0 des LLM internes et externes entra\u00een\u00e9s sur des donn\u00e9es diff\u00e9rentes. Parce qu\u2019ils ont \u00e9t\u00e9 form\u00e9s sur des informations diff \u00e9rentes, ces LLM d\u00e9tectent des probl\u00e8mes diff\u00e9rents. Par exemple, si le g\u00e9n\u00e9rateur LLM commet une erreur de raisonnement et calcule mal le volume du produit, l\u2019examinateur LLM, entra\u00een\u00e9 sur un ensemble de donn\u00e9es distinct, sera susceptible de d\u00e9tecter l\u2019erreur et de la bloquer. <\/p>\n<p>Une fois qu\u2019une hypoth\u00e8se provenant de l\u2019IA g\u00e9n\u00e9rative a pass\u00e9 tous les contr\u00f4les qualit\u00e9, elle est alors publi\u00e9e sur une plateforme d\u2019exp\u00e9rimentation, o\u00f9 son effi cacit\u00e9 peut \u00eatre \u00e9valu\u00e9e : le changement propos\u00e9 augmentera-t-il le chiff re d\u2019affaires ou la quantit\u00e9 d\u2019unit\u00e9s vendues ? <\/p>\n<p>3\/ Tester l\u2019efficacit\u00e9 <\/p>\n<p>Les entreprises ont besoin de trouver des moyens efficaces d\u2019\u00e9valuer quelles id\u00e9es sont pertinentes parmi les nombreuses id\u00e9es produites par l\u2019IA g\u00e9n\u00e9rative. Auparavant, les sp\u00e9cialistes du catalogue d\u2019Amazon cr\u00e9aient des r\u00e8gles et des algorithmes qui approuvaient, concevaient et am\u00e9lioraient automatiquement les mises en page qu\u2019ils jugeaient les plus performantes. Cette approche avait plusieurs limites : en cr\u00e9ant ces r\u00e8gles et ces algorithmes, les sp\u00e9cialistes int\u00e9graient des hypoth\u00e8ses non v\u00e9rifi\u00e9es et utilisaient des tests qui n\u2019\u00e9taient pas toujours rentables ni automatis\u00e9s. De plus, les \u00e9tudes de march\u00e9 traditionnelles (par exemple, les groupes de discussion et les sondages) pouvaient \u00eatre trompeuses, car ce que disaient les clients ne correspondait pas toujours \u00e0 ce qu\u2019ils faisaient. Il \u00e9tait donc tr\u00e8s difficile d\u2019anticiper leurs pr\u00e9f\u00e9rences. Un membre de la direction de Booking.com a confi\u00e9 \u00e0 l\u2019un d\u2019entre nous (Stefan) : \u00ab Nous constatons chaque jour que les gens sont tr\u00e8s mauvais pour ce qui est de jouer aux devinettes. Nos pr\u00e9dictions sur le comportement des clients sont fausses neuf fois sur dix. \u00bb <\/p>\n<p>Afin d\u2019identifier les changements qui trouvent un \u00e9cho aupr\u00e8s des clients, l\u2019\u00e9quipe de Catalog AI a int\u00e9gr\u00e9 des tests A\/B dans le fux de travail du syst\u00e8me. Tester scientifiquement le volume extr\u00eamement \u00e9lev\u00e9 de r\u00e9sultats fournis par l\u2019IA g\u00e9n\u00e9rative n\u00e9cessite une infrastructure d\u2019exp\u00e9rimentation : des instruments (pour enregistrer des \u00e9l\u00e9ments tels que les clics, les survols de souris et les horaires des \u00e9v\u00e9nements), des pipelines de donn\u00e9es et des data scientists. Plusieurs outils et services de tierces parties facilitent les exp\u00e9riences, mais, pour passer \u00e0 l\u2019\u00e9chelle sup\u00e9rieure, une entreprise doit int\u00e9grer \u00e9troitement cette fonctionnalit\u00e9 \u00e0 son flux de travail. Chez Amazon, l\u2019infrastructure est enti\u00e8rement automatis\u00e9e : toutes les modifi cations des pages produits propos\u00e9es par Catalog AI sont soumises \u00e0 des tests A\/B. <\/p>\n<p>Il effectue une exp\u00e9rience contr\u00f4l\u00e9e qui compare deux possibilit\u00e9s (ou plus) : \u00ab A \u00bb (le t\u00e9moin, ou champion) correspond \u00e0 la fiche actuelle de produit et \u00ab B \u00bb (le challenger) est une modification de ces informations g\u00e9n\u00e9r\u00e9e par l\u2019IA dans un but pr\u00e9cis : par exemple, am\u00e9liorer les taux de conversion clients. Les utilisateurs sont assign\u00e9s de fa\u00e7on al\u00e9atoire \u00e0 ces exp\u00e9riences, et des m\u00e9triques composites sont calcul\u00e9es et compar\u00e9es. Ces m\u00e9triques doivent \u00eatre align\u00e9es sur les objectifs strat\u00e9giques ; les meilleures m\u00e9triques \u00e0 court terme permettent \u00e9galement de pr\u00e9dire les r\u00e9sultats \u00e0 long terme. (Voir \u00ab The Surprising Power of Online Experiments \u00bb, HBR \u00e9dition am\u00e9ricaine, septembre-octobre 2017.) <\/p>\n<p>Lors d\u2019une exp\u00e9rience r\u00e9cente portant sur un produit de soin de la peau, Catalog AI a g\u00e9n\u00e9r\u00e9 une description du challenger ax\u00e9e sur les principales qualit\u00e9s du produit ; la description du champion contenait une longue liste de caract\u00e9ristiques et de leurs avantages. Alors que le champion expliquait en d\u00e9tail les actions b\u00e9n\u00e9fiques d\u00e9coulant de ces caract\u00e9ristiques, telles que le d\u00e9bouchage des pores, l\u2019am\u00e9lioration de la texture de la peau et la r\u00e9duction des rougeurs, la version beaucoup plus courte propos\u00e9e par l\u2019IA se contentait d\u2019\u00e9num\u00e9rer les effets positifs du produit : une peau plus lisse et hydrat\u00e9e, et une diminution des rides. La version plus courte augmenta significativement les ventes aupr\u00e8s d\u2019un groupe de clients s\u00e9lectionn\u00e9s au hasard. <\/p>\n<p>D\u2019autres exp\u00e9riences ont r\u00e9v\u00e9l\u00e9 que le LLM omettait certains b\u00e9n\u00e9fices dans les titres des produits. C\u2019est ainsi que la suppression par l\u2019IA des mots \u00ab peau \u00e9clatante \u00bb du titre du produit (qui est pass\u00e9 ainsi de \u00ab Gel douche moussant au beurre de mangue pour une peau \u00e9clatante, 400 ml (lot de 4) \u00bb \u00e0 \u00ab Gel douche moussant au beurre de mangue, 400 ml, lot de 4 \u00bb) a eu un impact n\u00e9gatif sur les ventes. <\/p>\n<p>Dans l\u2019ensemble, les exp\u00e9riences ont montr\u00e9 qu\u2019environ 40 % du contenu g\u00e9n\u00e9r\u00e9 par l\u2019IA qui passe les contr\u00f4les de fiabilit\u00e9 d\u2019Amazon soit am\u00e9liore les principaux indicateurs de performance, tels que la conversion des clients en ventes, soit n\u2019a aucun impact, positif ou n\u00e9gatif. En revanche, les 60 % restants produisent des r\u00e9sultats nettement n\u00e9gatifs. Ce contenu n\u2019est g\u00e9n\u00e9ralement pas publi\u00e9 dans le catalogue de l\u2019entreprise. <\/p>\n<p>4\/ Cr\u00e9er un syst\u00e8me d\u2019apprentissage <\/p>\n<p>Un syst\u00e8me qualit\u00e9 id\u00e9al devrait \u00eatre un syst\u00e8me d\u2019apprentissage qui s\u2019am\u00e9liore continuellement avec peu d\u2019interventions humaines, voire pas du tout. Et le syst\u00e8me d\u2019Amazon g\u00e9n\u00e8re des donn\u00e9es qui am\u00e9liorent les performances de son LLM, le rendant plus effi cace pour remettre en question les hypoth\u00e8ses sur ce que les clients aiment ou n\u2019aiment pas. N\u00e9anmoins, les scientifiques de l\u2019entreprise ont constat\u00e9 qu\u2019il est toujours utile d\u2019impliquer de temps \u00e0 autre des \u00eatres humains pour g\u00e9n\u00e9rer de meilleures donn\u00e9es d\u2019apprentissage. Par exemple, les analyses humaines d\u2019exp\u00e9riences n\u00e9gatives permettent parfois de d\u00e9tecter et de corriger des failles dans le LLM. Au cours d\u2019un examen, une \u00e9quipe s\u2019est aper\u00e7ue que le LLM indiquait, de mani\u00e8re erron\u00e9e, \u00ab sans garantie \u00bb par d\u00e9faut lorsqu\u2019aucune information n\u2019\u00e9tait fournie. Cependant, \u00e0 mesure que Catalog AI s\u2019am\u00e9liorera, l\u2019intervention humaine se limitera \u00e0 la conception du syst\u00e8me et aux d\u00e9cisions relatives \u00e0 l\u2019infrastructure. Voici les \u00e9l\u00e9ments n\u00e9cessaires \u00e0 la cr\u00e9ation d\u2019un syst\u00e8me d\u2019apprentissage.<\/p>\n<p>Un mod\u00e8le client. Pour acc\u00e9l\u00e9rer le retour d\u2019information, les entreprises peuvent d\u00e9velopper une m\u00e9trique composite mod\u00e9lisant les pr\u00e9f\u00e9rences des clients. Bien que disposer d\u2019un mod\u00e8le client ne soit pas, \u00e0 proprement parler, une exigence pour construire un syst\u00e8me d\u2019apprentissage, il rend le syst\u00e8me beaucoup plus rapide, \u00e0 condition qu\u2019il soit pr\u00e9cis. Un mod\u00e8le permet \u00e0 une entreprise d\u2019obtenir un retour d\u2019information quasiment instantan\u00e9 en menant des exp\u00e9riences virtuelles. De m\u00eame que l\u2019on peut r\u00e9aliser des simulations de collisions automobiles sur ordinateur plut\u00f4t que d\u2019endommager des prototypes physiques, les tests des r\u00e9sultats de l\u2019IA peuvent \u00eatre effectu\u00e9s beaucoup plus vite, car ils ne n\u00e9cessitent plus l\u2019implication de clients r\u00e9els. <\/p>\n<p>Concevoir une m\u00e9trique qui r\u00e9agisse de la m\u00eame mani\u00e8re qu\u2019un client type n\u00e9cessite une r\u00e9flexion approfondie. L\u2019entreprise doit d\u00e9terminer quelles sont les donn\u00e9es \u00e0 inclure et les valider par de nombreuses exp\u00e9riences clients. Catalog AI utilise un mod\u00e8le client ainsi que des tests en direct : la m\u00e9trique Catalog Data Quality (CDQ). Elle contient des informations provenant de r\u00e8gles, de profils statistiques et de contr\u00f4les de fiabilit\u00e9. \u00c0 terme, la CDQ remplacera la plupart des tests impliquant de vrais clients, ce qui acc\u00e9l\u00e9rera l\u2019apprentissage du syst\u00e8me. <\/p>\n<p>Des exp\u00e9riences multivari\u00e9es. Outre les tests A\/B, le syst\u00e8me d\u2019Amazon utilise des exp\u00e9riences multivari\u00e9es \u2013 c\u2019est-\u00e0-dire des exp\u00e9riences plus \u00e9labor\u00e9es qui fournissent des aper\u00e7us approfondis sur la mani\u00e8re dont plusieurs variables (par exemple, le texte, la couleur et les images) interagissent ou d\u00e9terminent les meilleurs choix de conception. Les algorithmes d\u2019Amazon d\u00e9gagent des tendances et les analysent \u00e0 l\u2019aide d\u2019exp\u00e9riences multivari\u00e9es sur des produits dont les pages Web b\u00e9n\u00e9ficient d\u2019un trafic client \u00e9lev\u00e9 et dont l\u2019impact sur les principales m\u00e9triques de performance est statistiquement significatif. Les exp\u00e9riences donnant les r\u00e9sultats les plus notables (celles qui ont un impact positif sup\u00e9rieur \u00e0 1 % sur certaines m\u00e9triques principales et un impact n\u00e9gatif inf\u00e9rieur \u00e0 1% sur d\u2019autres) sont examin\u00e9es par des data scientists afin d\u2019y d\u00e9celer des tendances et des erreurs. Compte tenu du volume du trafic client et des transactions sur la marketplace d\u2019Amazon, m\u00eame de petits changements dans des millions de fiches produits peuvent se traduire par des milliards de dollars de recettes suppl\u00e9mentaires. Les entreprises dont le trafic sur le site Web est nettement inf\u00e9rieur auront des seuils diff\u00e9rents de ceux d\u2019Amazon pour la mise en oeuvre d\u2019une modification. <\/p>\n<p>Bien que l\u2019objectif soit que Catalog AI apprenne de lui-m\u00eame de fa\u00e7on automatique, les utilisateurs contribuent d\u00e9sormais \u00e0 son processus d\u2019apprentissage. Certaines exp\u00e9riences isolent des effets et cr\u00e9ent des anecdotes pouvant \u00eatre partag\u00e9es entre l\u2019\u00e9quipe qui g\u00e8re Catalog AI et les data scientists. <\/p>\n<p>Par exemple, l\u2019\u00e9quipe Catalog AI Titles peut demander au LLM de g\u00e9n\u00e9rer des titres de produits de longueurs variables et des contenus informatifs diff\u00e9rents : <\/p>\n<p>Prot\u00e9ines v\u00e9g\u00e9tales en poudre de marque X, vanille, 22 g de prot\u00e9ines, 20 doses (79 caract\u00e8res) Prot\u00e9ines v\u00e9g\u00e9tales en poudre de marque X, vanille, 22 g de prot\u00e9ines, sans OGM, vegan, sans gluten, sans produits laitiers ni soja, 20 doses (141 caract\u00e8res)Prot\u00e9ines v\u00e9g\u00e9tales de marque X, vanille, 22 g de prot\u00e9ines, sans OGM, vegan, sans gluten, sans produits laitiers ni soja, sans ar\u00f4mes artificiels, sans colorants synth\u00e9tiques, sans conservateurs ni additifs, 20 doses (217 caract\u00e8res) <\/p>\n<p>Des exp\u00e9riences permettent de d\u00e9terminer lequel de ces trois titres de produits est le plus efficace, puis de l\u2019utiliser pour entra\u00eener le LLM. En g\u00e9n\u00e9rant de meilleures donn\u00e9es d\u2019entra\u00eenement pour toutes les cat\u00e9gories de produits, la qualit\u00e9 des r\u00e9sultats de Catalog AI s\u2019est consid\u00e9rablement am\u00e9lior\u00e9e : aujourd\u2019hui, 80 % des r\u00e9sultats de Catalog AI passent avec succ\u00e8s les contr\u00f4les qualit\u00e9 initiaux. <\/p>\n<p>Des tests de concepts. Lors de son lancement, Catalog AI a g\u00e9n\u00e9r\u00e9 des millions de modifications de fiches produits qui ont d\u00fb \u00eatre test\u00e9es aupr\u00e8s des clients. En principe, chaque modification aurait d\u00fb \u00eatre test\u00e9e dans le cadre d\u2019une exp\u00e9rience ind\u00e9pendante, mais de nombreuses fiches produits ne suscitent pas suffisamment de trafic client pour atteindre les tailles d\u2019\u00e9chantillon critiques requises. (Pour obtenir une fiabilit\u00e9 statistique, plus l\u2019effet attendu d\u2019une modification est faible et plus le nombre d\u2019observations n\u00e9cessaires pour la distinguer du bruit de fond est \u00e9lev\u00e9.) <\/p>\n<p>Lorsque le trafic client n\u2019est pas suffisamment important \u2013 moins d\u2019un million de vues \u2013, la plateforme d\u2019exp\u00e9rimentation analyse automatiquement le contenu g\u00e9n\u00e9r\u00e9 par l\u2019IA en rassemblant les fiches de produits similaires dans des tests \u00e0 concept unique pour d\u00e9couvrir des informations. Un algorithme sp\u00e9cial regroupe le contenu, parfois \u00e0 partir de milliers de fiches g\u00e9n\u00e9r\u00e9es par l\u2019IA, en fonction des cat\u00e9gories de produits. (Pour les produits totalisant plus d\u2019un million de vues, une exp\u00e9rience autonome est men\u00e9e.) Les lots sont aussi r\u00e9duits que possible, tout en respectant les exigences en mati\u00e8re de tailles d\u2019\u00e9chantillons statistiques. L\u2019IA g\u00e9n\u00e8re des milliers de variantes pour am\u00e9liorer la description, mettons, de cafeti\u00e8res, variantes qui sont combin\u00e9es dans une exp\u00e9rience \u00e0 concept unique. Ces exp\u00e9riences peuvent remettre en question les hypoth\u00e8ses sur les pr\u00e9f\u00e9rences clients n\u2019ayant jamais \u00e9t\u00e9 test\u00e9es.<\/p>\n<p>C\u2019est ainsi qu\u2019une exp\u00e9rience a remis en question une hypoth\u00e8se admise de longue date par les sp\u00e9cialistes et qui avait \u00e9t\u00e9 int\u00e9gr\u00e9e dans les mod\u00e8les de machine learning : \u00e0 savoir que les acheteurs pr\u00e9f\u00e8rent un fort contraste entre un fond blanc et le produit affich\u00e9. Le test de concept explora la mani\u00e8re dont les images am\u00e9lior\u00e9es par l\u2019IA impacteraient l\u2019engagement des clients. Les milliers de pages que g\u00e9n\u00e9ra l\u2019IA proposaient des suggestions pour l\u2019arri\u00e8re-plan qui montraient les produits dans l\u2019environnement de l\u2019acheteur. Ces suggestions furent regroup\u00e9es dans un test de concept, lequel avait un t\u00e9moin sur fond blanc et un mannequin portant un haut thermique noir. L\u2019image test\u00e9e comportait un fond enrichi, avec le mannequin portant le haut noir au milieu d\u2019un d\u00e9cor int\u00e9rieur afi n d\u2019aider les clients \u00e0 visualiser le produit dans son usage quotidien. L\u2019exp\u00e9rience \u00e9tablit que l\u2019ajout d\u2019un arri\u00e8re-plan enrichi augmentait les ventes, et ce changement fut mis en oeuvre pour des centaines d\u2019articles de mode basiques. <\/p>\n<p>Am\u00e9liorer l\u2019efficacit\u00e9 des projets d\u2019IA <\/p>\n<p>Une fois que les syst\u00e8mes qualit\u00e9 sont en place, ils peuvent faire plus que g\u00e9rer la qualit\u00e9 des r\u00e9sultats g\u00e9n\u00e9r\u00e9s par l\u2019IA ; ils peuvent \u00e9galement aider \u00e0 orienter les ressources vers les projets d\u2019IA en cours ayant le meilleur retour sur investissement. En g\u00e9n\u00e9ral, les groupes d\u2019entreprises menant ces initiatives soumettent des estimations trop optimistes de leurs rendements financiers attendus, qui, \u00e0 leur tour, d\u00e9terminent l\u2019affectation des sp\u00e9cialistes et des ressources informatiques. (En fait, 41 % des 2 770 chefs d\u2019entreprise de six secteurs d\u2019activit\u00e9 interrog\u00e9s par Deloitte en 2024 ont d\u00e9clar\u00e9 que leurs organisations avaient du mal \u00e0 d\u00e9fi nir et \u00e0 mesurer l\u2019impact de leurs eff orts en mati\u00e8re d\u2019IA g\u00e9n\u00e9rative.) Lorsque, au contraire, le syst\u00e8me qualit\u00e9 teste l\u2019effi cacit\u00e9 des nouveaux projets aupr\u00e8s des clients, les dirigeants peuvent s\u2019appuyer sur des indices tangibles pour d\u00e9cider de la meilleure fa\u00e7on d\u2019allouer les ressources. Cela leur permet \u00e9galement de revoir l\u2019allocation plus fr\u00e9quemment en fonction des tests en cours. <\/p>\n<p>Ce syst\u00e8me permet notamment \u00e0 une entreprise d\u2019apprendre \u00e0 partir de prototypes, pour quantifi er l\u2019impact des efforts concernant un projet sur des sous-ensembles de clients, avant de proc\u00e9der \u00e0 un d\u00e9ploiement \u00e0 plus grande \u00e9chelle. Les am\u00e9liorations apport\u00e9es \u00e0 Catalog AI commencent souvent sous forme de prototypes, qui sont parfois en concurrence les uns avec les autres. Les \u00e9quipes eff ectuent des exp\u00e9riences et utilisent les r\u00e9sultats pour demander des ressources suppl\u00e9mentaires afi n de les faire \u00e9voluer, et les vainqueurs sont d\u00e9ploy\u00e9s par la suite. Le projet Amelia d\u2019Amazon, son assistant d\u2019IA g\u00e9n\u00e9rative destin\u00e9 aux vendeurs, est progressivement mis \u00e0 la disposition d\u2019un plus grand nombre d\u2019entre eux, tandis que les performances du mod\u00e8le sont surveill\u00e9es et les commentaires clients pris en compte. <\/p>\n<p>L\u2019exp\u00e9rimentation peut aussi permettre de g\u00e9rer les compromis li\u00e9s \u00e0 l\u2019infrastructure IA, notamment entre les performances des mod\u00e8les et les co\u00fbts de calcul. Augmenter la taille des LLM peut n\u2019apporter que des avantages marginaux et leur apprentissage prendre beaucoup de temps. En r\u00e9alisant des exp\u00e9rimentations, Amazon a constat\u00e9 que certains mod\u00e8les plus petits ont de meilleures performances que des mod\u00e8les plus grands, car ils n\u00e9cessitent moins de ressources, peuvent \u00eatre r\u00e9entra\u00een\u00e9s plus fr\u00e9quemment et ont des temps de r\u00e9ponse plus rapides aux demandes des clients. D\u2019autres entreprises peuvent r\u00e9aliser des exp\u00e9riences similaires pour d\u00e9cider quelle marche \u00e0 suivre leur serait le plus profi table sur des questions comme d\u00e9velopper des LLM en interne ou utiliser des mod\u00e8les provenant de tiers. <\/p>\n<p>Il y a plusieurs d\u00e9cennies, David Garvin, professeur \u00e0 la Harvard Business School, a \u00e9crit un article sur l\u2019avantage durable que procuraient aux entreprises les syst\u00e8mes qualit\u00e9 (voir \u00ab Quality on the Line \u00bb, HBR \u00e9dition am\u00e9ricaine, septembre-octobre 1983). Dans son \u00e9tude sur les fabricants de climatiseurs individuels, il a constat\u00e9 que les taux de d\u00e9faillance des produits vendus par les fabricants de la plus haute qualit\u00e9 \u00e9taient entre 500 et 1 000 fois inf\u00e9rieurs \u00e0 ceux des fabricants de la plus basse qualit\u00e9. Atteindre un niveau de qualit\u00e9 \u00e9lev\u00e9, concluait-il, se r\u00e9sumait \u00e0 disposer d\u2019un syst\u00e8me rigoureux de contr\u00f4le qualit\u00e9. \u00c0 l\u2019\u00e8re de l\u2019IA, la le\u00e7on de Garvin est toujours d\u2019actualit\u00e9.<\/p>\n<p><a href=\"https:\/\/boutique.hbrfrance.fr\/\" rel=\"nofollow noopener\" target=\"_blank\">Pour acc\u00e9der \u00e0 l&rsquo;int\u00e9gralit\u00e9 de tous nos articles : cliquez ici<\/a><\/p>\n<p>A lire aussi :<\/p>\n","protected":false},"excerpt":{"rendered":"Pour garantir la qualit\u00e9 des donn\u00e9es, Amazon s\u2019appuyait par le pass\u00e9 sur l\u2019expertise de milliers d\u2019employ\u00e9s sp\u00e9cialis\u00e9s dans&hellip;\n","protected":false},"author":2,"featured_media":7242,"comment_status":"","ping_status":"","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[6],"tags":[45,3918,44,43,323,23,1067],"class_list":{"0":"post-7241","1":"post","2":"type-post","3":"status-publish","4":"format-standard","5":"has-post-thumbnail","7":"category-economie","8":"tag-business","9":"tag-digital","10":"tag-economie","11":"tag-economy","12":"tag-intelligence-artificielle","13":"tag-suisse","14":"tag-technologie"},"share_on_mastodon":{"url":"","error":""},"_links":{"self":[{"href":"https:\/\/www.europesays.com\/ch-fr\/wp-json\/wp\/v2\/posts\/7241","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.europesays.com\/ch-fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.europesays.com\/ch-fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.europesays.com\/ch-fr\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/www.europesays.com\/ch-fr\/wp-json\/wp\/v2\/comments?post=7241"}],"version-history":[{"count":0,"href":"https:\/\/www.europesays.com\/ch-fr\/wp-json\/wp\/v2\/posts\/7241\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.europesays.com\/ch-fr\/wp-json\/wp\/v2\/media\/7242"}],"wp:attachment":[{"href":"https:\/\/www.europesays.com\/ch-fr\/wp-json\/wp\/v2\/media?parent=7241"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.europesays.com\/ch-fr\/wp-json\/wp\/v2\/categories?post=7241"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.europesays.com\/ch-fr\/wp-json\/wp\/v2\/tags?post=7241"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}