{"id":916195,"date":"2026-05-07T01:05:27","date_gmt":"2026-05-07T01:05:27","guid":{"rendered":"https:\/\/www.europesays.com\/fr\/916195\/"},"modified":"2026-05-07T01:05:27","modified_gmt":"2026-05-07T01:05:27","slug":"cout-des-llm-une-nouvelle-architecture-ia-pour-reduire-les-calculs","status":"publish","type":"post","link":"https:\/\/www.europesays.com\/fr\/916195\/","title":{"rendered":"Co\u00fbt des LLM : une nouvelle architecture IA pour r\u00e9duire les calculs"},"content":{"rendered":"<p>Le 5 mai 2026, la startup am\u00e9ricaine Subquadratic a pr\u00e9sent\u00e9 SubQ, un nouveau mod\u00e8le de langage reposant sur une attention dite \u00ab sous-quadratique \u00bb. Une approche qui promet de r\u00e9duire drastiquement les co\u00fbts de calcul des LLM tout en leur permettant de g\u00e9rer des contextes gigantesques.<\/p>\n<p>Cette nouvelle architecture pourrait-elle bouleverser les <a href=\"https:\/\/www.numerama.com\/tech\/2161859-quest-ce-quun-llm-large-language-model-et-comment-cela-fonctionne.html\" data-popover-target=\"definition\" data-tag=\"Qu\u2019est-ce qu\u2019un LLM (Large Language Model) et comment cela fonctionne\u00a0?\" data-chapo=\"L\u2019intelligence artificielle a pris un autre tournant avec les LLM. ChatGPT, Gemini ou encore Claude, ces LLM sont d\u00e9sormais des outils incontournables et ont chang\u00e9 notre mani\u00e8re d\u2019interagir avec la machine.\" data-image=\"https:\/\/c0.lestechnophiles.com\/www.numerama.com\/wp-content\/uploads\/2026\/01\/copie-de-ursaff-1024x576.jpg?key=b1f40ad8\" rel=\"nofollow noopener\" target=\"_blank\">LLM<\/a> tels que nous les connaissons ? Le 5 mai 2026, la jeune pousse am\u00e9ricaine Subquadratic <a href=\"https:\/\/x.com\/alex_whedon\/status\/2051663268704636937?s=20\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">a d\u00e9voil\u00e9 SubQ<\/a>, un nouveau mod\u00e8le de langage pr\u00e9sent\u00e9 comme le premier \u00e0 reposer \u00ab sur une architecture d\u2019attention parcimonieuse enti\u00e8rement sous-quadratique \u00bb.<\/p>\n<p>Si ce terme peut para\u00eetre relativement obscur au premier abord, il s\u2019agit avant tout d\u2019une architecture capable de g\u00e9rer des contextes tr\u00e8s longs \u00e0 co\u00fbt r\u00e9duit. En clair, plut\u00f4t que de rivaliser <a href=\"https:\/\/www.numerama.com\/tech\/2247685-openai-lance-gpt-5-5-instant-chatgpt-devient-moins-bavard.html\" rel=\"nofollow noopener\" target=\"_blank\">avec OpenAI<\/a> ou <a href=\"https:\/\/www.numerama.com\/tech\/2235391-au-fait-pourquoi-anthropic-sappelle-anthropic.html\" rel=\"nofollow noopener\" target=\"_blank\">Anthropic<\/a> sur la taille des mod\u00e8les, la firme s\u2019est attaqu\u00e9e au moteur m\u00eame qui permet \u00e0 ces syst\u00e8mes de fonctionner.<\/p>\n<p><a href=\"https:\/\/www.numerama.com\/wp-content\/uploads\/2026\/05\/subq-ia.jpg\" rel=\"nofollow noopener\" target=\"_blank\"><img decoding=\"async\" width=\"1024\" height=\"576\" loading=\"lazy\" alt=\"Subquadratic a annonc\u00e9 SubQ le 5 mai 2026.  \/\/ Source : @alex_whedon sur X\" title=\"Subquadratic a annonc\u00e9 SubQ le 5 mai 2026.  \/\/ Source : @alex_whedon sur X\" class=\"wp-image-2248287 placeholder-default wp-image\" src=\"https:\/\/www.europesays.com\/fr\/wp-content\/uploads\/2026\/05\/subq-ia-1024x576.jpg\" \/><\/a>Subquadratic a annonc\u00e9 SubQ le 5 mai 2026.  \/\/ Source : @alex_whedon sur X<\/p>\n<p>En quoi consiste cette architecture de LLM ? <\/p>\n<p>Les grands mod\u00e8les de langage (LLM) actuels, <a href=\"https:\/\/www.numerama.com\/tech\/1364400-mais-au-fait-cest-quoi-gpt.html\" rel=\"nofollow noopener\" target=\"_blank\">comme GPT<\/a>, Claude ou <a href=\"https:\/\/www.numerama.com\/tech\/1265424-quest-ce-que-cest-google-bard.html\" data-popover-target=\"definition\" data-tag=\"C\u2019est quoi Google Gemini, le ChatGPT de Google\u00a0?\" data-chapo=\"Anciennement connu sous le nom de Bard, \u00ab Gemini \u00bb est le chatbot de l&#039;entreprise Google. Cet agent conversationnel est le grand rival de ChatGPT, la solution d&#039;OpenAI que l&#039;on retrouve dans les outils de Microsoft (Bing et Edge). Il utilise plusieurs mod\u00e8les de langage \u00e9ponymes, comme Gemini Pro et Gemini Ultra.\" data-image=\"https:\/\/c0.lestechnophiles.com\/www.numerama.com\/wp-content\/uploads\/2024\/01\/gemini-1024x576.jpg?key=95fd2136\" rel=\"nofollow noopener\" target=\"_blank\">Gemini<\/a>, reposent quasiment tous sur la m\u00eame brique de base : le Transformer. \u00c0 l\u2019int\u00e9rieur de ce type de r\u00e9seau, une op\u00e9ration joue un r\u00f4le central pour traiter du texte ou du code : l\u2019\u00ab attention \u00bb.<\/p>\n<p>En effet, le mod\u00e8le ne traite pas chaque mot s\u00e9par\u00e9ment : lorsqu\u2019il lit un texte, il compare en permanence les mots entre eux afin d\u2019identifier quelles parties de la phrase ou du document sont les plus importantes \u00e0 prendre en compte. C\u2019est ce m\u00e9canisme qui lui permet de tenir compte du contexte global plut\u00f4t que de ne regarder que les mots imm\u00e9diatement voisins.<\/p>\n<p>                <img decoding=\"async\" width=\"1024\" height=\"380\" loading=\"lazy\" alt=\"Box Bitdefender (2)\" title=\"Box Bitdefender (2)\" class=\"is-block placeholder-default wp-image\" src=\"https:\/\/www.europesays.com\/fr\/wp-content\/uploads\/2026\/05\/box-bitdefender-2-1024x380.png\" \/>            <\/p>\n<p>\n                    Et votre vie num\u00e9rique devient sereine                <\/p>\n<p>\n                    Bitdefender Premium Security est une solution de cybers\u00e9curit\u00e9 europ\u00e9enne qui vous prot\u00e8ge automatiquement contre les pirates et toutes les menaces du web. Profitez de vos activit\u00e9s en ligne en toute tranquillit\u00e9                <\/p>\n<p>Le probl\u00e8me : cette op\u00e9ration d\u2019attention devient extr\u00eamement co\u00fbteuse lorsque le contexte s\u2019allonge. Dans un Transformer classique, chaque mot doit \u00eatre compar\u00e9 \u00e0 tous les autres mots pr\u00e9sents dans la fen\u00eatre de contexte afin de d\u00e9terminer lesquels sont les plus pertinents. Si l\u2019on double la taille du texte trait\u00e9, le nombre d\u2019interactions n\u2019est donc pas multipli\u00e9 par deux, mais approximativement par quatre. Les co\u00fbts de calcul et de m\u00e9moire explosent alors tr\u00e8s rapidement : on parle alors de complexit\u00e9 \u00ab quadratique \u00bb.<\/p>\n<p><a href=\"https:\/\/www.numerama.com\/wp-content\/uploads\/2026\/05\/3-3.jpg\" rel=\"nofollow noopener\" target=\"_blank\"><img decoding=\"async\" width=\"1024\" height=\"576\" loading=\"lazy\" alt=\"SubQ repose sur une architecture d'attention parcimonieuse sous-quadratique. \/\/ Source : Subquadratic\" title=\"SubQ repose sur une architecture d'attention parcimonieuse sous-quadratique. \/\/ Source : Subquadratic\" class=\"wp-image-2248289 placeholder-default wp-image\" src=\"https:\/\/www.europesays.com\/fr\/wp-content\/uploads\/2026\/05\/3-3-1024x576.jpg\" \/><\/a>SubQ repose sur une architecture d\u2019attention parcimonieuse sous-quadratique. \/\/ Source : <a target=\"_blank\" href=\"https:\/\/subq.ai\/\" rel=\"nofollow noopener\">Subquadratic<\/a><\/p>\n<p>C\u2019est pr\u00e9cis\u00e9ment cette limite qui rend les tr\u00e8s longues fen\u00eatres de contexte si difficiles \u00e0 exploiter aujourd\u2019hui. M\u00eame si des mod\u00e8les comme GPT, Claude ou Gemini annoncent des centaines de milliers, voire des millions de <a href=\"https:\/\/www.numerama.com\/tech\/1902803-cest-quoi-un-token-quand-on-parle-dintelligence-artificielle-generative.html\" data-popover-target=\"definition\" data-tag=\"C\u2019est quoi un \u00ab\u00a0token\u00a0\u00bb ou \u00ab\u00a0jeton\u00a0\u00bb quand on parle d\u2019intelligence artificielle g\u00e9n\u00e9rative\u00a0?\" data-chapo=\"Avec l&#039;IA g\u00e9n\u00e9rative, incarn\u00e9e par des chatbots comme ChatGPT d&#039;OpenAI et Le Chat de Mistral, on parle parfois de \u00ab token \u00bb. Savez-vous ce que \u00e7a signifie ? On vous explique tout ce qu&#039;il faut savoir sur ces myst\u00e9rieux jetons.\" data-image=\"https:\/\/c0.lestechnophiles.com\/www.numerama.com\/wp-content\/uploads\/2025\/02\/miniarama-10-1024x576.jpg?key=ffba5191\" rel=\"nofollow noopener\" target=\"_blank\">tokens<\/a>, utiliser r\u00e9ellement de telles longueurs reste extr\u00eamement co\u00fbteux en puissance de calcul, en m\u00e9moire vid\u00e9o et en \u00e9nergie.<\/p>\n<p>L\u2019approche pr\u00e9sent\u00e9e par SubQ cherche donc \u00e0 contourner ce probl\u00e8me en r\u00e9duisant drastiquement le nombre de comparaisons n\u00e9cessaires entre les tokens. Plut\u00f4t que de faire dialoguer chaque mot avec l\u2019int\u00e9gralit\u00e9 du texte, l\u2019architecture s\u00e9lectionne uniquement une partie des interactions jug\u00e9es pertinentes : c\u2019est le principe de l\u2019\u00ab attention parcimonieuse \u00bb (sparse attention). Concr\u00e8tement, cela signifie que la matrice d\u2019attention n\u2019est plus dense : chaque token n\u2019interagit plus avec tous les autres, mais seulement \u00e0 un sous\u2011ensemble de positions d\u00e9termin\u00e9 par une structure pr\u00e9cise.<\/p>\n<p>Le terme \u00ab sous-quadratique \u00bb signifie alors que le co\u00fbt de calcul augmente moins vite que dans un Transformer classique lorsque le contexte grandit. En th\u00e9orie, cela permettrait de traiter des documents beaucoup plus longs \u2014 bases de code enti\u00e8res, livres complets, longues conversations ou vid\u00e9os transcrites \u2014 sans faire exploser les besoins mat\u00e9riels.<\/p>\n<p>Une approche prometteuse, mais encore difficile \u00e0 valider<\/p>\n<p>Pour autant, l\u2019id\u00e9e d\u2019une attention plus efficace n\u2019est pas nouvelle. Depuis plusieurs ann\u00e9es, des variantes dites \u00ab sparse \u00bb, \u00ab linear \u00bb ou \u00ab r\u00e9currentes \u00bb sont explor\u00e9es afin de r\u00e9duire le co\u00fbt des Transformers. Mais la difficult\u00e9 consiste g\u00e9n\u00e9ralement \u00e0 conserver les performances du mod\u00e8le tout en diminuant la complexit\u00e9 du calcul. Un point qui n\u2019est d\u2019ailleurs pas sans susciter du scepticisme depuis l\u2019annonce de SubQ.<\/p>\n<p>La communaut\u00e9 reste prudente pour une raison simple : la firme avance des promesses extr\u00eamement ambitieuses. SubQ affirme notamment pouvoir g\u00e9rer jusqu\u2019\u00e0 12 millions de tokens de contexte, tout en annon\u00e7ant des performances jusqu\u2019\u00e0 52 fois sup\u00e9rieures \u00e0 FlashAttention sur des contextes d\u2019un million de tokens. L\u2019entreprise \u00e9voque \u00e9galement des gains d\u2019efficacit\u00e9 massifs, avec jusqu\u2019\u00e0 1 000 fois moins d\u2019op\u00e9rations de calcul dans certains sc\u00e9narios.<\/p>\n<p><a href=\"https:\/\/www.numerama.com\/wp-content\/uploads\/2026\/05\/4.jpg\" rel=\"nofollow noopener\" target=\"_blank\"><img decoding=\"async\" width=\"1024\" height=\"576\" loading=\"lazy\" alt=\"Un benchmark publi\u00e9 par l'entreprise. \/\/ Source : Subquadratic\" title=\"Un benchmark publi\u00e9 par l'entreprise. \/\/ Source : Subquadratic\" class=\"wp-image-2248291 placeholder-default wp-image\" src=\"https:\/\/www.europesays.com\/fr\/wp-content\/uploads\/2026\/05\/4-1024x576.jpg\" \/><\/a>Un benchmark publi\u00e9 par l\u2019entreprise. \/\/ Source : <a target=\"_blank\" href=\"https:\/\/subq.ai\/\" rel=\"nofollow noopener\">Subquadratic<\/a><\/p>\n<p>Dans le m\u00eame temps, le mod\u00e8le n\u2019est pas ouvert, les benchmarks ind\u00e9pendants demeurent limit\u00e9s, et l\u2019histoire r\u00e9cente de l\u2019IA regorge de projets promettant des architectures \u00ab quasi lin\u00e9aires \u00bb qui finissaient par perdre en performances une fois test\u00e9s s\u00e9rieusement \u00e0 grande \u00e9chelle.<\/p>\n<p>\u00c0 cela s\u2019ajoutent des contraintes th\u00e9oriques difficiles \u00e0 contourner. Certaines op\u00e9rations fondamentales des mod\u00e8les de langage \u2014 par exemple lorsqu\u2019il faut retrouver pr\u00e9cis\u00e9ment une information au sein d\u2019un contexte gigantesque \u2014 semblent devenir naturellement plus co\u00fbteuses \u00e0 mesure que la taille du contexte augmente. R\u00e9duire fortement cette complexit\u00e9 sans d\u00e9grader la qualit\u00e9 du raisonnement, de la m\u00e9moire ou de la r\u00e9cup\u00e9ration d\u2019information reste donc un d\u00e9fi majeur.<\/p>\n<p>Pour l\u2019instant, SubQ appara\u00eet donc davantage comme une d\u00e9monstration prometteuse que comme une rupture d\u00e9j\u00e0 valid\u00e9e. Reste d\u00e9sormais \u00e0 voir si l\u2019architecture tiendra ses promesses face aux benchmarks ouverts, aux audits ind\u00e9pendants et aux usages r\u00e9els \u00e0 grande \u00e9chelle. Subquadratic indique par ailleurs que SubQ est d\u00e9j\u00e0 accessible en acc\u00e8s anticip\u00e9 via une API long contexte destin\u00e9e aux d\u00e9veloppeurs, ainsi qu\u2019\u00e0 travers un outil orient\u00e9 programmation baptis\u00e9 \u00ab SubQ Code \u00bb.<\/p>\n<p>            <img decoding=\"async\" src=\"https:\/\/www.europesays.com\/fr\/wp-content\/uploads\/2025\/12\/iPhone-16-pro-vDJtn9o4_vzSsPIGCFDc5.png\" alt=\"Toute l'actu tech en un clien d'oeil\"\/><\/p>\n<p class=\"card-install-pwa__title\">Toute l&rsquo;actu tech en un clin d&rsquo;\u0153il<\/p>\n<p class=\"card-install-pwa__description\">Ajoutez Numerama \u00e0 votre \u00e9cran d&rsquo;accueil et restez connect\u00e9s au futur !<\/p>\n<p>            <img decoding=\"async\" src=\"https:\/\/www.numerama.com\/wp-content\/themes\/numerama-next\/dist\/images\/premium\/logo-card-pwa-coupe-vCvPQ_Q_ysBNfqKp6w7gG.svg\" alt=\"Logo PWA\"\/><\/p>\n<p>       Installer Numerama<\/p>\n","protected":false},"excerpt":{"rendered":"Le 5 mai 2026, la startup am\u00e9ricaine Subquadratic a pr\u00e9sent\u00e9 SubQ, un nouveau mod\u00e8le de langage reposant sur&hellip;\n","protected":false},"author":2,"featured_media":916196,"comment_status":"","ping_status":"","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[7],"tags":[1011,27,3994,223,77823,43,40,41,39,42,44],"class_list":{"0":"post-916195","1":"post","2":"type-post","3":"status-publish","4":"format-standard","5":"has-post-thumbnail","7":"category-sciences-et-technologies","8":"tag-fr","9":"tag-france","10":"tag-ia-generative","11":"tag-intelligence-artificielle","12":"tag-llm-large-language-model","13":"tag-science","14":"tag-science-and-technology","15":"tag-sciences","16":"tag-sciences-et-technologies","17":"tag-technologies","18":"tag-technology"},"share_on_mastodon":{"url":"https:\/\/pubeurope.com\/@fr\/116530612479286827","error":""},"_links":{"self":[{"href":"https:\/\/www.europesays.com\/fr\/wp-json\/wp\/v2\/posts\/916195","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.europesays.com\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.europesays.com\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.europesays.com\/fr\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/www.europesays.com\/fr\/wp-json\/wp\/v2\/comments?post=916195"}],"version-history":[{"count":0,"href":"https:\/\/www.europesays.com\/fr\/wp-json\/wp\/v2\/posts\/916195\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.europesays.com\/fr\/wp-json\/wp\/v2\/media\/916196"}],"wp:attachment":[{"href":"https:\/\/www.europesays.com\/fr\/wp-json\/wp\/v2\/media?parent=916195"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.europesays.com\/fr\/wp-json\/wp\/v2\/categories?post=916195"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.europesays.com\/fr\/wp-json\/wp\/v2\/tags?post=916195"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}