Cell2Sentence-Scale 27B. Surnom : C2S. Avec son nom semblant sortir tout droit d’un roman de science-fiction, ce grand modèle de langage (LLM) – sorte de ChatGPT de la cellule – vient de prouver ses capacités hors normes.
Dans une étude en pre-print consultable sur le site BioRxiv, ses concepteurs, des chercheurs de Google DeepMind, Google Research et l’université de Yale, expliquent comment C2S peut tester des milliers de traitements sur des cellules virtuelles et d’en prévoir les effets… sans toucher à un patient !
Un modèle capable de prédire l’effet de milliers de traitements
Ils ont démontré que cette IA surpuissante a pu identifier, parmi plus de 4 000 molécules, un traitement capable de rendre des cellules cancéreuses visibles au système immunitaire afin qu’elles soient détruites. Lorsque les chercheurs ont testé cette molécule en laboratoire, la prédiction de l’IA s’est avérée juste. Une preuve que le recours aux outils d’intelligence artificielle pourrait accélérer de manière exponentielle la recherche sur le cancer.
« Notre modèle d’IA a généré une nouvelle hypothèse sur le comportement cellulaire du cancer, une prédiction que nous avons depuis confirmée par des validations expérimentales sur des cellules vivantes, a commenté Shekoofeh Azizi, l’auteur principale de l’étude, sur LinkedIn. Cette découverte ouvre une nouvelle voie prometteuse pour le développement de thérapies contre le cancer. »
Un corpus colossal pour une compréhension sans précédent du vivant
Le secret de C2S-Scale ? On lui a appris à « lire » et à « écrire » la biologie. Concrètement, en convertissant chaque transcriptome (l’ensemble des ARN présents à un instant T dans une cellule, qui correspondent à la traduction des gènes cellulaires) en un court texte, ce LLM devient capable d’ingérer non seulement des données d’expression génétique de la cellule, mais également des articles scientifiques et de multiples annotations.
Les chercheurs expliquent comment ils sont ainsi parvenus à assembler un corpus d’informations représentant un milliard de « tokens » (à titre indicatif, un token équivaut à quatre caractères sur Word, 100 tokens équivalent à environ 75 mots). Ces tokens recouvraient les profils génétiques de 50 millions de cellules humaines et de souris ainsi que des métadonnées et de la littérature dans le domaine de la biologie.
Ainsi nourri, C2S a pu passer de 410 millions à 27 milliards de paramètres, et ainsi acquérir une puissance de mémorisation et de connaissance inédite dans le domaine de la biologie et de la médecine. Le modèle est ainsi devenu capable non seulement de comprendre le langage des cellules, mais également de l’analyser et de le parler.
Des applications prometteuses en oncologie
Mais ses compétences ne s’arrêtent pas là. Les chercheurs expliquent que C2S a été entraîné pour prédire comment une cellule va réagir sous l’effet d’une perturbation causée par un médicament, une hormone, une substance chimique… ou une combinaison de signaux. Concernant le cancer, à la différence des cultures cellulaires en laboratoire, C2S peut intégrer tout l’environnement de la cellule cancéreuse, notamment les interactions qu’elle aura avec les cellules voisines et le micro-environnement de la tumeur.
L’apparition il y a 15 ans de l’immunothérapie a permis de mettre au point des traitements qui, contrairement à la chimiothérapie qui s’attaque autant aux cellules cancéreuses qu’aux cellules saines, permettent d’activer le système immunitaire pour qu’il s’attaque spécifiquement aux cellules cancéreuses. Malheureusement, dans deux cas sur trois, les tumeurs sont insensibles à ces traitements. On parle de « tumeurs chaudes » quand elles sont détectées par le système immunitaire, et de « tumeur froide » quand elles passent à travers les mailles du filet immunitaire. Ces dernières parviennent en effet à activer un système qui les rend capables de se camoufler, c’est-à-dire de devenir invisibles aux lymphocytes T chargés de les détruire.
Patients virtuels
Les chercheurs en biologie de l’université de Yale ont donc sollicité le LLM C2S pour qu’il identifie une molécule capable de rendre le système immunitaire apte à détecter les tumeurs froides. Le modèle a ainsi simulé l’effet de 4 000 principes actifs de médicaments déjà existants sur deux groupes de « malades virtuels », un souffrant de cancer et un en bonne santé. Objectif : accélérer l’étape terriblement chronophage où l’on teste en laboratoire, sur des lignées cellulaires individuelles, des milliers de molécules candidates.
Résultat : C2S est parvenu à identifier le médicament appelé silmitasertib. Cette petite molécule est déjà utilisée comme traitement anticancer pour ses capacités à bloquer l’enzyme « protéine kinase CK2 » responsable de la multiplication des cellules tumorales. C2S a prédit que le silmitasertib pouvait aussi forcer les cellules tumorales à abandonner leur camouflage et à exposer à leur surface des antigènes susceptibles d’être reconnus par les lymphocytes T.
Un ancien médicament promis à une nouvelle vie
Dans leur publication, les chercheurs expliquent comment ils sont ensuite parvenus à démontrer expérimentalement in vitro que le silmitasertib augmentait de 50 % la présentation d’antigène chez les cellules malignes, donc de transformer les tumeurs chaudes en tumeurs froides.
Des expérimentations sur des animaux, puis des humains devront être menées avant de pouvoir confirmer que le silmitasertib est un bon candidat pour l’immunothérapie anticancéreuse. Quels que soient les résultats – et une fois qu’elle aura été validée par les paires – cette étude suggère que l’IA est capable d’identifier et de tester beaucoup plus rapidement qu’auparavant de nouvelles thérapies ciblées. À la clé, plusieurs années gagnées et des coûts de développement considérablement réduits. Affaire à suivre…