Plus de 64 000 ensembles de données protéomiques ont désormais transité par ProteomeXchange, et la dernière mise à jour du consortium montre comment des normes plus intelligentes, des outils de réutilisation plus solides et des ressources prêtes pour l’IA remodèlent le partage de données biologiques.

Mise à jour de la base de données : Le consortium ProteomeXchange en 2026 : rendre les données protéomiques FAIR. Crédit d’image : Christoph Burgstedt/Shutterstock

Dans un récent article de mise à jour de la base de données publié dans la revue Recherche sur les acides nucléiquesune équipe internationale d’auteurs a décrit les avancées récentes, la croissance des données, la normalisation et les orientations futures du Consortium ProteomeXchange pour permettre ÉQUITABLE Partage de données protéomiques (trouvables, accessibles, interopérables, réutilisables).

Contexte du partage de données protéomiques et principes FAIR

Que se passe-t-il lorsque des milliers d’ensembles de données biologiques restent inutilisés ? En protéomique, le partage de données est essentiel pour faire progresser la recherche sur les maladies, les médicaments et la biologie humaine. Au cours de la dernière décennie, l’essor rapide de la protéomique basée sur la spectrométrie de masse a généré de vastes ensembles de données, mais leur valeur dépend de leur accessibilité et de leur réutilisation. Le ÉQUITABLE des principes ont été élaborés pour guider la gestion et la gestion des données scientifiques de manière à soutenir une science reproductible et transparente. Les plateformes collaboratives jouent désormais un rôle crucial dans l’intégration et la distribution de ces données entre disciplines. Toutefois, une innovation continue est nécessaire pour gérer la complexité croissante des nouveaux ensembles de données.

Statistiques récapitulatives des ensembles de données déposés sur les ressources ProteomeXchange depuis 2012. (A) Tendance des ensembles de données rendus publics (vert) et non encore publiés (orange) de mai 2012 à juin 2025. Au total, 1 156 ensembles de données ont été soumis en juin 2025. (B) Résumé des 15 principales espèces pour les ensembles de données rendus publics depuis 2012. (C) Résumé des 15 principaux instruments tel que rapporté par les déclarants pour les ensembles de données rendus publics depuis 2012. (D) Résumé du nombre relatif de tous les ensembles de données par le référentiel récepteur.

Infrastructure ProteomeXchange et normes de données

Le consortium maintient une infrastructure qui permet la soumission, le stockage et la diffusion standardisés des données protéomiques générées par spectrométrie de masse. Les référentiels membres qui ont contribué à l’archivage et à l’accès aux données incluent la base de données PRoteomics IDEntifications (FIERTÉ), PeptideAtlas, environnement virtuel interactif de spectrométrie de masse (Massif), Référentiel/base de données standard du protéome japonais (jPOST), Ressources protéomiques intégrées (iProX), et Panorama Public. Les ensembles de données soumis comprenaient des fichiers bruts de spectrométrie de masse, des données traitées avec des résultats d’identification et de quantification et des métadonnées expérimentales structurées selon la Proteomics Standards Initiative (psi)-normes élaborées.

Des téléchargements efficaces ont été effectués à l’aide d’un certain nombre de protocoles de transfert de données, notamment le protocole de transfert de fichiers (FTP), Aspera, Protocole de transfert hypertexte sécurisé (HTTPS), la création et la gestion de versions distribuées sur le Web (WebDAV) et PRESTO. De plus, la standardisation des métadonnées a été améliorée grâce au format de relation d’échantillon et de données (SDRF)-Protéomique, permettant une cartographie claire entre les échantillons et les conditions expérimentales. Des identifiants uniques d’ensemble de données (identifiants d’ensemble de données ProteomeXchange) garantissaient la traçabilité, tandis que les ensembles de données réanalysés se voyaient attribuer des identifiants RPXD.

ProteomeCentral a intégré les métadonnées de tous les référentiels, permettant la recherche et la récupération d’ensembles de données via une plate-forme unique. Identificateurs de spectre universels (USIs) a permis une identification et une visualisation précises de spectres uniques. L’infrastructure a également facilité leur réutilisation à grande échelle, leur intégration avec des ressources externes et leur utilisation dans l’apprentissage automatique et l’intelligence artificielle (IA) flux de travail.

Applications de croissance, de réutilisation et d’IA de ProteomeXchange

Les statistiques de soumission mises à jour du consortium ont montré une croissance substantielle du partage et de la réutilisation des données protéomiques à l’échelle mondiale. En juin 2025, un total de 64 330 ensembles de données avaient été soumis, dont 44 248 (69 %) étaient accessibles au public, ce qui reflète un engagement fort en faveur de la science ouverte. Notamment, 47 % de tous les ensembles de données ont été soumis au cours des trois dernières années, ce qui met en évidence une tendance accélérée en matière de génération et de partage de données.

Figure de présentation incluant les ressources actuelles de ProteomeXchange et les principaux efforts consacrés à la réutilisation des données des ensembles de données protéomiques publics. Différents types de réutilisation des données sont répertoriés et pour chacun d’eux, les outils et/ou ressources de données correspondants où ces données sont accessibles sont indiqués.

La plupart des soumissions provenaient du FIERTÉ dépôt (77%), suivi de iProX (11%), Massif (7,4%), jPOST (3,8 %), et de très petites quantités de Panorama Public et PeptideAtlas. Plus de 80 pays ont contribué à ces ressources protéomiques publiques, ce qui indique que l’utilisation de la protéomique dans la recherche biomédicale est répandue à l’échelle mondiale.

Les ressources ProteomeXchange prennent de plus en plus en charge des formats standardisés et des métadonnées plus riches pour améliorer l’interopérabilité entre les ensembles de données. Le psi-formats développés et SDRF-La protéomique a amélioré les métadonnées des ensembles de données en améliorant leur qualité, leur reproductibilité et leur valeur. L’utilisation globale de USIs ont facilité l’accès et la visualisation de spectres individuels dans plusieurs référentiels de données différents. Cela a amélioré la transparence et la validation des résultats expérimentaux.

Les activités de réutilisation des données ont également augmenté au sein du consortium. Les ensembles de données publics ont été réanalysés pour obtenir de nouvelles informations biologiques, telles que la validation des séquences protéiques et l’identification des modifications post-traductionnelles. L’intégration avec la base de connaissances UniProt (UniProtKB) a permis de cartographier plus de 93 % du protéome humain, démontrant ainsi la puissance de l’analyse des données.

Les ressources protéomiques quantitatives telles que MassIVE.quant et quantms ont permis des analyses reproductibles à grande échelle. De plus, l’intégration multi-omique via des ressources telles que Omics Discovery Index (OmicsDI) et MGnify a aidé à intégrer des ensembles de données protéomiques, génomiques et transcriptomiques.

Les applications d’intelligence artificielle et d’apprentissage automatique étaient de plus en plus soutenues par la disponibilité d’ensembles de données de haute qualité. Des outils tels que MassIVE-Knowledge-Base (MassIVE-KB) et ProteomicsML ont permis le développement de modèles prédictifs pour l’identification, la fragmentation et la quantification des protéines des peptides. Ces progrès transforment la protéomique en un domaine axé sur les données, avec de futures applications potentielles en médecine de précision.

De nombreux défis subsistent dans ce domaine de recherche. En raison des réglementations en matière de confidentialité telles que le règlement général sur la protection des données (RGPD) et la loi sur la portabilité et la responsabilité en matière d’assurance maladie (HIPAA), davantage de systèmes à accès contrôlé et de capacités de stockage sont nécessaires pour les données humaines. De plus, de nouvelles technologies sont apparues qui utilisent la protéomique comme méthode de mesure principale et ne dépendent pas de la spectrométrie de masse, notamment les plateformes de protéomique d’affinité telles que les tests SomaLogic et Olink. Cela conduira à de nouvelles méthodologies de recherche ; les chercheurs pourraient donc avoir besoin de ressources supplémentaires.

Orientations futures de l’infrastructure protéomique FAIR

Le Consortium ProteomeXchange a créé un environnement collaboratif innovant pour le partage mondial de données protéomiques, aligné sur ÉQUITABLE principes. L’introduction de formats standardisés, une évolutivité accrue et la fourniture d’outils analytiques de pointe ont facilité la réutilisation à grande échelle des données existantes pour faire progresser les innovations en biologie et en médecine. Cependant, les progrès futurs dépendent de la résolution de la confidentialité des données, de l’évolutivité et des technologies émergentes.

Il existe un besoin continu d’innovation et de collaboration pour maintenir une large accessibilité et soutenir la fiabilité et l’impact continus des données protéomiques pour faire progresser la découverte scientifique et permettre une réutilisation bioinformatique plus large.