Des chercheurs de l’Université de Californie ont développé une nouvelle structure de données baptisée PanMAN qui permet de compresser jusqu’à 3000 fois les données pangénomiques tout en préservant des informations biologiques essentielles. La technique, présentée dans Nature Genetics en janvier 2026, ouvre la voie à l’analyse de millions de génomes, du SARS-CoV-2 aux génomes humains, avec des implications majeures pour la recherche médicale et l’étude de la diversité génétique.
La pangenomique, cette discipline qui étudie la diversité génétique au sein d’une espèce en analysant simultanément de nombreux génomes, se heurtait jusqu’à présent à un obstacle de taille: l’explosion des données. Alors que les technologies de séquençage produisent des volumes d’informations toujours plus importants à des coûts décroissants, les outils d’analyse et de stockage peinaient à suivre.
Une équipe de l’Université de Californie vient de proposer une solution élégante qui pourrait changer la donne.
Une compression intelligente qui préserve le sens biologique
Le format PanMAN (Pangenome Mutation-Annotated Network) représente bien plus qu’une simple technique de compression. Il s’agit d’une structure de données qui encode simultanément les séquences génomiques, leurs relations évolutives et leurs mutations. « Les structures de données utilisées pour la recherche en pangenomique déterminent non seulement l’efficacité avec laquelle les données génétiques sont représentées, mais aussi ce que les données peuvent représenter », explique Sumit Walia, doctorant en ingénierie électrique et co-premier auteur de l’étude.
Contrairement aux formats graphiques traditionnels qui se contentent de représenter la variation génétique, PanMAN intègre des informations biologiquement pertinentes:
- Les phylogénies (relations évolutives entre génomes)
- Les mutations spécifiques (substitutions, insertions, délétions)
- Les alignements de génomes entiers
- Les événements de recombinaison et de transfert horizontal de gènes
L’architecture technique: des arbres annotés connectés en réseau
La puissance de PanMAN réside dans son architecture en deux niveaux. Au premier niveau, des arbres annotés de mutations (PanMATs) stockent une séquence génomique ancestrale à leur racine et annotent les mutations sur les différentes branches. Plusieurs de ces arbres sont ensuite connectés pour former un réseau (PanMAN) grâce à des arêtes qui stockent les mutations complexes.
Cette représentation est particulièrement compacte car elle exploite l’ascendance partagée entre les génomes. Chaque mutation n’est représentée qu’une seule fois, sur la branche où elle est apparue, évitant ainsi les redondances présentes dans les formats traditionnels où les mêmes mutations sont dupliquées à travers les séquences individuelles.
Des résultats spectaculaires sur le SARS-CoV-2
Les applications concrètes de cette méthode sont déjà impressionnantes. L’équipe a construit le plus grand pangénome jamais réalisé pour le SARS-CoV-2, intégrant plus de 8 millions de génomes viraux distincts. La performance est remarquable: cette masse colossale de données génétiques n’a nécessité que 366 Mo d’espace de stockage, soit environ 3000 fois moins que l’alignement de génome entier correspondant.
« Notre technique compressive avec PanMAN permet de faire plus avec moins, améliorant considérablement l’échelle et la portée de l’analyse pangénomique actuelle », souligne Yatish Turakhia, professeur d’ingénierie électrique et informatique à l’UC San Diego et auteur correspondant de l’étude.
La construction d’un alignement à cette échelle constituait en soi un défi technique majeur, résolu par un autre outil développé dans le laboratoire de Turakhia: TWILIGHT. Cette synergie entre outils de calcul et structures de données compressives ouvre des perspectives inédites.
Vers l’application aux génomes humains
Après avoir démontré l’efficacité de leur approche sur les génomes microbiens, les chercheurs étendent maintenant leurs travaux aux génomes humains. Turakhia et Melissa Gymrek, professeur d’informatique et d’ingénierie à l’UC San Diego, ont obtenu un Jacobs School Early Career Faculty Development Award pour accélérer cet effort.
Les implications potentielles sont considérables. « Étendre la pangenomique compressive aux génomes humains peut fondamentalement transformer la façon dont nous stockons, analysons et partageons les données génétiques humaines à grande échelle », anticipe Turakhia. Cette approche permettrait non seulement d’étudier la diversité génétique humaine et les maladies à une échelle et une vitesse inégalées, mais aussi de représenter les histoires évolutives et mutationnelles détaillées qui façonnent les populations humaines.
Un changement de paradigme pour la bioinformatique
La pangenomique compressive constitue un changement de paradigme dans la manière d’aborder l’analyse génétique à grande échelle. En intégrant dès la conception la compression et la représentation des informations biologiques, elle répond simultanément aux défis du volume des données et de la richesse sémantique.
Les formats traditionnels, bien qu’utiles, se concentraient principalement sur la représentation de la variation génétique sans capturer les dynamiques évolutives sous-jacentes. PanMAN comble cette lacune en offrant une représentation unifiée qui préserve à la fois les données brutes et leur contexte biologique.
Cette avancée arrive à point nommé alors que les projets de séquençage à grande échelle se multiplient, générant des quantités de données qui menacent de submerger les infrastructures de stockage et d’analyse existantes. La capacité à compresser ces données tout en préservant leur signification biologique pourrait accélérer considérablement la recherche en génomique et ouvrir de nouvelles voies pour l’étude de la diversité génétique, des maladies complexes et de l’évolution des espèces.
Article : « Compressive pangenomics using mutation-annotated networks » – DOI : s41588-025-02478-7











