Des scientifiques du Laboratoire national d’Oak Ridge (ORNL) du département américain de l’Énergie ont développé une nouvelle méthode qui double la vitesse de traitement informatique tout en utilisant 75 % de mémoire en moins pour analyser des données d’imagerie végétale. Cette avancée élimine un goulot d’étranglement majeur et accélère les découvertes guidées par l’IA pour le développement de cultures performantes.
La méthode constitue une étape clé dans le développement d’un modèle de fondation d’IA utilisant les données du Laboratoire de phénotypage avancé des plantes (APPL) et exécuté sur Frontier, le premier supercalculateur exascale au monde, à l’ORNL. La recherche soutient des projets alignés sur la Mission Genesis, l’audacieuse initiative du DOE pour construire la plateforme scientifique la plus puissante au monde afin d’accélérer la science fondamentale, renforcer la sécurité nationale et stimuler l’innovation énergétique.
Les modèles de fondation sont de grands systèmes d’IA entraînés sur des jeux de données massifs pour effectuer des prédictions dans différents domaines. Dans ce cas, ils aident à accélérer le développement de cultures de bioénergie robustes et de plantes alimentaires en utilisant les données capturées lors de l’examen robotisé de nouvelles variétés végétales dans l’APPL.
La nouvelle méthode, Agrégation hiérarchique distribuée multicanal (D-CHAG), accélère l’analyse des quantités astronomiques de données générées lorsque les plantes se déplacent automatiquement dans le large éventail de stations d’imagerie de l’APPL. Les caméras hyperspectrales de l’APPL capturent des données 24h/24 et 7j/7 sur la santé des plantes, leur composition chimique et leur structure, permettant une détection précoce des maladies et des stress, et établissant des liens entre les gènes et les traits désirables. Le résultat est une capacité biotechnologique de classe mondiale qui peut accélérer la création de cultures résilientes à haut rendement pour de nouveaux carburants et matériaux, et pour répondre aux enjeux de sécurité alimentaire de la nation.
Le défi du traitement des données réside dans la nature des images hyperspectrales. Alors que les caméras traditionnelles utilisent trois canaux de couleur (rouge, vert et bleu) pour capturer une image, les caméras hyperspectrales en capturent des centaines. Chaque canal représente une longueur d’onde spécifique de la lumière qui peut fournir des données cruciales sur la façon dont les plantes réagissent à leur environnement, métabolisent les nutriments, ou sur la manière dont le stress et les maladies affectent leurs performances. Les méthodes de traitement standard pour les images hyperspectrales sont notoirement difficiles, essayant souvent de traiter tous les canaux à la fois, ce qui utilise une quantité considérable de mémoire et de temps de calcul.
D-CHAG déploie un processus en deux étapes pour fournir une solution. Dans la première étape, le travail de découpage des images en petits morceaux pour l’analyse est réparti entre de nombreuses unités de traitement graphique (GPU) dans une technique appelée tokenisation distribuée. Chaque GPU ne traite qu’un sous-ensemble des canaux. Parce que le travail est divisé, aucun processeur unique n’est submergé, et les données sont traitées beaucoup plus rapidement.
Ensuite, ces petits groupes sont fusionnés par étapes plutôt que simultanément, dans une étape appelée agrégation hiérarchique, qui combine l’information à travers les régions spectrales. Cette approche réduit la quantité de données à traiter à chaque étape, avec pour résultat final des besoins en mémoire réduits et des calculs plus rapides. Ce niveau d’efficacité signifie que des modèles de fondation plus grands peuvent être entraînés sur des jeux de données hyperspectrales sans compromettre leur résolution spatiale ou spectrale, permettant d’extraire des modèles subtils mais significatifs dans la physiologie végétale.
La nouvelle méthode est détaillée dans un article présenté lors de la prestigieuse conférence internationale sur l’informatique haute performance, le réseau, le stockage et l’analyse (SC25), qui s’est tenue en novembre 2025.
Entraîner les modèles d’IA de nouvelle génération
« Ce projet a démontré une solution au goulot d’étranglement qui peut se développer lorsque vous avez un très grand nombre de paramètres, comme les données hyperspectrales, et que vous devez passer à l’échelle vers des modèles de fondation », a déclaré Aristeidis Tsaris, chercheur scientifique travaillant avec le Centre national des sciences informatiques à l’ORNL. « Avec D-CHAG, nous avons pu obtenir des améliorations significatives des performances sans faire de concessions sur la précision. »
D-CHAG a été démontré avec succès en utilisant les données hyperspectrales de l’APPL ainsi qu’un jeu de données météorologiques sur le supercalculateur exascale Frontier de l’Oak Ridge Leadership Computing Facility, une installation utilisateur du Bureau des sciences du DOE à l’ORNL.
Les réalisations clés incluent :
- Jusqu’à 75 % de réduction de l’utilisation de la mémoire par rapport aux méthodes standard de modèles de fondation. Cela signifie que l’entraînement qui nécessitait autrefois de nombreux ordinateurs haut de gamme peut maintenant être réalisé avec moins de ressources.
- Plus du double de la vitesse de traitement. Un traitement plus rapide signifie que les scientifiques peuvent analyser de grands ensembles de données bien plus rapidement qu’auparavant.
D-CHAG aide les scientifiques végétaux à accomplir rapidement des tâches comme la mesure de l’activité photosynthétique d’une plante directement à partir d’une image, remplaçant ainsi les mesures manuelles fastidieuses et chronophages, a expliqué Larry York, scientifique principal du groupe d’imagerie moléculaire et cellulaire de l’ORNL. « L’une des prochaines étapes du projet est d’affiner le modèle pour prédire l’efficacité photosynthétique des plantes directement à partir de ces images. Nous nous préparons pour un avenir où l’imagerie hyperspectrale sera plus courante et la puissance de calcul pour la traiter sera plus largement disponible. »
« L’hyperspectral est la modalité d’imagerie qui promet beaucoup pour la recherche sur la transformation des plantes », a souligné John Lagergren, membre associé du personnel de R&D du groupe de biologie des systèmes végétaux de l’ORNL. « Mais la complexité informatique est un goulot d’étranglement qui a empêché l’entraînement de réseaux neuronaux avancés pour extraire une biologie significative de ces images. Ce travail est un grand pas pour réduire cette complexité et résoudre le goulot d’étranglement. »
Obtenir des perspectives plus rapidement et à plus grande échelle
L’APPL et ses insights activés par l’IA ont un potentiel énorme pour faire avancer le développement de nouvelles variétés de cultures et bénéficier aux pratiques agricoles. En réduisant considérablement la surcharge associée au traitement des images hyperspectrales, les chercheurs peuvent maintenant obtenir des insights plus rapidement et à plus grande échelle.
Les capacités de phénotypage avancé de l’APPL et son modèle de fondation d’IA jouent également un rôle clé dans deux projets soutenus par le DOE. Ces deux projets font partie de la Mission Genesis du DOE à l’ORNL, reliant l’IA à la science des domaines pour livrer rapidement des solutions aux priorités nationales.
- La Plateforme orchestrée pour laboratoires autonomes (OPAL) est une initiative multi-laboratoires combinant l’IA, la robotique et l’expérimentation automatisée pour créer un réseau de laboratoires capables d’apprendre, de s’adapter et d’accélérer les découvertes. OPAL intègre le travail de l’ORNL et de trois laboratoires nationaux du DOE collaborateurs (Argonne, Lawrence Berkeley et Pacific Northwest) pour transformer la découverte biologique en un processus autonome.
- Le projet Generative Pretrained Transformer for Genomic Photosynthesis s’appuie sur le succès du modèle de fondation de l’APPL pour produire des simulations de modifications génétiques très précises dans les plantes, afin d’accélérer le développement de cultures énergétiques avec une photosynthèse et une productivité améliorées.
Dans un avenir où des caméras comme celles utilisées dans l’APPL seront montées sur des drones et déployées à travers les terres agricoles, les agriculteurs pourraient utiliser cette technologie pour surveiller les cultures en temps réel, détectant des problèmes tels que le stress hydrique, les carences en nutriments ou les infestations de ravageurs avant qu’elles ne deviennent graves.
Pour les sélectionneurs de plantes, le phénotypage assisté par l’IA permet aux chercheurs de sélectionner plus efficacement les plantes présentant des traits souhaitables. Ces connaissances peuvent être utilisées pour développer de nouvelles variétés de cultures qui poussent plus vite, utilisent l’eau plus efficacement ou produisent des rendements plus élevés. Cette méthode puissante d’analyse des données pourrait également conduire à la découverte de composés végétaux utiles pour la médecine ou la bioingénierie.
L’intégration de l’imagerie hyperspectrale du laboratoire APPL avec la puissance des supercalculateurs tels que Frontier représente un bond en avant majeur dans la recherche sur la transformation des plantes et la technologie de l’IA. Cette approche soutient l’innovation pour une bioéconomie robuste qui contribue à la sécurité énergétique et à la croissance économique de la nation.
Les autres scientifiques de l’ORNL ayant participé au projet incluent Xiao Wang, Isaac Lyngaas, Prasanna Balaprakash, Dan Lu et Feiyi Wang, ainsi que Mohamed Wahib du centre de science computationnelle RIKEN. Le projet a été soutenu par le Center for Bioenergy Innovation, un centre de recherche en bioénergie financé par le programme de recherche biologique et environnementale du Bureau des sciences du DOE, ainsi que par le financement de recherche et développement dirigé par le laboratoire de l’ORNL.
Source : DOE/Oak Ridge National Laboratory



















