Le modèle d’IA surmonte les ensembles de données éparses pour prédire avec précision les propriétés des carburants aéronautiques durables expérimentaux et d’autres molécules cibles de grande valeur.
Une nouvelle méthode d’entraînement des modèles d’IA leur permettant de mieux contribuer à la recherche de pointe a été mise au point par des chercheurs de la KAUST. Cette nouvelle méthode d’apprentissage automatique permet d’obtenir des prédictions précises de l’IA, même dans des domaines scientifiques de pointe où les données disponibles pour entraîner le modèle sont très limitées.
« Cette nouvelle méthode génère déjà de nouvelles pistes dans le développement de carburants aériens durables (SAF), ce qui pourrait contribuer à relever un défi majeur dans la transition vers les énergies propres », indique l’auteur principal de l’étude, Basem Eraqi, doctorant au sein de la plateforme de recherche sur les énergies propres dirigée par Mani Sarathy.
Les modèles d’IA dotés de capacités de prédiction des propriétés pourraient accélérer considérablement la découverte de molécules aux performances avancées pour une tâche spécifique. « Pour construire de tels modèles, les techniques d’apprentissage automatique conventionnelles nécessitent généralement des ensembles de données volumineux et bien équilibrés afin d’obtenir des performances fiables », explique M. Eraqi.
Cependant, dans de nombreux cas, notamment le développement de nouveaux produits pharmaceutiques et polymères, ainsi que de carburants d’aviation durables, les données disponibles pour chaque propriété moléculaire d’intérêt sont très limitées.
« Notre objectif était de développer une méthode d’apprentissage automatique qui fonctionne bien même dans ce régime de données ultra-faibles, permettant la découverte de matériaux performants dans des domaines où les données sont rares », ajoute t-il.
L’équipe a basé son approche sur une méthode appelée apprentissage multitâche (MTL), qui consiste à entraîner un modèle à prédire plusieurs propriétés à la fois. « L’idée centrale est qu’en apprenant simultanément des tâches connexes, le modèle peut extraire et réutiliser des modèles communs dans les données », explique M. Eraqi. Les limites d’inflammabilité d’une molécule, par exemple, sont liées à sa volatilité, et l’apprentissage conjoint de ces propriétés peut donc améliorer les performances prédictives du modèle.
Cependant, plus l’ensemble de données utilisé pour le MTL est petit ou déséquilibré, plus le risque de « transfert négatif » est élevé, c’est-à-dire que le modèle établit des liens erronés qui nuisent à ses performances prédictives.
Pour se prémunir contre le transfert négatif, l’équipe a mis au point un nouveau programme de formation appelé « Adaptive Checkpointing with Specialization » (ACS). « L’ACS surveille les performances de chaque tâche et conserve l’état du modèle le plus performant pour cette tâche, ce qui permet un partage des connaissances sûr et efficace », précise M. Eraqi. En atténuant le transfert négatif, l’ACS peut améliorer la précision et la stabilité des prévisions relatives aux propriétés moléculaires.
L’équipe a testé l’ACS en évaluant sa capacité à prédire les propriétés des composants potentiels des SAF. « Le développement des SAF est un défi concret à fort impact, pour lequel les données expérimentales sont extrêmement limitées et difficiles à obtenir », ajoute t-il. L’ACS a fourni des prédictions robustes et précises pour 15 propriétés des SAF, surpassant systématiquement les modèles conventionnels. Il a particulièrement bien fonctionné dans des environnements à très faible quantité de données, avec seulement 29 points de données d’entraînement, atteignant une précision prédictive supérieure de plus de 20 % à celle des méthodes d’entraînement conventionnelles.
« Les prédictions précises du modèle contribuent déjà à accélérer la découverte et le développement de nouveaux mélanges SAF », conclut M. Sarathy. « Nous appliquons la méthodologie ACS pour prédire plusieurs dizaines de propriétés pertinentes pour les SAF qui peuvent avoir un impact sur les émissions et l’efficacité des avions. Ces prédictions de propriétés sont ensuite intégrées dans un outil de conception de carburant ciblant de nouvelles formulations SAF pour un partenaire industriel. »
L’équipe a également testé l’ACS sur des ensembles de données pharmaceutiques et de toxicité moléculaire, confirmant qu’il offrait des améliorations significatives en termes de précision prédictive par rapport aux méthodes d’apprentissage conventionnelles.
Eraqi, B.A., Khizbullin, D., Nagaraja, S. S., Sarathy, S. M. Molecular property prediction in the ultra‐low data regime. Communications Chemistry 8, 201 (2025). | DOI.
Source : Kaust