Trouver et développer de nouvelles molécules est l’une des grandes entreprises de recherche de la chimie moderne. Du développement de nouveaux médicaments à la création de matériaux plus durables, tout dépend de la découverte de nouvelles combinaisons d’atomes aux propriétés utiles. Aujourd’hui, une équipe de recherche de l’Université Rovira i Virgili (URV) a développé un outil d’intelligence artificielle capable de générer des millions de nouvelles molécules qui, bien qu’encore inconnues de la science, respectent les lois de la chimie et pourraient donc être des possibilités réalistes. Les résultats de la recherche ont été publiés dans la revue Nature Machine Intelligence.
Le système, appelé CoCoGraph, fonctionne de manière similaire aux outils d’intelligence artificielle générative pour le texte ou les images, tels que ChatGPT ou Dall-E. « Ces modèles créent un nouveau contenu qui ressemble beaucoup au réel. Notre algorithme fait de même, mais avec des molécules », explique Roger Guimerà, professeur de recherche ICREA au Département de génie chimique de l’URV.
Cependant, contrairement à d’autres outils d’IA, le modèle ne répond pas encore à des instructions spécifiques. Pour l’instant, il effectue la tâche plus basique de générer des molécules plausibles, c’est-à-dire des structures qui respectent les règles de la chimie.
Néanmoins, la tâche est immense. Même lorsque le système reçoit une seule formule moléculaire (par exemple, celle du paracétamol), il peut construire un vaste nombre de combinaisons atomiques, bien que seule une petite fraction de ces combinaisons s’avère viable dans la réalité.
« Le nombre de molécules possibles est immense ; on estime qu’il pourrait y en avoir jusqu’à 10⁶⁰, ce qui est bien plus que le nombre de molécules d’eau dans l’océan », explique Guimerà. En revanche, le nombre de molécules connues n’est qu’une infime fraction de ce chiffre. L’immensité du nombre de nouvelles molécules possibles signifie que trouver celles qui sont réellement utiles revient à chercher une aiguille dans une botte de foin géante.

Comment fonctionne le modèle
Pour générer ces nouvelles molécules, CoCoGraph utilise un modèle de diffusion, une technique courante dans la génération d’images. Le processus consiste à « désordonner » progressivement une molécule réelle et à former le système à apprendre comment la reconstruire.
« Nous partons d’une molécule réelle, brisons les liaisons et en créons de nouvelles au hasard. Le modèle apprend à inverser ce processus et à reconstruire des structures cohérentes », commente Marta Sales-Pardo, chercheuse au Département de génie chimique qui a également participé à la recherche.
Cependant, contrairement aux images, les molécules sont des structures discrètes, ce qui rend le problème beaucoup plus complexe d’un point de vue mathématique.
Molécules toujours valides
L’une des principales innovations du modèle est qu’il intègre directement les règles de base de la chimie. Par exemple, chaque atome conserve toujours le nombre correct de liaisons, ce qui garantit que 100 % des molécules générées sont chimiquement valides, contrairement aux structures impossibles que peuvent produire d’autres modèles.
De plus, le système est plus efficace : il utilise moins de paramètres, nécessite moins de puissance de calcul et peut générer des molécules plus rapidement.
L’équipe de recherche a comparé CoCoGraph avec d’autres modèles de pointe et analysé 36 propriétés physico-chimiques des molécules générées, telles que la solubilité et la complexité structurelle. Le résultat est que, pour environ deux tiers de ces propriétés, les molécules générées sont chimiquement plus réalistes que celles des autres modèles.
Newsletter Enerzine
Recevez les meilleurs articles
Énergie, environnement, innovation, science : l’essentiel directement dans votre boîte mail.
Vérification par la communauté scientifique
Pour vérifier le degré de plausibilité de ces molécules, l’équipe a mené une expérience avec 121 experts en chimie de l’Université elle-même. Chaque participant a vu vingt paires de molécules – une réelle et une générée par la nouvelle IA – et devait identifier laquelle était la réelle.
Les résultats ont montré que les experts se trompaient dans environ 4 cas sur 10, ce qui signifie qu’ils confondaient souvent les molécules générées avec les réelles. « Cela signifie que bon nombre des molécules que nous générons sont très convaincantes », explique Sales.
Bien que le modèle ne puisse pas encore concevoir des molécules avec une fonction spécifique, des tests prometteurs ont déjà été réalisés. Par exemple, les chercheurs ont identifié des molécules aux propriétés similaires à celles du paracétamol parmi les millions générées. Ils ont également exploré des techniques pour modifier partiellement une molécule existante, une sorte de « réglage » chimique, afin de créer de nouvelles variantes aux caractéristiques similaires.
Ces approches pourraient être utiles à l’avenir pour optimiser des médicaments ou développer de nouveaux matériaux.
Le premier pas vers une IA qui conçoit des molécules sur mesure
L’équipe de recherche a clairement conscience que ce n’est que le début. L’objectif principal à moyen et long terme est de pouvoir demander à l’intelligence artificielle une molécule avec des propriétés spécifiques ; par exemple, une molécule soluble, non toxique et utile pour une application particulière.
« Pour l’instant, nous ne faisons que générer des molécules. La prochaine étape consistera à appliquer des objectifs spécifiques à ce processus », déclare Manuel Ruiz-Botella, doctorant ayant également participé à la recherche.
Si la technologie réussit, elle pourrait transformer des domaines tels que la chimie, la pharmacologie et la science des matériaux, et accélérer la découverte de nouvelles solutions dans un univers chimique encore pratiquement inexploré.
Article : A collaborative constrained graph diffusion model for the generation of realistic synthetic molecules – Journal : Nature Machine Intelligence – Méthode : Computational simulation/modeling – DOI : Lien vers l’étude
Source : URV

















