OpenBind : données et modèle IA pour découverte médicaments

L’initiative OpenBind, menée par le Royaume-Uni, a atteint un jalon majeur avec la publication de son premier ensemble de données et modèle prédictif d’IA en accès libre, une étape révolutionnaire vers l’accélération de la découverte de nouveaux médicaments grâce à l’intelligence artificielle. Cette publication montre comment l’ingénierie de la production de données prêtes pour l’IA est non seulement réalisable mais essentielle pour faire évoluer les outils d’IA dans les domaines scientifiques, qui souffrent tous d’un manque de données. Avec cette publication d’OpenBind, des données expérimentales de haute qualité et standardisées, ainsi qu’un modèle prédictif nouvellement entraîné, OpenBind v1, deviennent librement accessibles aux chercheurs du monde entier, pour une utilisation immédiate dans la découverte thérapeutique et pour propulser la prochaine génération de modèles d’IA.

Bien que l’IA ait introduit un changement radical dans la précision prédictive des structures protéiques, son impact sur la découverte de médicaments est resté limité, principalement en raison du manque mondial de données expérimentales fiables mesurant avec une précision atomique comment les molécules candidates aux médicaments se lient aux protéines liées aux maladies. OpenBind vise à combler cette lacune critique. Dirigée par Diamond Light Source, la collaboration de biologistes structuraux et de spécialistes de l’IA – soutenue dans sa phase fondatrice par le Department for Science, Innovation and Technology (DSIT) – est la première initiative à générer ces ensembles de données essentiels à l’échelle industrielle, de manière ouverte et continue, et conçue spécifiquement pour l’IA.

Cette première publication démontre que le pipeline d’OpenBind est désormais opérationnel, ayant généré 800 mesures de haute qualité en seulement sept mois – auparavant, de tels grands ensembles de données nécessitaient des années pour être produits et publiés. Cette opération intégrée combine la chimie automatisée, des mesures de liaison robustes et la cristallographie à haut débit de l’installation XChem Fragment Screening de Diamond, avec un processus de publication de données conçu et un entraînement de modèle d’IA utilisant le cluster de calcul Isambard-AI du Royaume-Uni. Elle jette les bases d’un progrès transformateur dans la découverte de médicaments, avec de futures vagues de données prévues pour répondre aux défis sanitaires mondiaux tels que le COVID-19, le paludisme, la dengue, le Zika et le cancer, où le développement rapide de nouveaux traitements reste vital.

*Frank von Delft, scientifique principal chargé de la ligne de lumière de cristallographie au Diamond Light Source*

Le professeur Mohammed Alquraishi de l’université Columbia a déclaré : « AlphaFold2 a révolutionné la prédiction des structures protéiques en exploitant des décennies de données expérimentales sur les structures protéiques dans la PDB. L’équivalent d’un tel ensemble de données pour les complexes protéine-médicament n’existe pas encore, mais OpenBind vise à le créer, et ce faisant, créer la prochaine génération d’outils computationnels pour modéliser les interactions entre médicaments et protéines. »

L’ensemble de données initial reflète également des enseignements inestimables issus des premiers cycles expérimentaux de l’initiative. Des workflows standardisés, des pratiques solides en matière de métadonnées et des niveaux élevés d’automatisation se sont révélés cruciaux pour garantir la cohérence et la reproductibilité requises pour l’IA, tout en mettant en évidence des opportunités pour rationaliser davantage la gestion des données et la fréquence des publications.

Le Dr Fergus Imrie de l’université d’Oxford a déclaré : « Des données expérimentales de haute qualité sont essentielles pour développer des modèles d’IA nouveaux et améliorés, et cette première publication de données montre qu’OpenBind dispose désormais de cette base. Nous permettons à l’IA d’améliorer les performances des modèles et de guider les futures expériences, contribuant ainsi à accélérer la découverte. Les leçons tirées de ces premiers cycles nous aident déjà à améliorer la rapidité, la cohérence et la reproductibilité du pipeline, ce qui sera crucial à mesure qu’OpenBind se développe. »

Le professeur Frank von Delft, scientifique principal de ligne de lumière à Diamond Light Source, a ajouté : « Nous n’aurions pas pu progresser aussi rapidement sans les contributions des membres de notre consortium et de l’équipe opérationnelle. Leur expertise et leur engagement nous ont permis d’atteindre ce jalon ambitieux. Nous allons maintenant mettre en œuvre les leçons de cette phase fondatrice pour développer une opération à long terme qui lie la production à haut volume de données d’IA à des projets de découverte actifs. »

En s’appuyant sur cette base, OpenBind s’étendra pour inclure beaucoup plus de cibles, des séries chimiques plus larges et des ensembles de données plus profonds, ainsi que des défis communautaires en aveugle qui valideront les modèles d’IA pour les nouvelles données expérimentales générées. En fin de compte, OpenBind vise à créer un moteur de données ouvert mondial capable de soutenir le développement de thérapeutiques plus rapides, plus précises et plus équitables.

Source : Diamond Light Source

Newsletter Enerzine