De nouvelles recherches avertissent que les systèmes populaires d’apprentissage profond formés pour la pathologie du cancer pourraient s’appuyer sur des raccourcis cachés plutôt que sur de véritables signaux biologiques.
Les outils d’intelligence artificielle sont de plus en plus développés pour prédire la biologie du cancer directement à partir d’images microscopiques, promettant des diagnostics plus rapides et des tests moins chers. Mais de nouvelles recherches de l’Université de Warwick, publiées dans Nature Biomedical Engineering, suggèrent que nombre de ces systèmes pourraient utiliser des raccourcis visuels plutôt que la vraie biologie — ce qui soulève des inquiétudes quant au fait que certains outils d’IA en pathologie sont actuellement trop peu fiables pour les soins aux patients dans le monde réel.
« C’est un peu comme juger de la qualité d’un restaurant par la queue de personnes qui attendent pour entrer : c’est un raccourci utile, mais ce n’est pas une mesure directe de ce qui se passe dans la cuisine », explique le Dr Fayyaz Minhas, professeur associé et chercheur principal du laboratoire PRISM (Predictive Systems in Biomedicine) au Département d’informatique de l’Université de Warwick, et auteur principal de l’étude. « De nombreux modèles d’IA en pathologie font la même chose, s’appuyant sur des corrélations entre biomarqueurs ou sur des caractéristiques tissulaires évidentes, plutôt que d’isoler les signaux spécifiques aux biomarqueurs. Et lorsque les conditions changent, ces raccourcis s’effondrent souvent. »
Pour parvenir à cette conclusion, les chercheurs ont analysé plus de 8 000 échantillons de patients à travers quatre types de cancer majeurs — sein, colorectal, poumon et endomètre — et ont comparé les performances des principales approches d’apprentissage automatique. Bien que les modèles aient souvent obtenu une grande précision globale, l’équipe a constaté que cela provenait fréquemment de « raccourcis » statistiques.
Par exemple, au lieu de détecter les mutations du gène BRAF associé au cancer, un modèle pourrait apprendre que les mutations BRAF se produisent souvent parallèlement à une autre caractéristique clinique telle que l’instabilité des microsatellites (MSI). Le système apprend alors à utiliser cette combinaison d’indices pour prédire le statut BRAF plutôt que d’apprendre le signal causal de BRAF lui-même – ce qui signifie que les prédictions précises du cancer ne fonctionnent que lorsque ces biomarqueurs coexistent et deviennent peu fiables lorsqu’ils ne coexistent pas.
Kim Branson, SVP Global Head of Artificial Intelligence and Machine Learning, GSK et co-auteur, affirme : « Nous avons découvert que prédire une mutation BRAF en regardant des caractéristiques corrélées comme la MSI, c’est souvent comme prédire la pluie en regardant les parapluies—cela fonctionne, mais cela ne signifie pas que vous comprenez la météorologie. Surtout, si un modèle ne peut pas démontrer un gain d’information au-delà d’un simple grade assigné par un pathologiste, nous n’avons pas fait avancer le domaine ; nous avons juste automatisé un raccourci. La feuille de route pour la prochaine génération d’IA en pathologie ne consiste pas nécessairement en des modèles plus grands ; ce sont des protocoles d’évaluation plus stricts qui obligent les algorithmes à arrêter de tricher et à apprendre la biologie complexe. »
Lorsque les performances des modèles d’IA ont été évaluées dans des sous-groupes de patients stratifiés, tels que seulement les cancers du sein de haut grade ou seulement les tumeurs MSI-positives, la précision a considérablement chuté, révélant que les modèles dépendaient de signaux de raccourci qui disparaissent une fois que les facteurs de confusion sont contrôlés.
Pour certaines tâches de prédiction, l’avantage de performance de l’apprentissage profond par rapport aux informations cliniques dérivées de l’homme était modeste. Les systèmes d’IA ont obtenu des scores de précision d’un peu plus de 80 % lors de la prédiction des biomarqueurs, contre environ 75 % en utilisant uniquement le grade de la tumeur — une mesure déjà évaluée par les pathologistes.
Le professeur Nasir Rajpoot, directeur du centre TIA (Tissue Image Analytics) de l’Université de Warwick et PDG de la spin-off de Warwick Histofy, souligne : « Cette étude met en évidence un point critique concernant le déploiement de l’IA en médecine : pour avoir un impact réel et durable, la valeur des prédictions cliniquement importantes basées sur l’IA doit être jugée par une évaluation rigoureuse et consciente des biais, plutôt que de se fier uniquement aux précisions globales qui ne tiennent pas compte des effets de confusion. »
Les méthodes d’apprentissage automatique peuvent encore s’avérer précieuses pour la recherche, le criblage de candidats au développement de médicaments et pour le triage clinique, le dépistage ou le soutien à la décision supplémentaire. Cependant, les chercheurs soutiennent que les futurs outils d’IA doivent aller au-delà de l’apprentissage basé sur la corrélation et adopter des approches qui modélisent explicitement les relations biologiques et la structure causale. Ils appellent également à des normes d’évaluation plus strictes, y compris des tests de sous-groupes et une comparaison avec des références cliniques simples, avant d’envisager un déploiement dans les soins de routine.
Le Dr Minhas conclut : « Cette recherche n’est pas une condamnation de l’IA en pathologie. C’est un signal d’alarme. Les modèles actuels peuvent bien fonctionner dans des environnements contrôlés mais s’appuient sur des raccourcis statistiques plutôt que sur une véritable compréhension biologique. Tant que des normes d’évaluation plus robustes ne seront pas en place, ces outils ne doivent pas être considérés comme des remplacements des tests moléculaires, et il est essentiel que les cliniciens et les chercheurs comprennent leurs limites et les utilisent avec une prudence appropriée. »
La co-auteure, la Prof. Sabine Tejpar, chef de l’oncologie digestive à la KU Leuven, explique : « La pertinence clinique des nouveaux outils nécessite un ajustement fondé sur ce qui est précis, correct et réalisable pour le patient individuel. Trop souvent, l’oncologie est emportée par l’« innovation » avec un impact limité ou nul sur les soins aux patients, davantage motivée par ce qui peut être fourni ou vendu que par une évaluation rigoureuse de ce qui est vraiment pertinent pour les patients individuels et leurs caractéristiques spécifiques.
« Alors que le progrès exige souvent des premiers pas imparfaits, nous devrions tirer les leçons du passé et éviter la simplification excessive ou les dépassements par des concepts inappropriés. La complexité et la variabilité sont des défis centraux — mais ce sont aussi exactement ce que ces nouvelles technologies doivent apprendre à embrasser. »
Article : ‘Confounding factors and biases abound when predicting molecular biomarkers from histological images – Journal : Nature Biomedical Engineering – Méthode : Imaging analysis – DOI : Lien vers l’étude
Source : Warwick U.
















