Modèle jouet : comprendre le mystère de l'apprentissage de l'IA

Les systèmes d’intelligence artificielle basés sur des réseaux de neurones tels que ChatGPT, Claude, DeepSeek ou Gemini sont extraordinairement puissants, mais leur fonctionnement interne reste en grande partie une « boîte noire ». Pour mieux comprendre comment ces systèmes produisent leurs réponses, un groupe de physiciens de l’Université Harvard a développé un modèle mathématique simplifié de l’apprentissage dans les réseaux de neurones, pouvant être analysé mathématiquement à l’aide des outils de la physique statistique.

Les « modèles jouets », comme celui présenté dans l’étude qui vient d’être publiée dans le Journal of Statistical Mechanics: Theory and Experiment (JSTAT), offrent aux chercheurs un laboratoire théorique contrôlé pour étudier les mécanismes fondamentaux des réseaux de neurones. Une compréhension plus approfondie du fonctionnement de ces systèmes pourrait aider à concevoir des systèmes d’intelligence artificielle plus efficaces et plus fiables, tout en répondant à certains des défis actuels.

Les lois de l’IA

C’est un peu comme lorsque Kepler a décrit les lois régissant le mouvement des planètes. « La manière dont les lois de la gravité de Newton ont été découvertes a d’abord été d’identifier des lois d’échelle entre les périodes orbitales des planètes et leurs rayons », explique Alexander Atanasov, doctorant en physique théorique à l’Université Harvard et premier auteur de la nouvelle étude. Kepler a formulé ses lois en observant le mouvement planétaire, sans comprendre pleinement les mécanismes sous-jacents. Pourtant, ce travail s’est avéré crucial : il a ensuite permis à Newton de découvrir la gravité, conduisant à une compréhension beaucoup plus profonde de l’univers.

Dans les études sur l’apprentissage profond — la branche de l’intelligence artificielle basée sur les réseaux de neurones — nous pourrions encore être dans une phase képlérienne similaire. Aujourd’hui, les chercheurs ont identifié plusieurs lois empiriques qui décrivent le comportement des réseaux de neurones, mais il nous manque encore une sorte de « théorie de la gravité » expliquant pourquoi ils se comportent ainsi.

Les scientifiques, par exemple, connaissent les lois d’échelle. « Nous savons que si nous prenons un modèle et le rendons plus grand, ou lui donnons plus de données, ses performances augmentent », ajoute Cengiz Pehlevan, professeur associé de mathématiques appliquées à l’Université Harvard et auteur principal de l’étude. Ces lois rendent les performances prévisibles, mais elles ne révèlent pas encore les mécanismes plus profonds qui les sous-tendent. Cette approche est non seulement inefficace — les systèmes d’IA actuels consomment d’énormes quantités d’énergie — mais elle ne contribue guère à faire progresser notre compréhension du fonctionnement réel de ces systèmes.

Les réseaux de neurones comme organismes biologiques

« Les modèles d’apprentissage profond ne sont pas des algorithmes écrits à la main comme un ensemble de règles. Ils ne sont pas conçus manuellement », explique Atanasov. « C’est beaucoup plus similaire à un organisme cultivé en laboratoire. »

Les chatbots d’IA générative reposent sur des réseaux de neurones, une technologie qui — de manière très lointaine — ressemble au fonctionnement d’un cerveau biologique. Ils sont constitués de nombreuses petites unités de traitement, appelées neurones artificiels, chacune effectuant des opérations simples mais connectées entre elles dans un réseau complexe.

C’est cette structure en réseau qui permet l’émergence d’un comportement « intelligent ». Bien que nous connaissions les opérations mathématiques effectuées par chaque composant individuel, prédire et expliquer mécaniquement le comportement du système dans son ensemble reste extrêmement difficile : à mesure que le nombre de composants augmente, la complexité croît rapidement.

Un modèle jouet

Comme il est actuellement impossible d’analyser un réseau de neurones à grande échelle avec des méthodes mathématiques exactes, Atanasov et ses collègues ont choisi de travailler avec un modèle simplifié qui capture néanmoins de nombreuses caractéristiques clés des systèmes plus complexes.

« Le modèle que nous étudions est suffisamment simple pour être résolu mathématiquement », précise Jacob Zavatone-Veth, Junior Fellow à la Harvard Society of Fellows et co-auteur de l’étude. « En même temps, il reproduit plusieurs des phénomènes clés observés dans les grands réseaux de neurones. »

Le modèle jouet utilisé dans l’étude est la régression ridge, une variante de la régression linéaire.

La régression linéaire est une méthode statistique utilisée pour estimer les relations entre variables. Par exemple, si nous connaissons la taille et le poids de 100 personnes, nous pouvons utiliser la régression linéaire pour identifier une relation mathématique entre les deux et estimer la taille d’une nouvelle personne en se basant uniquement sur son poids.

Le mystère du surapprentissage et pourquoi il ne se produit souvent pas

La régression ridge est un type de régression qui aide à réduire le phénomène connu sous le nom de surapprentissage. Lorsque les modèles sont entraînés sur de grands ensembles de données, un réseau de neurones — un peu comme un étudiant très appliqué mais peut-être pas particulièrement perspicace — peut finir par simplement mémoriser les données d’entraînement au lieu d’apprendre des schémas qui lui permettent de généraliser et de faire des prédictions fiables sur de nouvelles données.

Pourtant, les modèles d’apprentissage profond se comportent souvent de manière surprenante. « Bien qu’étant extrêmement grands, ces modèles peuvent apprendre à partir des données sans surapprentissage », indique Atanasov, qualifiant cela de « l’un des grands mystères de l’apprentissage profond ».

À première vue, cela semble contre-intuitif. En théorie, les modèles plus grands devraient être plus sujets au surapprentissage. Au contraire, les lois d’échelle montrent que les performances s’améliorent souvent à mesure que davantage de données sont utilisées pendant l’entraînement.

Nouvelles perspectives

La nouvelle étude offre une pièce possible de cette explication. Selon les chercheurs, la capacité des réseaux de neurones à apprendre sans surapprentissage pourrait provenir de principes liés à la théorie de la renormalisation, un cadre largement utilisé en physique statistique.

Pour comprendre pourquoi, il est utile de considérer la dimensionnalité des données traitées par les systèmes d’IA modernes. Dans l’exemple précédent de la régression linéaire, nous n’avons considéré que deux variables la taille et le poids. Les systèmes réels comme ChatGPT, cependant, opèrent dans des espaces avec des milliers, voire des millions de variables, rendant une analyse mathématique exacte extrêmement difficile.

Ici, les idées de la physique statistique deviennent utiles. Dans les données de très haute dimension, de petites variations aléatoires — appelées fluctuations statistiques — apparaissent naturellement. La théorie de la renormalisation montre que de nombreux détails microscopiques peuvent être efficacement absorbés dans un petit nombre de paramètres, ce qui signifie que même des systèmes très complexes peuvent présenter un comportement à grande échelle relativement simple.

En utilisant ce cadre et leur modèle jouet simplifié, les chercheurs montrent comment ces fluctuations de haute dimension peuvent en réalité stabiliser l’apprentissage plutôt que le déstabiliser.

« C’est quelque chose que nous pouvons comprendre en analysant des modèles linéaires plus simples », ajoute Pehlevan, suggérant que le même mécanisme pourrait expliquer pourquoi les réseaux de neurones actuels évitent le surapprentissage même lorsqu’ils sont fortement surparamétrés.

Le modèle simplifié pourrait également servir un autre objectif. Comme le note Zavatone-Veth, il pourrait être une sorte de référence pour comprendre comment l’apprentissage pourrait se comporter dans des systèmes de très haute dimension. En étudiant un modèle suffisamment simple pour être analysé mathématiquement, les chercheurs peuvent identifier quels aspects de l’apprentissage sont susceptibles d’être génériques — c’est-à-dire censés apparaître dans de nombreux réseaux de neurones différents — et lesquels dépendent des détails d’un modèle spécifique. En ce sens, des études comme celle-ci peuvent aider à clarifier certains des principes plus fondamentaux qui sous-tendent l’apprentissage dans les systèmes complexes.

Source : Sissa

Newsletter Enerzine