Une nouvelle ère de puissance de calcul se profilerait-il à l’horizon, avec un système basé sur la lumière ? Ce dernier pourrait en effet propulser les modèles d’apprentissage automatique à un niveau plusieurs fois supérieur à celui de ChatGPT avec une consommation d’énergie bien moindre par rapport aux supercalculateurs actuels.
Cette révélation, issue d’une collaboration menée par le MIT, pourrait avoir des implications majeures, depuis les datacentres jusqu’aux petits appareils décentralisés.
Les détails de l’innovation
Dans l’édition du 17 juillet de Nature Photonics, les chercheurs décrivent la première démonstration expérimentale de ce nouveau système, qui effectue ses calculs en se basant sur le mouvement de la lumière plutôt que sur les électrons. Pour ce faire, il utilise des centaines de lasers à l’échelle du micron.
Cette approche a permis aux chercheurs d’améliorer l’efficacité énergétique de plus de 100 fois et la densité de calcul (une mesure de la puissance d’un système) de 25 fois par rapport aux ordinateurs numériques de pointe utilisés pour l’apprentissage automatique.
Par ailleurs, l’équipe souligne dans son article que le potentiel d’amélioration pour le futur est considérablement plus grand. Ce procédé, affirment-ils, « ouvre une voie vers des processeurs optoélectroniques à grande échelle pour accélérer les tâches d’apprentissage automatique, depuis les data centers jusqu’aux appareils périphériques décentralisés« .
En d’autres termes, les téléphones portables et autres petits appareils pourraient devenir capables d’exécuter des programmes qui, à l’heure actuelle, ne peuvent être calculés que dans de grands centres de données (data center).
Une échelle de temps réaliste pour une utilisation commerciale
En raison de l’existence de procédés de fabrication déjà utilisés aujourd’hui, les chercheurs s’attendent à ce que leur système puisse être adapté à une utilisation commerciale d’ici quelques années. « Par exemple, les réseaux de lasers impliqués sont largement utilisés dans la reconnaissance faciale des téléphones portables et dans la communication de données« , explique Zaijun Chen, auteur principal de l’étude, qui a mené ce travail lorsqu’il était post-doctorant au MIT, au sein du Laboratoire de recherche en électronique. Il est actuellement professeur assistant à l’Université de Californie du Sud.
« ChatGPT est limité en taille par la puissance des supercalculateurs d’aujourd’hui. Il n’est tout simplement pas économiquement viable de former des modèles beaucoup plus grands. Notre nouvelle technologie pourrait permettre de sauter vers des modèles d’apprentissage automatique qui ne seraient sinon pas accessibles dans un avenir proche », déclare Dirk Englund, professeur associé au Département de génie électrique et d’informatique du MIT et responsable du projet.
Des progrès constants
Ce travail représente le dernier jalon d’une série de progrès réalisés au cours des dernières années par Englund et plusieurs de ses collègues. Par exemple, en 2019, une équipe d’Englund dont le professeur Ryan Hamerly, avait présenté le travail théorique qui a conduit à la démonstration actuelle.
En plus de l’approche optique, l’équipe a introduit une architecture compacte qui, pour la première fois, résout simultanément tous ces défis et deux autres. Cette architecture est basée sur des réseaux de pointe de lasers émettant en surface verticale (VCSEL), une technologie relativement récente utilisée dans des applications allant de la télédétection LiDAR à l’impression laser.
Les VCSEL spécifiques mentionnés dans l’article de Nature Photonics ont été développés par le groupe Reitzenstein de la Technische Universitat Berlin. « Il s’agissait d’un projet collaboratif qui n’aurait pas été possible sans eux », commente Ryan Hamerly.
Les avantages de l’optique
L’utilisation de la lumière plutôt que des électrons pour réaliser des calculs DNN a le potentiel de briser les goulets d’étranglement actuels. Par exemple, les calculs utilisant l’optique ont le potentiel d’utiliser beaucoup moins d’énergie que ceux basés sur l’électronique.
Par ailleurs, avec l’optique, « vous pouvez avoir des bandes passantes beaucoup plus grandes« , ou des densités de calcul, selon Zaijun Chen. La lumière peut transférer beaucoup plus d’informations sur une surface beaucoup plus petite.
Mais les réseaux neuronaux optiques actuels (ONN) présentent des défis importants. Par exemple, ils consomment beaucoup d’énergie car ils sont inefficaces pour convertir les données entrantes basées sur l’énergie électrique en lumière. En plus de cela, les composants impliqués sont volumineux et prennent beaucoup de place. Et si les ONN sont assez bons pour les calculs linéaires comme l’addition, ils ne sont pas excellents pour les calculs non linéaires comme la multiplication et les instructions conditionnelles.
En synthèse
Le potentiel d’accroissement de l’efficacité énergétique et de la densité de calcul présenté par ce nouveau système ouvre de nouvelles perspectives pour le domaine de l’apprentissage automatique. Non seulement il pourrait permettre de former des modèles d’apprentissage de manière plus efficace et plus économe en énergie, mais il pourrait aussi rendre ces modèles accessibles à une plus grande variété d’appareils, y compris les appareils mobiles. Cela pourrait avoir un impact significatif sur l’accès à l’apprentissage automatique et à l’intelligence artificielle dans un large éventail de secteurs et d’applications.
Pour une meilleure compréhension
1. Qu’est-ce qui distingue cette recherche des travaux précédents ?
Cette recherche est la première à montrer comment un système basé sur la lumière peut améliorer l’efficacité énergétique et la densité de calcul des modèles d’apprentissage automatique. Elle propose également une voie vers la création de processeurs optoélectroniques à grande échelle.
2. Quels sont les principaux avantages de l’utilisation de la lumière pour les calculs ?
L’optique a le potentiel d’utiliser beaucoup moins d’énergie que l’électronique pour réaliser des calculs. De plus, elle permet des bandes passantes beaucoup plus grandes, ce qui signifie que la lumière peut transférer beaucoup plus d’informations sur une surface beaucoup plus petite.
3. Quels sont les défis actuels des réseaux neuronaux optiques (ONN) ?
Les ONN sont inefficaces pour convertir les données entrantes basées sur l’énergie électrique en lumière, ce qui consomme beaucoup d’énergie. Les composants impliqués sont également volumineux et prennent beaucoup de place. De plus, bien qu’ils soient bons pour les calculs linéaires, ils ne sont pas excellents pour les calculs non linéaires.
4. Comment cette technologie pourrait-elle influencer l’avenir de l’apprentissage automatique ?
Elle pourrait permettre à des appareils plus petits et moins énergivores d’exécuter des tâches d’apprentissage automatique à une échelle autrefois inimaginable. Cela pourrait avoir des implications importantes dans de nombreux domaines, depuis les data centers jusqu’aux appareils périphériques décentralisés.
Chen, Hamerly et Englund ont déposé une demande de brevet pour ces travaux, qui ont été financés par l’Army Research Office, NTT Research, le National Defense Science and Engineering Graduate Fellowship Program, la National Science Foundation, le Conseil de recherches en sciences naturelles et en génie du Canada et la Fondation Volkswagen.