La promesse d’un nouveau type de puce informatique qui pourrait remodeler l’avenir de l’intelligence artificielle et être plus respectueuse de l’environnement est explorée dans un article de synthèse technologique publié par des ingénieurs de l’UC Riverside dans la revue Device.
Connues sous le nom d’accélérateurs à l’échelle de la plaquette (wafer), ces puces massives fabriquées par Cerebras sont construites sur des plaquettes de silicium de la taille d’une assiette de dîner, ce qui contraste fortement avec les unités de traitement graphique (GPU) traditionnelles, qui ne sont pas plus grandes qu’un timbre-poste.
L’article révisé par des pairs et rédigé par une équipe pluridisciplinaire de l’UCR conclut que les processeurs à l’échelle de la plaquette peuvent fournir une puissance de calcul bien supérieure avec une efficacité énergétique bien plus grande – des caractéristiques nécessaires à mesure que les modèles d’intelligence artificielle deviennent de plus en plus grands et exigeants.
« La technologie à l’échelle de la plaquette représente une avancée majeure », a indiqué Mihri Ozkan, professeur d’ingénierie électrique et informatique au Bourns College of Engineering de l’UCR et auteur principal de l’article. « Il permet aux modèles d’IA comportant des billions de paramètres de fonctionner plus rapidement et plus efficacement que les systèmes traditionnels. »
Les GPU sont devenus des outils essentiels pour le développement de l’IA car ils peuvent effectuer de nombreux calculs en même temps, ce qui est idéal pour traiter des images, des langages et des flux de données en parallèle. L’exécution simultanée de milliers d’opérations parallèles permet aux voitures sans conducteur d’interpréter le monde qui les entoure pour éviter les collisions, aux images d’être générées à partir de texte et à ChatGPT de suggérer des dizaines de recettes de repas à partir d’une liste spécifique d’ingrédients.
Mais à mesure que la complexité des modèles d’IA augmente, même les GPU haut de gamme commencent à atteindre des limites en termes de performances et d’énergie.
« L’informatique de l’IA n’est plus seulement une question de vitesse », a ajouté M. Ozkan. « Il s’agit de concevoir des systèmes capables de traiter des quantités massives de données sans surchauffe ni consommation excessive d’électricité. »
L’analyse de l’UCR compare les puces GPU standard d’aujourd’hui avec des systèmes à l’échelle du wafer comme le Cerebras Wafer-Scale Engine 3 (WSE-3), qui contient 4 billions de transistors et 900 000 cœurs spécifiques à l’IA sur un seul wafer. Le Dojo D1 de Tesla, autre exemple, comprend 1,25 trillion de transistors et près de 9 000 cœurs par module. Ces systèmes sont conçus pour éliminer les goulets d’étranglement qui se produisent lorsque les données doivent circuler entre plusieurs petites puces.
« En gardant tout sur une seule plaquette, on évite les retards et les pertes d’énergie liés à la communication de puce à puce », a commenté M. Ozkan.
Le document met également en avant des technologies telles que l’emballage des puces sur la tranche, qui pourrait rendre les conceptions à l’échelle de la tranche plus compactes et plus faciles à mettre à l’échelle, avec un potentiel de multiplication par 40 de la densité de calcul.
Bien que ces systèmes offrent des avantages considérables, ils ne conviennent pas à toutes les applications. Les processeurs à l’échelle de la plaquette sont coûteux à fabriquer et moins flexibles pour les tâches à petite échelle. Les GPU conventionnels, avec leur modularité et leur prix abordable, restent essentiels dans de nombreux contextes.
« Les GPU à puce unique ne disparaîtront pas », a déclaré M. Ozkan. « Mais les accélérateurs à l’échelle de la plaquette deviennent indispensables pour former les modèles d’IA les plus avancés. »
L’article aborde également une préoccupation croissante dans le domaine de l’IA : la durabilité. Les centres de données équipés de GPU consomment d’énormes quantités d’électricité et d’eau pour rester froids. Les processeurs à l’échelle du wafer, en réduisant le trafic interne de données, consomment beaucoup moins d’énergie par tâche.
Par exemple, le Cerebras WSE-3 peut effectuer jusqu’à 125 quadrillions d’opérations par seconde tout en utilisant une fraction de l’énergie requise par des systèmes GPU comparables. Son architecture maintient les données au niveau local, ce qui réduit la consommation d’énergie et la puissance thermique.
Le GPU H100 de NVIDIA, qui constitue l’épine dorsale de nombreux centres de données modernes, offre quant à lui une grande flexibilité et un débit élevé, mais à un coût énergétique plus élevé. Avec un taux d’efficacité d’environ 7,9 trillions d’opérations par seconde et par watt, il nécessite également une infrastructure de refroidissement étendue, impliquant souvent de grands volumes d’eau.
« Pensez aux GPU comme à des autoroutes très fréquentées : elles sont efficaces, mais les embouteillages gaspillent de l’énergie », explique M. Ozkan. « Les moteurs à l’échelle de la plaquette ressemblent davantage à des monorails : directs, efficaces et moins polluants. »
Cerebras indique que les charges de travail d’inférence sur son système WSE-3 utilisent un sixième de la puissance des configurations cloud équivalentes basées sur les GPU. Cette technologie est déjà utilisée dans les simulations climatiques, l’ingénierie durable et la modélisation de la capture du carbone.
« Nous constatons que les systèmes à l’échelle de la plaquette accélèrent la recherche sur le développement durable », a ajouté M. Ozkan. « C’est une victoire pour l’informatique et pour la planète. »
Cependant, la chaleur reste un défi. Avec une puissance thermique de conception atteignant 10 000 watts, les puces à l’échelle de la plaquette nécessitent un refroidissement avancé. Cerebras utilise une boucle à base de glycol intégrée dans le boîtier de la puce, tandis que Tesla utilise un système de refroidissement qui distribue le liquide uniformément sur la surface de la puce.
Les auteurs soulignent également que jusqu’à 86 % de l’empreinte carbone totale d’un système peut provenir de la fabrication et des chaînes d’approvisionnement, et pas seulement de la consommation d’énergie. Ils préconisent l’utilisation de matériaux recyclables et d’alliages à faibles émissions, ainsi que des pratiques de conception sur l’ensemble du cycle de vie.
« L’efficacité commence à l’usine », a conclu M. Ozkan. « Pour réduire véritablement l’impact de l’informatique, nous devons repenser l’ensemble du processus, de la plaquette aux déchets. »
L’article intitulé « Performance, Efficiency, and Cost Analysis of Wafer-Scale AI Accelerators vs. Single-Chip GPUs » (Analyse des performances, de l’efficacité et des coûts des accélérateurs d’IA à l’échelle de la plaquette de silicium par rapport aux GPU à puce unique).
Outre M. Ozkan, les co-auteurs sont les étudiants diplômés de l’UCR Lily Pompa, Md Shaihan Bin Iqbal, Yiu Chan, Daniel Morales, Zixun Chen, Handing Wang, Lusha Gao et Sandra Hernandez Gonzalez.
Article : « Performance, efficiency, and cost analysis of wafer-scale AI accelerators vs. single-chip GPUs » – DOI : 10.1016/j.device.2025.100834
Source : UC Riverside