Frontier : Le superordinateur de 600 millions de dollars qui défie les limites

Frontier : Le superordinateur de 600 millions de dollars qui défie les limites

Juste avant l’aube, Scott Atchley s’est réveillé pour la troisième fois, a pris une autre gorgée de café et s’est assis devant son ordinateur pour observer le prochain échec. C’était le matin du 27 mai 2022.

Le directeur technique du projet et ses collègues scientifiques avaient passé des mois à régler et à ajuster Frontier, le supercalculateur de 600 millions de dollars installé au Laboratoire national d’Oak Ridge du Département de l’énergie aux Etats-Unis.

La machine, construite malgré la pandémie de COVID-19 et une crise internationale de la chaîne d’approvisionnement, avait déjà établi un nouveau record mondial de vitesse de calcul, mais ce n’était pas suffisant.

L’équipe ne voulait pas simplement établir un record. Ils voulaient franchir la barrière de l’exascale – le jalon scientifique qui annoncerait la prochaine génération de supercalculateurs, capables d’effectuer un quintillion de calculs par seconde.

Le défi de l’exascale

Chaque test rapprochait un peu plus l’équipe de son objectif, mais à chaque fois, Frontier calait et s’écrasait. Scott Atchley a veillé ce jour là toute la nuit, faisant des siestes entre chaque déception.

Alors qu’il était prêt à consigner le dernier échec et à réfléchir à nouveau à ce qui pourrait encore faire obstacle il s’est assis, a jeté un coup d’œil au moniteur et s’est redressé. Frontier avait atteint la fin de son parcours. Le supercalculateur avait dépassé son record de la veille et avait franchi la barrière de l’exascale, un exploit jugé farfelu et impraticable par certains des plus grands scientifiques du monde il y a à peine cinq ans.

« C’était comme un miracle », s’est enthousiasmé Scott Atchley. « En tant que scientifique, je ne suis pas censé croire aux miracles. Mais j’étais là il y a un an lorsque le fournisseur m’a montré une liste de pièces essentielles sans lesquelles nous ne pouvions pas construire la machine et a dit qu’il n’y avait aucun moyen de les obtenir. »

« Un seul défi majeur menaçait d’être un coup d’arrêt », a précisé Al Geist, chercheur à l’ORNL et directeur de la technologie pour le projet Frontier. « Nous en avons identifié quatre, et tous devaient être surmontés : la consommation d’énergie, la fiabilité, le mouvement des données et le parallélisme. »

Le principal obstacle, la consommation d’énergie, l’emportait sur tous les autres. Jaguar et tous les grands superordinateurs qui l’ont précédé s’appuient sur des unités centrales de traitement, ou CPU, pour la puissance de calcul. L’unité centrale joue essentiellement le rôle de cerveau de l’ordinateur en effectuant des calculs, en récupérant des informations et en exécutant des instructions.

En 2009, Jaguar a généré en moyenne 328 mégaflops pour chaque watt d’énergie consommé, soit une empreinte énergétique totale de 7 mégawatts, ou 7 millions de watts. Compte tenu de ce rapport puissance/performance, un superordinateur utilisant la technologie de pointe de l’époque aurait eu besoin non pas de millions mais de milliards de watts pour produire un seul exaflop.

« La seule facture d’électricité pour ce type de consommation s’élèverait à environ 600 millions de dollars par an », a déclaré M. Geist. « Même en tenant compte des progrès technologiques permettant d’économiser de l’énergie, nous étions toujours confrontés à des coûts insoutenables. »

La puissance de Frontier

La vitesse de Frontier a été mesurée en moyenne à 1,1 exaflops – c’est-à-dire 1,1 quintillion, ou un milliard de milliards, de calculs par seconde. Chaque opération en virgule flottante, ou flop, représente un calcul mathématique tel qu’une addition ou une multiplication.

«Ce nombre d’exascale a toujours été l’un de ces seuils magiques pour nous », a indiqué encore Scott Atchley. « À un exaflop, l’équivalent serait que tout le monde sur terre – homme, femme et enfant – travaille sur le même problème en même temps avec une calculatrice et puisse faire au moins une addition ou une multiplication par seconde. Nous avons environ 8 milliards de personnes sur terre. Ils auraient besoin de quatre ans pour faire ce que Frontier peut faire chaque seconde. »

Les applications de Frontier

Les chercheurs espèrent utiliser cette puissance de calcul pour stimuler la prochaine génération d’innovations scientifiques : tout, des remèdes contre le cancer et la prédiction des catastrophes naturelles, aux moteurs à essence plus propres, aux réacteurs nucléaires qui tiennent sur une table, et aux enquêtes sur l’origine de l’univers.

« C’est un pari sur la lune », a déclaré Justin Whitt, qui dirigeait l’Oak Ridge Leadership Computing Facility lorsque Frontier est entré en ligne. « La science qui sera réalisée sur cette machine sera véritablement révolutionnaire pour d’innombrables chercheurs et aura des impacts à long terme sur la société que nous ne pouvons même pas commencer à prévoir. »

Un message au monde entier

Le comité du TOP500 a annoncé les résultats record de Frontier le 30 mai 2022, lors de la conférence internationale sur les supercalculateurs qui s’est tenue à Hambourg, en Allemagne, et qui a été acclamée dans le monde entier. M. Zacharia a personnellement accepté le certificat de première place.

« C’était un moment de fierté, mais les réalisations à venir sur Frontier nous rendront encore plus fiers », a-t-il déclaré. « Il reste encore beaucoup à faire. Frontier continuera à alimenter l’imagination qui nous pousse à conquérir la prochaine frontière de l’informatique »

Frontier a ouvert ses portes à tous les utilisateurs en avril 2023.

« Les premiers utilisateurs du système nous ont beaucoup aidés à le tester et à trouver les bogues », a déclaré Veronica Melesse Vergara, qui a supervisé le processus d’acceptation par les utilisateurs. « Frontier était sans aucun doute le système le plus difficile à mettre en ligne parmi tous les systèmes informatiques de direction, mais chaque minute supplémentaire nécessaire à l’approbation d’un système comme celui-ci est payante par la suite »

Des projets ont été lancés pour le successeur de Frontier, qui est toujours en cours de développement. La prochaine barrière de vitesse à franchir serait le zettascale – 1 sextillion de calculs par seconde, soit un trillion de milliards – et ce moment pourrait être long à venir.

« À l’heure actuelle, personne ne voit comment y parvenir », a ajouté M. Geist, directeur de la technologie de Frontier. « Au départ, nous ne voyions pas comment atteindre l’exascale. Mais nous devrions surmonter les mêmes problèmes que ceux de l’exascale, en plus de multiplier la vitesse par un facteur de mille. Je pense qu’il est plus probable que nous assistions à un mélange de technologies informatiques telles que l’intelligence artificielle ou l’informatique quantique, afin de trouver de nouvelles façons de résoudre les problèmes qui permettent d’utiliser plus efficacement les vitesses exascales. »

Système TOP10 des supercalculateurs – Novembre 2023 (Src : top500.org)

RangSystèmeCoeursRmax (PFlop/s)Rpeak (PFlop/s)Power (kW)
1Frontier – HPE Cray EX235a, AMD Optimized 3rd Generation EPYC 64C 2GHz, AMD Instinct MI250X, Slingshot-11, HPE
DOE/SC/Oak Ridge National Laboratory
United States
8,699,9041,194.001,679.8222,703
2Aurora – HPE Cray EX – Intel Exascale Compute Blade, Xeon CPU Max 9470 52C 2.4GHz, Intel Data Center GPU Max, Slingshot-11, Intel
DOE/SC/Argonne National Laboratory
United States
4,742,808585.341,059.3324,687
3Eagle – Microsoft NDv5, Xeon Platinum 8480C 48C 2GHz, NVIDIA H100, NVIDIA Infiniband NDR, Microsoft
Microsoft Azure
United States
1,123,200561.20846.84
4Supercomputer Fugaku – Supercomputer Fugaku, A64FX 48C 2.2GHz, Tofu interconnect D, Fujitsu
RIKEN Center for Computational Science
Japan
7,630,848442.01537.2129,899
5LUMI – HPE Cray EX235a, AMD Optimized 3rd Generation EPYC 64C 2GHz, AMD Instinct MI250X, Slingshot-11, HPE
EuroHPC/CSC
Finland
2,752,704379.70531.517,107
6Leonardo – BullSequana XH2000, Xeon Platinum 8358 32C 2.6GHz, NVIDIA A100 SXM4 64 GB, Quad-rail NVIDIA HDR100 Infiniband, EVIDEN
EuroHPC/CINECA
Italy
1,824,768238.70304.477,404
7Summit – IBM Power System AC922, IBM POWER9 22C 3.07GHz, NVIDIA Volta GV100, Dual-rail Mellanox EDR Infiniband, IBM
DOE/SC/Oak Ridge National Laboratory
United States
2,414,592148.60200.7910,096
8MareNostrum 5 ACC – BullSequana XH3000, Xeon Platinum 8460Y+ 40C 2.3GHz, NVIDIA H100 64GB, Infiniband NDR200, EVIDEN
EuroHPC/BSC
Spain
680,960138.20265.572,560
9Eos NVIDIA DGX SuperPOD – NVIDIA DGX H100, Xeon Platinum 8480C 56C 3.8GHz, NVIDIA H100, Infiniband NDR400, Nvidia
NVIDIA Corporation
United States
485,888121.40188.65
10Sierra – IBM Power System AC922, IBM POWER9 22C 3.1GHz, NVIDIA Volta GV100, Dual-rail Mellanox EDR Infiniband, IBM / NVIDIA / Mellanox
DOE/NNSA/LLNL
United States
1,572,480
94.64125.717,438

En synthèse

Frontier, le supercalculateur de 600 millions de dollars, a franchi la barrière de l’exascale, un jalon scientifique qui annonce la prochaine génération de supercalculateurs. Malgré les nombreux défis, notamment la pandémie de COVID-19 et une crise internationale de la chaîne d’approvisionnement, l’équipe de scientifiques a réussi à atteindre cet objectif.

La vitesse de Frontier a été mesurée en moyenne à 1,1 exaflops, soit 1,1 quintillion de calculs par seconde. Cette puissance de calcul pourrait stimuler la prochaine génération d’innovations scientifiques, allant des remèdes contre le cancer à la prédiction des catastrophes naturelles, en passant par des moteurs à essence plus propres et des enquêtes sur l’origine de l’univers.

Pour une meilleure compréhension

Qu’est-ce que l’exascale computing ?

L’exascale computing fait référence à la capacité d’un ordinateur à effectuer un quintillion (10^18) de calculs par seconde. C’est un jalon scientifique qui marque la prochaine génération de superordinateurs.

Qu’est-ce que le superordinateur Frontier ?

Frontier est un superordinateur de 600 millions de dollars installé au Oak Ridge National Laboratory du Département de l’énergie des États-Unis. Il a été construit malgré la pandémie de COVID-19 et une crise internationale de la chaîne d’approvisionnement.

Quels étaient les défis pour atteindre l’exascale computing ?

Les défis comprenaient la consommation d’énergie, la fiabilité, le mouvement des données et le parallélisme. Le plus grand obstacle était la consommation d’énergie, car un superordinateur utilisant la technologie de pointe de l’époque aurait nécessité des milliards de watts pour produire un seul exaflop.

Comment ces défis ont-ils été surmontés ?

La solution est venue presque par accident. Les ingénieurs de l’ORNL ont décidé d’incorporer des unités de traitement graphique (GPU), traditionnellement utilisées pour rendre des images et des vidéos pour les jeux informatiques, comme accélérateurs pour libérer les unités de traitement central (CPU) et alimenter la prochaine génération de superinformatique scientifique.

Quels sont les avantages de l’exascale computing ?

L’informatique exascale permet de synthétiser d’énormes quantités de données en simulations détaillées si complexes que les générations précédentes d’ordinateurs ne pouvaient pas gérer les calculs. Cela peut aider à conduire la prochaine génération d’innovations scientifiques, allant des remèdes contre le cancer et la prédiction des catastrophes naturelles à des moteurs à essence plus propres, des réacteurs nucléaires de la taille d’une table et des enquêtes sur l’origine de l’univers.

Principaux enseignements

Description
Il s’agit de la capacité d’un ordinateur à effectuer un quintillion (10^18) de calculs par seconde.
Un superordinateur de 600 millions de dollars installé au Oak Ridge National Laboratory du Département de l’énergie des États-Unis.
Les défis comprenaient la consommation d’énergie, la fiabilité, le mouvement des données et le parallélisme.
L’incorporation des unités de traitement graphique (GPU) comme accélérateurs pour libérer les unités de traitement central (CPU).
Il permet de synthétiser d’énormes quantités de données en simulations détaillées pour conduire la prochaine génération d’innovations scientifiques.

[ Rédaction ]

Articles connexes