Google affirme que ses nouveaux clusters d’inférence basés sur Ironwood dans le cloud sont 24 fois plus puissants que le superordinateur le plus performant au monde. Cette affirmation est facilement réfutable et complètement erronée.
Google annonce l’accélérateur Ironwood lors de Google Cloud Next, sans s’abstenir de désinformation. Cette puce puissante est optimisée pour l’inférence, offrant ainsi une alternative aux GPU de Nvidia. Google regroupe la puce au sein de son plateforme cloud en clusters ou pods de 9 216 puces Ironwood, et affirme ensuite qu’un tel cluster surpasse sans effort le système exascale le plus puissant au monde.
Affirmation audacieuse
Sur le blog d’annonce de Google, nous voyons (actuellement) une belle vidéo indiquant que le cluster Ironwood est 24 fois plus puissant que le superordinateur le plus performant à ce jour. Plus loin dans la description, nous lisons à nouveau littéralement que le pod Ironwood serait 24 fois plus puissant qu’El Capitan.

Malheureusement, la comparaison est si manifestement erronée qu’il est difficile de croire que Google ne trompe pas intentionnellement. Examinons en détail.
ExaFlops
Google affirme que son cluster Ironwood a une puissance de calcul de 42,5 ExaFlops. Flops signifie Floating point operations per second. Pour cela, il n’utilise pas de benchmark universel, mais son propre test qui mesure la puissance de calcul en FP8. Cela signifie que le test utilise des chiffres stockés sur huit bits informatiques. Le chiffre indique combien de calculs par seconde le système peut effectuer avec de tels chiffres sur 8 bits.
Le fournisseur de cloud examine ensuite les performances d’El Capitan, telles qu’annoncées par la liste Top 500. Il y est indiqué qu’El Capitan atteint 1,7 ExaFlops, tel que mesuré par le benchmark Linpack standardisé universellement utilisé pour comparer la puissance de calcul des superordinateurs.
FP8 vs. FP64
Linpack fonctionne avec des valeurs FP64. Ce sont des chiffres stockés sur 64 bits. Les chiffres FP64 sont beaucoup plus détaillés et précis que les chiffres FP8 abrégés (arrondis). À titre d’illustration : π en FP8 peut être considéré comme environ 3,125, en FP64 la valeur est plutôt 3,141592653589793. Doublez π en FP8 dans votre tête, puis faites de même pour π en FP64. L’un des deux calculs est considérablement plus simple que l’autre.
Pour les charges de travail d’IA, la précision n’est pas de la plus haute importance. La vitesse est plus pertinente. C’est pourquoi les charges de travail s’appuient sur des chiffres qui occupent moins de mémoire, comme le FP8. Pour d’autres charges de travail, un tel manque de précision peut poser problème. Quoi qu’il en soit, un calcul en FP8 n’est pas équivalent à un calcul en FP64.
Sous le capot, les accélérateurs sont équipés de systèmes optimisés pour traiter des chiffres à virgule flottante de précision variable. Le FP64 est huit fois plus complexe que le FP8, mais il ne suffit pas de multiplier les 1,7 ExaFlops d’El Capitan par huit. Si nous le faisions, nous atteindrions 13,6 ExaFlops et Google Ironwood serait toujours plus puissant (mais pas avec un facteur 24).
La véritable puissance d’El Capitan
En pratique, des variables telles que le matériel spécifique et la bande passante mémoire jouent un rôle. El Capitan est équipé de 43 808 accélérateurs AMD Instinct MI300A. Selon les spécifications d’AMD, chacun d’entre eux offre une puissance de calcul de 1,96 PetaFlops (qui peut même être supérieure dans certains scénarios). De manière conservatrice, les accélérateurs d’IA d’El Capitan fournissent ensemble au moins 85 ExaFlops de puissance de calcul en FP8. C’est plus du double du pod Google Ironwood.
De manière conservatrice, les accélérateurs d’IA d’El Capitan fournissent ensemble au moins 85 ExaFlops de puissance de calcul en FP8.
Il devient ainsi clair que Google n’a pas soudainement construit un cluster exascale. Même avec ces chiffres, la comparaison est complexe car elle n’est pas basée sur une mesure avec un test standardisé. Ironwood n’est pas optimisé pour le FP64 et ne performerait probablement pas très bien sur le benchmark Linpack. Nous éviterions nous-mêmes une comparaison directe, mais Google apparemment pas.
Pas plus rapide mais plus lent
En tout cas, le cluster Google Ironwood de 9 216 puces n’est pas 24 fois plus rapide qu’El Capitan. Dans le cas le plus optimiste, où nous essayons de comparer la puissance de calcul du matériel d’El Capitan en FP8 pour lequel Ironwood est optimisé, le cluster de Google est à peine deux fois moins performant.
C’est logique : Google intègre 9 216 puces Ironwood dans sa solution HPC, El Capitan combine 43 808 des derniers accélérateurs d’AMD dans un système sur mesure.
Nous ignorons comment Google a conçu l’idée qu’il serait judicieux de comparer une valeur ExaFlops en FP8 de son propre test avec une valeur FP64 d’un autre test. Nous avons sollicité une réaction de la part de Google. Qu’un néophyte commette cette erreur est compréhensible : après tout, le terme ExaFlops apparaît deux fois. Cependant, toute personne ayant une certaine connaissance du sujet devrait au minimum comprendre qu’une comparaison entre FP64 et FP8 de cette manière équivaut à comparer des pommes et des poires.
Peut-être l’équipe marketing a-t-elle sollicité l’avis de Google Gemini AI…