Des centaines de GPU Nvidia H100 en panne pendant l'entraînement de Llama 3

Des centaines de GPU Nvidia H100 en panne pendant l’entraînement de Llama 3

Pendant l’entraînement du Llama 3, les GPU Nvidia H100 se sont avérés les composants les plus fragiles. Plus précisément, c’était plutôt la mémoire HBM3 qui a le plus souvent échoué.

Meta a entraîné Llama 3 405B sur un supercalculateur équipé de 16 384 GPU Nvidia H100 de 80 Go. Pendant la période d’entraînement de 54 jours, 419 composants du cluster sont tombés en panne. Donc en moyenne, toutes les trois heures environ, un problème est survenu.

Composant fragile

Pour environ la moitié des cas, le problème était « lié » aux GPU H100. Dans 17,2 % des cas, le problème provenait d’une défaillance de la mémoire HBM3. Dans 30 % des cas, un autre problème lié au GPU (ou NVLink) était à l’origine de la panne.

Seuls deux processeurs ont planté pendant l’entraînement. Les autres défaillances sont dues à une multitude de bogues matériels et logiciels. Ainsi, les GPU se sont révélés être les composants les plus fragiles du cluster, bien que l’impact des défaillances ait été limité au cours de la période d’entraînement. Selon Meta, il a été possible de s’entraîner efficacement 90 % du temps.

L’entreprise a utilisé diverses techniques pour atténuer les défaillances des composants. En effet, étant donné l’ampleur du cluster d’entraînement, les erreurs étaient inévitables. Pour que la formation soit efficace, un grand système parallèle doit savoir gérer les problèmes locaux. Meta a utilisé un logiciel pour détecter rapidement les GPU défaillants et résoudre rapidement les problèmes. Cette tâche a été principalement réalisée de manière automatique. Il a fallu une intervention manuelle pour résoudre trois incidents seulement.

Désavantage d’échelle

Ces chiffres illustrent les difficultés liées à la formation de grands modèles d’intelligence artificielle. La taille des clusters d’apprentissage est tellement importante que les problèmes fréquents font partie du processus d’apprentissage. Les chercheurs et les spécialistes doivent veiller à ce que la formation se poursuive même en cas de défaillance du matériel.

Meta a été confronté à un problème toutes les trois heures en moyenne, mais le développement de clusters d’IA beaucoup plus importants est déjà en hausse. L’entreprise xAI d’Elon Musk veut construire un cluster de 100 000 GPU Nvidia H100. Si ses composants tombent en panne à la même échelle, les ingénieurs de xAI devraient veiller à ce que les perturbations soient résolues sans heurts plusieurs fois par heure.

Cookie	Duration	Description
__gads	1 year 24 days	Le cookie __gads, défini par Google, est stocké sous le domaine DoubleClick et permet de suivre le nombre de fois où les utilisateurs voient une publicité, de mesurer le succès de la campagne et de calculer ses revenus. Ce cookie ne peut être lu qu'à partir du domaine sur lequel il est installé et ne permet pas de suivre les données lors de la navigation sur d'autres sites.
_ga	2 years	Il s'agit d'un cookie de base de Google Analytics permettant d'identifier les utilisateurs de notre site Web. Par défaut, nous utilisons une version limitée de Google Analytics avant que les cookies ne soient acceptés. Les données y sont rendues anonymes et les fonctions de marketing sont désactivées.
_gid	1 day	Il s'agit d'un cookie de base de Google Analytics permettant d'identifier les utilisateurs de notre site Web. Par défaut, nous utilisons une version limitée de Google Analytics avant que les cookies ne soient acceptés. Les données y sont rendues anonymes et les fonctions de marketing sont désactivées.
cli_user_preference	1 year	Ce cookie garantit le bon fonctionnement de notre notification de cookies. Vos préférences sont stockées dans un cookie, afin que nous le sachions lors de votre prochaine visite.
CONSENT	2 years	YouTube place ce cookie via les vidéos YouTube intégrées et enregistre des données statistiques anonymes.
cookielawinfo*	1 year	Ce cookie garantit que notre notification de cookies fonctionne correctement. Vos préférences sont enregistrées dans un cookie afin que nous sachions quand vous nous rendrez visite la prochaine fois.
IDE	1 year 24 days	Les cookies Google DoubleClick IDE sont utilisés pour stocker des informations sur la façon dont l'utilisateur utilise le site web afin de lui présenter des annonces pertinentes et en fonction de son profil.
itdaily_lang	1 year	Ce cookie est nécessaire pour masquer la notification du pays. La notification du pays est affichée lorsque vous visitez le site web à partir d'un pays. C'est pourquoi nous proposons également une édition spécifique de ITdaily. Vous pouvez masquer cette notification grâce à ce cookie.
itdaily_theme	1 year	Ce cookie enregistre si vous voulez activer la version darkmode ou normale.
PHPSESSID	1 day	Ce cookie provient d'applications PHP standard. Le cookie est utilisé pour stocker et identifier une session d'utilisateur. Il s'agit d'un cookie de session qui est immédiatement supprimé lorsque vous fermez le navigateur.
test_cookie	15 minutes	Le test_cookie est défini par doubleclick.net et est utilisé pour déterminer si le navigateur de l'utilisateur prend en charge les cookies.
viewed_cookie_policy	1 year	Ce cookie garantit le bon fonctionnement de notre notification de cookies. Vos préférences sont enregistrées dans un cookie afin que nous puissions connaître votre prochaine visite.
wordpress_*	30 days	Wordpress utilise plusieurs cookies pour que le site web fonctionne correctement, par exemple pour permettre à l'équipe éditoriale de se connecter.
wp-*	1 day	Wordpress utilise plusieurs cookies pour que le site web fonctionne correctement, par exemple pour permettre à l'équipe éditoriale de se connecter.

Cookie	Duration	Description
_li_id.*	2 years	Ce cookie est utilisé par Leadinfo pour garder la trace des profils qui visitent ITdaily. Nous ne pouvons pas identifier les visiteurs individuels sur la base de ces statistiques.
_li_ses.*	30 minutes	Ce cookie est utilisé par Leadinfo pour garder la trace des profils qui visitent ITdaily. Nous ne pouvons pas identifier les visiteurs individuels sur la base de ces statistiques.
itdaily_views	1 hour	Ce cookie est utilisé par notre propre système pour suivre les utilisateurs sur le site web.

Cookie	Duration	Description
_li_id.*	2 years	Ce cookie est utilisé par Leadinfo pour garder la trace des profils qui visitent ITdaily. Nous ne pouvons pas identifier les visiteurs individuels sur la base de ces statistiques.
_li_ses.*	30 minutes	Ce cookie est utilisé par Leadinfo pour garder la trace des profils qui visitent ITdaily. Nous ne pouvons pas identifier les visiteurs individuels sur la base de ces statistiques.
VISITOR_INFO1_LIVE	5 months 27 days	Un cookie défini par YouTube pour mesurer la bande passante qui détermine si l'utilisateur obtient la nouvelle ou l'ancienne interface du lecteur.
YSC	session	Le cookie YSC est défini par YouTube et est utilisé pour suivre les vues des vidéos intégrées dans les pages YouTube.

Composant fragile

Désavantage d’échelle

newsletter