Une mise à jour incompatible de la structure de la base de données a provoqué une panne mondiale chez Snowflake le 16 décembre. Les utilisateurs de plusieurs régions n’ont pas pu effectuer de requêtes pendant des heures et ont rencontré des problèmes lors du chargement des données.
Le mardi 16 décembre, les clients de Snowflake dans au moins dix régions cloud ont été gênés par une panne de la plateforme. Les problèmes ont duré de 2 h 55 à 15 h 59 UTC, soit près de treize heures. Pendant cette période, les utilisateurs n’ont pas pu effectuer de requêtes ou ont subi des ralentissements. De plus, Snowpipe et Snowpipe Streaming – deux services de chargement automatique des données – n’ont pas fonctionné comme prévu.
La panne a notamment touché des centres de données aux États-Unis (Virginie et Oregon), en Europe (Irlande, Londres, Zurich, Suède), en Asie (Singapour, Mumbai) et au Mexique. Les utilisateurs ont signalé des messages d’erreur tels que
Erreur de mise à jour
L’incident est dû à une erreur dans une nouvelle version logicielle que Snowflake avait déployée précédemment. Cette mise à jour contenait une modification de la structure de la base de données qui s’est avérée incompatible avec les versions précédentes. Cela a entraîné des erreurs lors de l’appel de certains champs de données, ce qui a conduit à des conflits de versions et à des échecs d’opérations.
Aucune solution temporaire n’était disponible pour les utilisateurs concernés. Seuls les clients qui utilisaient la réplication vers des régions non touchées ont pu continuer à travailler partiellement. Snowflake a indiqué qu’après l’annulation de la modification, la situation s’était normalisée. Certains clients ont peut-être encore subi des retards dans le traitement des données en raison d’une accumulation de demandes envoyées, mais entre-temps, tout devrait à nouveau fonctionner normalement.
Impact
Snowflake se positionne comme une plateforme centrale pour toutes les données d’une entreprise, tout comme les applications (d’IA) qui y sont construites. Une panne, et surtout une panne qui dure des heures, a donc un impact important sur les entreprises dans leurs environnements de production.
La cause de la panne semble dans ce cas être liée à des procédures de test insuffisamment robustes. Une mise à jour qui a cassé la compatibilité a tout de même été déployée à grande échelle et il a fallu beaucoup de temps à Snowflake pour identifier et résoudre ce problème. Cela ne devrait pas arriver, mais c’est souvent le cas dans la pratique. Pour Microsoft, les bugs dans les mises à jour sont presque monnaie courante.
