Cloudflare fait son mea culpa pour une panne Internet mondiale le 14 juillet. Une erreur de configuration DNS a causé une interruption mondiale de 62 minutes.
Dans la soirée du 14 juillet, de nombreux sites web à travers le monde se sont soudainement retrouvés hors ligne. La cause a rapidement été identifiée chez Cloudflare, l’un des plus grands fournisseurs de services Internet. Dans un billet de blog, Cloudflare a reconnu sa responsabilité et écarté les rumeurs d’une cyberattaque.
La panne a été causée par une erreur de configuration interne d’un résolveur DNS. En conséquence, tous les sites web dépendant de ce résolveur DNS étaient temporairement indisponibles. Comme Cloudflare a des clients dans le monde entier, les pannes chez l’entreprise ont immédiatement un impact majeur, même si elles ne sont que temporaires.
62 minutes
La panne a commencé vers minuit dans notre fuseau horaire et s’est terminée exactement 62 minutes plus tard. En raison de cette défaillance, les utilisateurs ne pouvaient pas exécuter de requêtes DNS, ce qui a rendu presque tous les services Internet inaccessibles pour eux. La panne a été causée par une mauvaise configuration antérieure des systèmes responsables de l’annonce des adresses IP de Cloudflare sur Internet.
lire aussi
Cloudflare fait face à la plus grande attaque DDoS jamais enregistrée : 7,3 Tbps en 45 secondes
Le 6 juin, une modification a été apportée pour un nouveau service qui n’était pas encore en production, mais qui incluait accidentellement les préfixes du résolveur 1.1.1.1. Le 14 juillet, une seconde modification a été effectuée pour ce service, entraînant un changement mondial des paramètres réseau. Cela a conduit au retrait involontaire des préfixes IP des centres de données Cloudflare, rendant le résolveur inaccessible.
L’impact sur le trafic DNS a été immédiatement visible pour Cloudflare, déclenchant les alertes. Heureusement, le trafic DNS via DNS over HTTPS est resté largement inaffecté, car les utilisateurs utilisent généralement le nom de domaine cloudflare-dns.com plutôt qu’une adresse IP dans ce cas. Trente minutes après la découverte du problème, 77 % du trafic Internet affecté était rétabli, et après 62 minutes, l’erreur était entièrement résolue.
Mea culpa
Cloudflare fait son mea culpa et affirme avoir pris plusieurs mesures pour éviter que cela ne se reproduise. L’organisation prévoit d’abandonner les systèmes obsolètes et de promouvoir des déploiements progressifs et contrôlés. Cela devrait améliorer la stabilité de l’infrastructure réseau et minimiser les perturbations futures.