Un rapport révèle une diminution des chiffres de pannes électriques dans les centres de données, mais les erreurs humaines restent responsables de la majorité des incidents majeurs.
La fiabilité des centres de données s’améliore, mais les erreurs humaines demeurent l’un des problèmes les plus difficiles à résoudre. Selon le rapport annuel Outage Analysis Report de l’institut américain Uptime Institute, les individus jouent un rôle direct ou indirect dans 66 à 80 pour cent des incidents graves.
Moins d’incidents, mais des conséquences plus importantes
Le nombre d’incidents signalés a diminué : 53 pour cent des répondants ont signalé une panne au cours des trois dernières années, contre 60 pour cent en 2022 et 78 pour cent en 2020. Seuls 9 pour cent des pannes en 2024 étaient graves ou très graves, le pourcentage le plus bas jamais enregistré.
Néanmoins, les coûts et l’impact des pannes augmentent. Les problèmes liés à l’alimentation électrique restent la principale cause des pannes majeures, représentant plus de la moitié de tous les cas. La défaillance des systèmes d’alimentation sans interruption (UPS) est citée comme le problème le plus fréquent.
Le facteur humain reste le plus important
Les erreurs humaines ont causé une panne majeure dans 40 pour cent des organisations au cours des trois dernières années. Dans 58 pour cent de ces cas, une procédure n’a pas été suivie ; dans 45 pour cent, la procédure elle-même était déficiente. De plus, la proportion d’erreurs de procédure a augmenté de 10 points de pourcentage par rapport à l’année précédente, possiblement en raison d’une croissance rapide et de pénuries de personnel.
Selon Uptime, la formation et le soutien en temps réel peuvent être plus efficaces qu’une meilleure documentation seule. Quatre organisations sur cinq estiment que de meilleures pratiques de gestion auraient pu prévenir leur dernière panne.
Bien que les chiffres diminuent, Uptime met en garde contre des risques croissants dus à l’IA, à l’automatisation et à une intégration plus complexe avec les systèmes informatiques et opérationnels. Ce sont des causes d’erreurs opérationnelles et de cyberattaques plus nombreuses.