Retour sur les incidents hébergement des 7 et 8 octobre
Nous avons été impactés par de graves incidents sur plusieurs unités de stockage en début de semaine. Ces incidents ont entraînée deux interruptions de service pour une petite partie de nos clients, tant sur des instances Simple Hosting que sur des serveurs IaaS.
Cumulées, ces deux interruptions de service réprésentent notre plus gros incident de ces trois dernières années.
Les clients concernés ont été contactés et dédommagés. Nous souhaitons néanmoins, en toute transparence, revenir ici sur les circonstances de ces incidents.
- Peu avant 20h00 CEST le 7 octobre, une unité de stockage de notre datacenter parisien, hébergeant des disques de serveurs IaaS et d’instances Simple Hosting, ne répond plus.
- À 20h00, vérifications d’usage et décision de basculer sur l’unité de secours.
- À 21h00, migration des données interrompue. Investigation des équipes et retour vers l’unité de stockage d’origine.
- À 2h00 redémarrage de l’unité de stockage dont le disque de journal d’écriture défectueux a été changé.
- À 3h00, sous la forte surchage liée à l’interruption de 6 heures, l’unité de stockage ne répond plus et les équipes sont contraintes d’étaler le démarrage des instances PAAS de 3h00 à 5h30.
- À 8h30, l’ensemble des VMs et instances est fonctionnel après vérification. Certaines VMs ou instances seront à vérifier au cas par cas.
- L’ensemble des unités de stockage utilisant le même modèle de disque est inspecté, et l’un d’entre eux est remplacé à titre préventif.
- À 12h30, l’unité de stockage dont le disque a été remplacé présente une défaillance légère et nos équipes recherchent l’origine du problème.
- À 15h50, 3 disques virtuels sont bloqués et une dizaine de VM impactée. Le bug est identifié, une mise à jour préventive est réalisée sur l’unité de stockage avant sa correction. Cette mise à jour entraîne un redémarrage automatique, causant une interruption de l’hébergement.
- À 16h15, l’ensemble des instances Simple Hosting est fonctionnel. Les disques IaaS peinent à remonter. À 17h30, plus de 80% des disques sont accessibles, 100% à 17h45.
Pendant toute la durée de l’incident, soit de 16h00 à 18h00 environ, l’ensemble des opérations est interrompu, interdisant tout arrêt, création ou démarrage des serveurs. Les nombreuses opérations en attente de traitement sont traitées dans leur intégralité à 19h30.
Ces incidents en série ont impacté fortement la qualité de notre service, et nous le déplorons. Nous avons d’ores et déjà pris les mesures nécessaires pour réduire l’impact de tels incidents et les prévenir en amont.
En outre, un outil de suivi des incidents et des maintenances permettant à nos clients de connaître l’état de nos services en temps réel est en cours de développement et sera mis en production d’ici la semaine prochaine.
Nous renouvelons à nos clients impactés toutes nos excuses pour le désagrément occasionné et vous remercions de votre confiance.
Tagged in CloudSécurité