Incident majeur sur notre infrastructure d’hébergement au Luxembourg

9 Jan, 2020  - écrit par  dans Incidents

Point de situation 13/01/2020 15:00 (CET)

Mercredi 8 janvier 2020 à 15:53 (CET), une de nos unités de stockage ZFS, utilisée pour les services d’hébergement PAAS et IAAS, a connu un incident.
À date du lundi 13 janvier 2020, nous pouvons annoncer que nous avons réussi à restaurer les données.
  • Les instances PAAS/Simple Hosting ont été démarrées
  • Les instances IAAS/Cloud Hosting doivent être démarrées par les clients
Pour tout problème, merci de contacter le support.
Nous vous communiquerons un post mortem complet dès que possible.

Point de situation 10/01/2020 12:00 (CET) 

Un incident de stockage impacte depuis le 8 janvier 2020 une partie des clients IAAS/PAAS de notre datacenter du Luxembourg.
Nos tentatives de récupération des données sont toujours en cours par nos équipes techniques. Actuellement, nous sommes à même de vous fournir les informations suivantes :
  • Le pool de données ZFS a pu être importé.
  • La copie des données sur une autre unité de stockage est toujours en cours. 
  • Environ 50% de la copie est achevée à cette heure.
  • La suite des opérations de récupération des données ne pourra se faire qu’une fois cette copie complétée.
  • Nous n’avons pas encore de garantie quant à l’intégrité des données.
Cet événement n’a pas de répercussion sur le fonctionnement des autres services Gandi :
  • Nom de domaine
  • DNS
  • Email
  • Certificat SSL

Point de situation 09/01/2020 

Mercredi 8 janvier 2020 à 15:53 (CET), une de nos unités de stockage ZFS, utilisée pour les services d’hébergement PAAS et IAAS, a connu un incident.

L’unité de stockage est devenue indisponible, provoquant une coupure de service pour les PAAS et IAAS ayant un disque associé à cette unité.

Nous avons suivi les procédures établies :

  • basculer le contrôle des données sur une machine de secours
  • informer par e-mail les clients impactés par cet incident.

Par ailleurs, nous avons communiqué en direct sur cet incident dès les premières minutes via nos comptes Twitter @gandinoc @gandi_net et @gandibar.

L’import des données sur la machine de secours n’a pas été possible en raison d’une corruption de méta-données dont nous ignorons encore la cause. Nous essayons depuis de forcer l’import des données, une manœuvre qui nécessite de repartir de méta-données valides.

Malgré les efforts de nos équipes techniques pour essayer de restaurer les données de l’unité de stockage impactée, nous ne sommes actuellement pas en mesure de les récupérer. Le résultat de cette opération est, à l’heure où nous mettons en ligne ce billet, très incertain.

Ce type d’incident est extrêmement rare et, en l’occurrence, limité à une seule unité de stockage.

Nous fournirons dès que possible un postmortem.

Nous sommes navrés pour cette regrettable expérience et présentons nos sincères excuses aux clients impactés.

L’équipe gandi.net