Postmortem de l’incident du 10 octobre 2021
Dimanche 10 octobre de 12h13 (heure de Paris) à 20h16 (heure de Paris), un incident s’est produit et a touché notre plateforme principale, impactant les services suivants :
- www.gandi.net : hors ligne jusqu’à 18h39 (heure de Paris)
- shop.gandi.net : hors ligne jusqu’à 18h39 (heure de Paris)
- admin.gandi.net : hors ligne jusqu’à 18h39 (heure de Paris)
- APIs : hors ligne jusqu’à 15h30 (heure de Paris)
- Gandimail : impossible de se connecter au compte de messagerie, de lire ou d’envoyer des e-mails jusqu’à 19h30 (heure de Paris)
Sur cette période, les clients n’étaient pas en mesure de passer de commandes, de gérer ou d’acheter des produits via notre site web ou nos APIs. Les clients Gandimail ne pouvaient pas non plus accéder à leurs e-mails.
Postmortem : que s’est-il passé ?
Un problème électrique a causé la perte d’une alimentation électrique, entraînant une surtension sur l’alimentation restante.
La perte d’une alimentation électrique n’aurait pas dû avoir d’impact sur notre production. Nous étions cependant en pleine migration pour remplacer des serveurs, ce qui nous a conduit à concentrer trop de serveurs dans un même rack pendant cette période.
Dans une situation normale, le problème électrique n’aurait pas dû nous affecter, car la redondance des serveurs est assurée sur plusieurs racks et avec deux alimentations électriques par rack. Bien sûr, nous disposons d’une option PRA (Plan de Reprise d’Activité) pour basculer vers un autre centre de données. Mais nous ne l’utilisons qu’en cas de force majeure, comme la perte totale d’un centre de données et de ses données.
Nous aurions dû éviter une telle concentration lors de la migration et nous allons mettre en place de nouvelles procédures pour éviter qu’un tel scénario se reproduise à l’avenir.
Tagged in Sécurité