Alertes et incidents

Postmortem de l’incident réseau du 15 septembre 2020 : IAAS-PAAS FR-SD3, FR-SD5, FR-SD6

Lors d’une maintenance visant à remplacer des équipements réseau, un défaut d’architecture et de configuration a mené à l’interruption des services PAAS et IAAS au sein des datacenters FR-SD3, FR-SD5, FR-SD6 et ceci à deux reprises lors de la journée du 15 septembre 2020.

1er incident

– 11h22 CEST : Introduction d’une boucle réseau de niveau 2
– 11h30 CEST : Arrêt de la boucle réseau, le réseau est stable
Jusqu’à 15h26 CEST certain PAAS et IAAS ne fonctionnaient pas correctement

2e incident

– 16h15 CEST : Introduction d’une seconde boucle réseau de niveau 2
– 16h26 CEST : Fin de la seconde boucle réseau

Conséquences

L’incident a eu deux conséquences :

  • Perturbation de l’accès aux services durant les boucles réseau.
  • Le disque ce certaines VMs est passé en read only pour éviter les corruptions suite à la boucle L2. De ce fait, les VM ne sont plus utilisables jusqu’à ce qu’une vérification du système de fichiers soit effectuée.

Postmortem : que s’est-il passé ?

Pourquoi les services hosting ont-ils été indisponibles avec des effets de bord durant la journée du 15 septembre 2020 ?

Une boucle réseau de niveau 2 a été introduite lors d’une maintenance.

Pourquoi une boucle réseau a-t-elle été introduite ?

Suite à un mauvais postulat sur l’architecture qui a été mise en place pour les différents datacenters : FR-SD3, FR-SD5, FR-SD6.
L’architecture de ces salles a été réalisée de façon à ce qu’elles soient autonomes. Elles ne sont pas censées être liées entre elles.
En effet, avoir un niveau 2 étendu à travers plusieurs salles/datacenters est peu recommandé : en cas de problème, cela peut amener des impacts larges, et les risques de créer des boucles sont aussi plus importants.
De ce fait, durant cette maintenance, le remplacement de l’équipement concerné par les équipes techniques a complété le réseau de niveau 2 étendu, et a créé une boucle.

Avant incident : ok

Pendant incident : nok

Après incident : ok

Pourquoi alors y avait-il un niveau 2 étendu entre ces salles ?

Lors de la migration de nos anciennes salles, certaines contraintes nous ont obligé à créer un niveau 2 étendu afin de procéder à la migration des instances IAAS et PAAS.

Pourquoi ce niveau 2 étendu est-il encore présent ?

Parce que nous n’avons pas fini le regroupement des clients dans une même salle.

Comment avez-vous négligé l’importance de ce niveau 2 étendu entre ces salles ?

La préparation de la maintenance a été faite en se basant sur la documentation d’architecture, en ne prêtant pas autant attention que nous aurions dû à cette exception temporaire.

Remédiation

Court terme pour finir la migration

– Complétion de la migration en prenant en compte les contraintes du L2 étendu.

Moyen terme

– Migration des derniers clients pour enlever le L2 étendu.