[TERMINE] Incident PaaS FR-SD6

Le dimanche 3 mars 2019, de 9:30 CET à 21:43 CET, notre service PAAS sur FR-SD6 a connu une importante dégradation de service.

Les causes techniques étaient pourtant banales : saturation d’un équipement réseau.

Une mauvaise analyse du problème de notre part a entrainé une sousévaluation de la gravité de la situation.

L’incident aurait dû trouver une résolution beaucoup plus rapide si nous avions recommencé l’analyse depuis le début et étions repartis d’une page blanche avec les collègues appelés en renfort durant l’incident. C’est ce qui devrait être le cas quand un incident dure trop longtemps et qui devrait permettre d’éviter de s’enliser dans une analyse erronée.

Nous tirons donc les enseignements de cet incident, de ses conséquences et améliorons nos process.

Bien que nous soyons dans le métier depuis longtemps, plus de 10 ans pour la plupart des administrateurs qui constituent l’équipe d’astreinte, nous ne sommes pas à l’abri d’une erreur qui peut sembler basique alors que nous rédigeons ce billet.

Mais sur le moment, « dans le feu » comme nous le disons, nous n’avons pas remis en question notre diagnostic.

Cet incident a clairement montré un problème à ce niveau.

Nous vous présentons nos excuses pour cet incident.