Rapport d’incident : abc DNS cluster

9 Sep, 2019  - écrit par  dans Cloud

Nous avons eu deux incidents sur notre plateforme DNS {a,b,c}.dns.gandi.net les 7 et 8 septembre 2019.

Pour résumer

Impacts

Pas de résolution DNS depuis le réseau Hosting de Paris (FR-SD3, FR-SD5, FR-SD6) pour les enregistrement DNS liésà {a,b,c}.dns.gandi.net.
Durant le DDoS, la résolution globale était dégradée mais fonctionnelle.

Causes

  • Le DDoS a créé une instabilité réseau sur une partie du réseau de Paris.
  • L’isolation du cluster DNS de Paris a créé un trou noir pour les requêtes DNS venant du réseau Hosting IaaS de Paris pour les domaines hébergés sur {a,b,c}.dns.gandi.net.
  • Une mauvaise interprétation d’une sonde menant à la décision de l’ignorer n’a pas permis de détecter le problème.

Actions à entreprendre

  • Modifier le réseau de Paris pour éviter l’instabilité
  • Automatiser l’isolation du réseau
  • Revoir notre politique de gestion d’incident

Timeline

Sept 7 20h03 UTC : Nous avons commencé à recevoir des alertes de notre supervision externe à propos d’un problème avec c.dns.gandi.net, le cluster n’a pas répondu pendant plusieurs secondes.
a.dns.gandi.net et b.dns.gandi.net étaient toujours opérationnels.

Sept 7 20h09 UTC : L’astreinte est connectée et escalade le problème afin d’avoir du renfort.

Sept 7 20h13 UTC : Les renforts rejoignent le pont.

Sept 7 20h18 UTC : Après analyse, il s’agit d’un DDoS. Pas d’alarme à propos d’un trafic inhabituel. Nos équipements de protections anti DDoS ne voient rien de particulier.

Sept 7 20h19 UTC : Le DDoS ayant des effets de bord, la supervision est bruyante, rendant le travail difficile.Nous cherchons la cible du DDoS pour voir si nous pouvons mitiger l’attaque. Nous ne sommes pas en mesure de trouver l’origine de l’attaque, de ce fait nous décidons d’arrêter les annonces BGP pour {a,b,c}.dns.gandi.net depuis les datacenters de Paris pour permettre de stabiliser la situation.

Sept 7 20h42 UTC : L’astreinte réseau est appelée pour monitorer l’isolation.

Sept 7 22h00 UTC : La situation est stable, l’isolation a pris plus de temps que prévu.
A partir de ce moment {a,b,c}.dns.gandi.net est sécurisé mais nous avons créé un autre incident sur le réseau Hosting IaaS de Paris. L’incident n’est pas connu pour le moment.
La supervision est au vert, les latences DNS depuis notre monitoring externe sont bonnes.
Mais il y avait un problème dans la façon dont nous avons isolé les clusters DNS. Le réseau Hosting IaaS de Paris voyait toujours les annonces internesBGP de Paris mais n’était pas capable de joindre les serveurs DNS.
Nous avons créé un trou noir pour toutes les requêtes DNS venant du réseau Hosting IaaS de Paris pour les domaines hébergés sur {a,b,c}.dns.gandi.net.

Sept 8 10h20 UTC : Suite à des remontées clientes sur Twitter, l’équipe Ops a commencé à regarder les problèmes DNS remontés.

Sept 8 10h28 UTC :Le problème est confirmé. L’équipe réseau est appelée.

Sept 8 10h33 UTC : L’équipe réseau est connectée et commence à analyser le problème.

Sept 8 10h37 UTC : Nous décidons de revenir à l’état initial.

Sept 8 10h53 UTC : Le retour à l’état initial n’a pas permis de régler le problème.

Sept 8 11h01 UTC :Un autre membre de l’équipe réseau arrive en renfort.

Sept 8 11h32 UTC : Le problème de résolution DNS depuis le réseau Hosting IaaS est résolu.