La communauté Gandi

Incident majeur sur Gandi Mail

Notre service Gandi Mail a subi lundi 12 mars un incident réseau qui a entrainé pour nos clients des problèmes d’envoi et de réception de leurs emails pendant plusieurs heures. Cet incident est résolu, et notre service Gandi Mail fonctionne désormais normalement. L’ensemble des emails envoyés pendant l’incident ont été délivrés à l’exception de ceux envoyés à des adresses Yahoo, nos serveurs ayant été temporairement blacklistés.

Cet incident est lié à la migration de notre centre de données historique, FR-SD2, vers nos nouveaux centres de données et notamment à la migration, pendant la journée de dimanche, de la plateforme Gandi Mail en charge de la gestion des emails de nos clients.

Chronologie des faits :

Lundi matin lors de la montée en charge du trafic, un problème apparait dans l’architecture réseau des serveurs nouvellement déployés : la capacité réseau n’est pas suffisante pour absorber le trafic lié à la reprise d’activité de nos clients.

Le trafic réseau déborde alors sur le reste de l’infrastructure et rend instable nos autres services. Une première intervention de nos équipes permet d’isoler le trafic réseau de la plate-forme Gandi Mail afin de rétablir les autres services.

Lundi à la mi-journée le service Gandi Mail est isolé mais reste toujours instable.

En parallèle de l’isolation du trafic, nos ingénieurs retravaillent l’architecture réseau du service Gandi Mail afin d’en augmenter la capacité. Cette solution est mise en place lundi en début d’après-midi et la charge commence à se résorber.

Afin d’accélérer le processus, nous décidons lundi après-midi d’assouplir les règles de notre outil d’analyse de comportement des envois d’emails. Cet outil nous permet de limiter l’impact de campagnes de spam qui sont régulièrement lancées par des botnets via les comptes email de nos clients (à leur insu).

La désactivation de cet outil nous empêche malheureusement de bloquer une campagne de spam, et permet l’envoi d’un volume important d’emails par un botnet via nos serveurs. Nous nous rendons compte du problème rapidement, mais des centaines de milliers de mails ont déjà été émis; ce qui a pour conséquences le blocage des emails en provenance de nos serveurs mail par plusieurs opérateurs (blacklistage) : Yahoo et Microsoft (Hotmail et  Outlook) en particulier.

Pendant ce temps, les emails reçus et envoyés sont stockés dans des files d’attentes.

Ces files d’attentes permettent de ne pas perdre d’emails si ils ne peuvent pas être traités immédiatement. Par exemple si vous voulez envoyer un email mais que le serveur de réception du destinataire n’est pas disponible, l’email n’est pas perdu, il est mis de côté pour être envoyé à nouveau plus tard. En fonction du nombre d’échecs, il passe dans des files de plus en plus « lentes » (c’est à dire que la fréquence des tentatives d’envoi diminue).

Les emails envoyés pendant l’incident se retrouvent ainsi en attente dans les files plus lentes alors que le trafic instantané fonctionne normalement.

Résultat, mardi à la mi-journée, certains emails envoyés lundi matin pendant l’incident restent encore en attente de remise.

Situation actuelle :

  • Les serveurs Gandi Mail ont retrouvé leur stabilité ; l’envoi et la réception d’emails fonctionnent depuis nos interfaces webmail ou un logiciel de messagerie, y compris pour les emails comportant une pièce jointe,
  • les emails envoyés à des adresses Yahoo ne sont toujours pas délivrés, et nos équipes travaillent activement avec Yahoo pour obtenir le débloquage,
  • tous les autres emails envoyés pendant l’incident ont désormais été délivrés à leurs destinataires.

Si vous rencontrez toujours des difficultés dans l’envoi ou la réception de vos emails, merci d’utiliser ce formulaire de contact  et de nous indiquer le type de problème rencontré (envoi ou réception), le logiciel de messagerie ou l’interface webmail utilisés, ainsi que les adresses email d’expéditeur et de destinataires des emails concernés.

Cet incident intervient dans le cadre de la fermeture de notre centre de données historique, FR-SD2, que nous avons déjà évoquée à plusieurs reprises. C’est un chantier d’envergure que nos équipes techniques préparent depuis plusieurs mois, avec, ces dernières semaines, la migration effective des différents services Gandi, dont l’infrastructure Simple Hosting, Gandi Server, Gandi Blog et Gandi Mail.

La migration se termine cette semaine, avec la fermeture définitive de FR-SD2. Nous allons pouvoir prendre du recul et tirer les leçons des difficultés que nous avons rencontrées et de leurs impacts en terme de qualité de service et de processus internes.

Nous tenons à rappeler que cette migration était nécessaire dans le cadre du déploiement de notre nouvelle plateforme, l’infrastructure de FR-SD2 ne permettant pas une évolution de nos services. Nos nouveaux centres de données FR-SD3, FR-SD4 et FR-SD5 vont nous permettre de bénéficier, et donc de vous faire bénéficier, d’une meilleure architecture réseau, de nouveau matériel et globalement de meilleures performances sur l’ensemble de nos services.

Nous prenons bien entendu toute la mesure des impacts de ces différents incidents sur la qualité de nos services et vous prions de nous excuser des désagréments qu’ils ont pu vous causer. Soyez assurés que toutes nos équipes sont mobilisées afin de finaliser cette transition nécessaire dans les meilleures conditions possibles.