La communauté Gandi

Incident terminé sur simple hosting

Suite à un incident lors d’une mise à jour, certains sites Simple Hosting ne répondent plus correctement (une erreur est indiquée). Nous avons identifié le problème et allons le corriger rapidement. Il n’est pas nécessaire ni recommandé de redémarrer votre instance.

Ce billet sera mis à jour d’ici quelques minutes avec plus d’informations.

13:08 L’origine du problème a été trouvé, nous vérifions le correctif avant de l’appliquer

13:14 L’opération est toujours en cours. 25% de la plateforme est impactée.

13:44 Le script n’a pas fonctionné, on corrige et reteste sur plusieurs instances avant de le lancer massivement. Je précise qu’aucunes données n’ont été perdues. 

14:25 Le script est fonctionnel ! On l’applique sur les instances concernées…ça va prendre un peu de temps (~1 heure pour la dernière)

14:37 Le script est toujours en cours. Un rapport d’incident sera publié ici même d’ici quelques instants.

15:53 Ca ne va pas aussi vite que prévu. La fin d’incident pour tout le monde est prévue pour 16:50 17:00

 

Détails technique: L’ensemble des instances est maintenant démarré. Nous vérifions les instances et gérons les cas particuliers au cas par cas. Le déploiement d’un script de migration s’est mal passé, et a touché l’ensemble des instances simple hosting déployées. Une configuration qui n’aurait du être prise en compte qu’au redémarrage de votre instance, a été appliquée au service apache et rechargée par le service de rotation des logs de celle-ci. En parallèle, un système automatique de relance a fonctionné pour ces instances au milieu d’une migration, ce qui a entraîné un démarrage avec une mise à jour partielle. En conséquence, le temps pour nous de corriger ce problème, la majorité des instances a été arrêtée et une partie des instances étaient dans un état incohérent. Le redémarrage des instances a nécéssité la correction, et la migration forcée de celles-ci, et donc un temps de démarrage plus long que prévu pour l’ensemble. Aucune donnée n’a été perdue durant cet incident et votre instance doit être maintenant pleinement fonctionnelle.

 

Nous vous prions de bien vouloir accepter nos excuses pour cet incident. Nous allons réfléchir cette semaine comment assurer que cela ne se reproduise plus de la sorte.