Simple Hosting : nouvelle plateforme opérationnelle

01.03.2018 - écrit par  dans Le Bar de Gandi

Nous vous l’annoncions le 16 février, la migration de Simple Hosting depuis notre centre de données historique FR-SD2 est terminée.

Nous disposons désormais de nouveaux centres de données, d’une meilleure architecture réseau, de nouveau matériel, bref : d’un système plus homogène et plus stable qui nous permettra de vous offrir un hébergement plus performant.

La migration des instances Simple Hosting a été, pour certains clients, marquée par des problèmes de performance sur nos unités de stockage qui ont affecté la disponibilité de leurs sites internet. Et bien que nous ayons étoffé nos équipes de support technique, nos délais de réponse se sont allongés, rendant palpable la frustration des clients impactés.

Nous tenons aujourd’hui à partager un état des lieux et surtout une analyse des problèmes que nous avons rencontrés et résolus tout au long des phases de la migration de ces instances.

Petit rappel du plan de migration :

  • 4 octobre 2017 : ouverture du centre de données FR-SD3
  • 13 novembre 2017 : lancement des migrations des données de nos clients Simple Hosting vers FR-SD3
  • 21 décembre 2017 : ouverture du centre de données FR-SD5 et début des migrations
  • 16 janvier 2018 : ouverture du centre de données FR-SD6 et début des migrations
  • 15 février 2018 : fin de la migration de nos clients Simple Hosting vers nos nouveaux centres de données.

À l’origine des problèmes

Les soucis de performance constatés tout au long de la migration sont essentiellement dus à un mauvais calcul de densité et à un manque de tests exhaustifs en conditions réelles.

En outre, notre plateforme historique a subi pendant 10 ans de nombreuses évolutions et des changements majeurs, ainsi que des correctifs parfois appliqués à la hâte et mal documentés, dont nous n’avons pas pu anticiper totalement le comportement avant la migration.

 

Conséquences sur les performances de la plateforme Simple Hosting

Des sites web indisponibles (erreur 503)

En décembre, alors que nous avions migré seulement une partie des instances (~20%), quelques clients ont commencé à nous remonter des lenteurs ou des erreurs suite à la migration.

Certains signalements étaient liés au changement d’architecture entre les deux centres de données. La nouvelle architecture déployée sur FR-SD3, FR-SD5 et FR-SD6 nous permet en effet d’être plus agiles dans l’ajout de nouvelles versions de langages et bases de données, la création de nouvelles fonctionnalités et l’amélioration de l’expérience utilisateur. C’est le socle sur lequel nous nous appuierons pour continuer à améliorer notre service.

Lors de la migration, des incompatibilités entre les deux architectures ont provoqué des problèmes pour certains. Nous avons donc fait en sorte que le comportement des nouveaux centres de données soit le plus proche du comportement de FR-SD2. Nous avons par exemple installé des bibliothèques PHP manquantes sur la nouvelle architecture et avons parfois dû demander à nos clients de modifier leurs méthodes, lorsque nous étions dans l’impossibilité d’adapter notre nouvelle architecture, pour des raisons de sécurité par exemple.

Les problèmes de performance entraînaient des ralentissements et généraient des erreurs 503, signifiant que l’accélérateur web de notre plateforme n’avait pas reçu la réponse de l’instance assez rapidement.

Nous avons diagnostiqué que ce problème était principalement lié à la charge des unités de stockage qui n’arrivaient plus à exécuter les opérations en un temps raisonnable. Suite à ce constat, nous avons essayé de modifier leur configuration, sans succès dans un premier temps.

Nous avons ensuite fait en sorte de réduire les échanges entre les machines où sont exécutées les instances et celles où sont stockées les données de nos clients, afin de limiter la charge sur les unités de stockage en déleguant certaines tâches aux machines hébergeant les instances.

Un problème au niveau de la configuration du noyau des machines, entraînant une perte de paquets entre les accélérateurs et les machines a également été identifié et corrigé. Nous avons ainsi pu réduire considérablement les erreurs 503 qui nous étaient remontées.

Il nous a fallu quelques jours pour implémenter et tester ces changements, qui ont été déployés sur l’ensemble des centres de données à partir du 28 décembre, permettant de réduire les échanges entre les machines et les unités de stockage.

 

Des sites internet plus lents

Courant janvier, nous avons continué à nous confronter à des limites de performance sur les unités de stockage.

Nous avons donc mis en place début janvier des outils de monitoring nous permettant de suivre très précisément la charge des machines hébergeant les données des clients. Cela nous a permis d’isoler les instances les plus actives en lecture/écriture sur chaque unité de stockage.

Nous avons ainsi pu les répartir au mieux pour que chaque unité de stockage délivre les meilleures performances et que ces instances particulièrement actives n’impactent pas les performances des autres instances. Nous avons, par exemple, pu isoler certains plugins WordPress qui, mal configurés, entraînaient une sauvegarde trop fréquente de toute l’instance et une hausse de la charge de l’unité de stockage.

Nous monitorons encore aujourd’hui la charge liée à ces instances et les déplaçons dès que nécessaire.

En outre, nous avons appliqué, à partir du 19 janvier, différents correctifs qui ont permis d’améliorer les performances du logiciel servant les données clients sur les machines système.

Enfin, le 5 février, nous avons pu ajouter de nouvelles unités de stockage dans chacun des centres de données. Cela nous a permis de répartir davantage la charge et de finaliser la migration des instances toujours hébergées à FR-SD2.

 

Des délais de réponse anormalement longs de notre Service Client

Malgré notre anticipation et le recrutement d’agents support hébergement supplémentaires, il ne nous a pas été possible de traiter aussi rapidement qu’à l’accoutumée les demandes d’assistance de nos clients, et nous en sommes désolés.

D’autres incidents indépendants de cette migration, en janvier et février, ont également impacté temporairement la qualité de certains services sur des centres de données différents. Bien que résolus rapidement, ils ont également généré un surcroît de demandes de support.

 

Une situation aujourd’hui maîtrisée

Nous attendons la livraison sous peu de nouveau matériel, qui nous permettra d’ajouter davantage d’unités de stockage dans chacun de nos centres de données afin de stabiliser les performances de la plateforme.

À ce jour, sauf cas exceptionnel, la situation est normalisée pour l’ensemble de nos clients et nous surveillons attentivement l’activité des instances afin de détecter d’éventuels soucis de performance avant qu’ils n’affectent l’ensemble des instances hébergées sur une même unité de stockage.

Si votre instance fait partie des exceptions, il est possible que nous devions la déplacer d’une unité de stockage à une autre. Si cela devait arriver, vous pourriez remarquer une brève indisponibilité de votre site internet.

Le volume de tickets tend désormais à se stabiliser et nous espérons être en mesure de revenir à la qualité de service à laquelle nous vous avons habitués dès le mois de mars.

Nous vous remercions pour votre patience et votre fidélité pendant cette période difficile. L’offre d’hébergement de Gandi continue d’évoluer et cette année sera encore une fois riche en nouveautés que nous avons hâte de vous faire découvrir prochainement.

Laisser un commentaire
    Flore

    Aucun service depuis hier lundi 5 mars jusque ce matin mardi 6 mars à 9h.

    Imposer une mise à jour si importante un lundi est incroyablement inopportun!

    Quand le service sera-t-il de nouveau actif??
    Merci de remédier au plus vite à cette situation.

      Bonjour Flore, la migration dont nous parlons dans cet article s’est achevée le 16 février.
      Avez-vous ouvert un ticket auprès du support concernant le problème que vous rencontrez ?
      Merci.

    sandrine

    Bonjour,

    La migration opérée est une bonne chose mais elle aura été source de lenteurs et problèmes majeurs de mise en page sur mon site et blog. Des lecteurs appelant et en trouvant plus mon site ( error 503 ) 504 ou 404 !!
    le plus agaçant est le manque de moyen de contacter une hotline ! rien ni personne et le parcours du combattant pour laisser un Ticket ( nommons les choses un signalement d’incident ) non traité à ce jour !
    et le pire est qu’on me réclame 5 € ! En vertu de quoi ? des cgv obligatoirement validé lors de la maj « imposée »
    ET puis qui est ce service « Gandi SAS [FR] » ??

      Bonjour Sandrine,
      Point par point :
      – Sur les lenteurs de votre blog, nous avons subi plusieurs incidents et effectué une maintenance la semaine dernière. Avez-vous toujours ces problèmes ? Si oui, pouvez-vous me communiquer le n° de ticket ? Le service client subit en effet actuellement un afflux massif de demandes qui rallongent nos délais de traitement.
      – Sur la demande pour les 5€, ATTENTION, une attaque de type phishing vise actuellement nos clients et il s’agit d’une arnaque : https://news.gandi.net/fr/2018/02/campagne-de-hameconnage-en-cours/