Panne majeure chez OVH : qu'en penser ?

OVH panne du 09/11/17


Hier, 09/11/17, journée noire pour notre infrastructure IT, … et probablement celle d’une bonne partie de l’Europe, voire du monde. 

Petit retour sur les faits.

Hier, à 7h33, le data center d’OVH à Strasbourg est tombé : panne d’alimentation électrique due à une cause extérieure. Un problème ne vient jamais seul : les groupes de secours n’ont pas démarré. Conséquence pour nous : aucune. Aucun des services hébergés par OVH pour Mercator n’est situé à Strasbourg.

Par contre, à 8h23, tous nos systèmes de monitoring, actifs 7/7j et H24 (notamment sur les smartphones de quelques membres de l’équipe Mercator) passent au « rouge totalement vif ». Tous les serveurs OVH sont à l’arrêt. 

  • Par chance, notre responsable IT, qui commence sa journée tôt, est déjà au bureau.
  • Par malchance, il ne peut strictement rien faire. Tout OVH est coupé du monde. Plus de console de gestion, plus d’accès à leur support, … Comme nos clients, nous n’avons plus de site web, plus de ticketing, plus de mails, … Il nous reste juste le téléphone qui, malgré le fait qu’il soit en « voice-over-ip » chez OVH, est étonnamment toujours opérationnel.

Rapidement, Octave Klaba, le CEO-fondateur d'OVH, s’exprime sur Twitter. Avec transparence. Dès 9h, tous nos clients « web » et clients « cloud » sont prévenus personnellement par téléphone par tous les membres du personnel Mercator. Les Mercator SOS sont mis en action chez les clients qui en disposent. Pour le reste, l’équipe Mercator ne peut strictement rien faire pour pallier à cette situation.

ovh panne

Que s’est-il passé ? (1)

Dans le data center de Roubaix, une panne majeure dans la salle de routage et d’interconnexion avec la fibre optique. C’est un peu comme si tous les aiguillages de la gare du midi refusaient de fonctionner en même temps. Plus aucun train ne peut circuler. Comme ces aiguillages sont commandés par un logiciel, OVH a dû reprendre un backup. Cela a pris du temps. Ce type de dispositif ne redémarre pas en quelques secondes comme un simple PC. A 10h32, tous nos services étaient opérationnels, hormis quelques hébergements mails.

Pour les désagréments encourus par nos clients, pour les retards rencontrés, pour les nuisances occasionnées par cet événement, au nom de toute mon équipe, je présente à nos clients nos excuses. Même si, ni moi-même, ni mon équipe, ni l’infrastructure que nous gérons, ne porte la moindre responsabilité dans cet accident.
Je remercie au passage tous nos clients fidèles, qui ont fait preuve de compréhension et de patience. Faire le « gros dos » en même temps que nous était la seule attitude possible.

Le lendemain, les questions se posent, bien entendu.

Faut-il maintenir sa confiance en OVH ?

La réponse est indéniablement « OUI ».

  • La communication en temps réel d’Octave Klaba démontre de sa part une réelle volonté de transparence. Alors que ce personnage pourrait être sur un « yacht au milieu de la Méditerranée occupé à siroter un cocktail », nous savons qu’il était sur le front des opérations.
  • Les communications reçues encore aujourd’hui démontre qu’OVH a suffisamment de capacité d’analyse et de remise en question, afin de tirer un enseignement constructif pour réduire à l’avenir ce type de risque. Des mesures concrètes seront prises et notre service technique suit cela avec intérêt.

Devons-nous revoir l’infrastructure Mercator qui est chez OVH ?

A ce stade, nous répondons sereinement à cette question par la négative. Cette infrastructure est déjà considérable. Elle repose notamment sur une redondance, à la fois des serveurs physiques et des espaces de stockage, qui supporte les différents services offerts par Mercator : cloud, web, virtualisation, mails, … Les backups sont stockés dans un data center distinct.


Devons-nous envisager une redondance qui reposerait sur plusieurs fournisseurs ?

Dans la continuité de ce qui précède, nous pensons que non. Une redondance supplémentaire impliquerait assurément un alourdissement considérable de cette infrastructure. De plus, la redondance technique implique de facto une redondance des coûts. Les loyers d’hébergement demandés à nos clients seraient immanquablement revus à la hausse. Et ceci pour couvrir un risque connu aujourd’hui, mais qui sera, par définition, différent demain.

L’arbre qui cache la forêt…

arbre qui cache la forêt

Cet évènement est regrettable et il est bien évidemment naturel de se dire « OVH a mis trop de temps pour réparer ». C’est vrai !
Mais il faudrait peut-être aussi prendre en compte toutes les fois où cette infrastructure aurait pu tomber pour d’autres raisons, mais où elle a résisté. Parce qu’OVH a la capacité technique, la taille, la vision « parano », … qui font que, alors que nous ne nous rendons compte de rien, eux veillent et prennent en temps réel les décisions nécessaires pour que tout continue à fonctionner alors que le pire se passe.

Je reviens, par exemple, sur ce fameux vendredi 12 mai 2017. Tout le monde se souvient qu’en fin de soirée, la presse spécialisée annonçait une attaque d’ampleur mondiale exploitant une faille de Windows, connue sous le nom de Wannacry. Le lendemain, la presse généraliste prenait le relais. Des millions d’ordinateurs allaient être atteints par un cryptovirus.
Ce jour-là, c’est l’équipe de garde OVH pour la nuit (basée au Canada – avec le décalage horaire, ce n’est pas encore vraiment la nuit) qui reçoit les premières alertes. Avant tout le monde, OVH, grâce à ses honeypots (pots à miel = serveurs volontairement insécurisés afin « d’attirer » les attaques) a pu détecter la menace, capter le virus et le démonter (reverse-engineering) afin de comprendre son fonctionnement et ainsi, prendre les mesures pour éviter toute contagion dans ses data centers. (2)
Ce week-end-là, votre site, votre Mercator en cloud, … étaient là. Comme si de rien n’était, mais grâce à une mobilisation générale.

Il ne faudrait pas qu'aujourd’hui un accident, certes grave, regrettable, et probablement réparé endéans un délai trop long, ne cache la forêt de toutes ces autres situations dont on n’a pas ou peu parlé mais où le pire a été évité.

La conclusion est, évidemment, plus philosophique, au risque d’être un peu « bateau ». 

Nos entreprises et la société dans son ensemble reposent tous les jours un peu plus sur le numérique. Le risque zéro n’existe pas. Un accident est toujours possible.
Et même si on peut s’en prémunir en mettant en place la meilleure infrastructure et de bonnes procédures, la permanence totale, immédiate et instantanée de toutes les fonctionnalités informatiques est un rêve totalement illusoire.
Même Google est parfois à l’arrêt…

Guy Colsoul