OVH NEWS | ACTUALITÉ, INNOVATION ET TENDANCES IT


Découvrir, comprendre et anticiper












Le 04 / 06 / 2013
Partagez

Dossier rédigé par Hugo Bonnaffé


Dans les coulisses d’un datacentre OVH.com


Gérer un parc de 150 000 serveurs, 24 heures sur 24, 365 jours par an est un travail qui nécessite une organisation quasi militaire, un système d’information et de monitoring sophistiqué et surtout des techniciens hors pair. Car leurs missions sont variées : voler au secours d’un matériel qui ne « pingue » plus, racker les serveurs neufs, mais aussi effectuer les opérations de maintenance préventive, tant sur les serveurs eux-mêmes que sur les équipements qui les entourent. Immersion à RBX1 le temps d’une journée en compagnie de Grégory Surgeon, agent de maintenance informatique chez OVH.com.







6h.


La Roubaix Valley est encore plongée dans la pénombre. Au loin, une voix s’élève et résonne dans le silence du petit matin. Une voix de cyborg, dont le personnel d’OVH est familier : il s’agit de MARCEL(1), le robot qui veille sur les infrastructures de l’hébergeur et signale, au moyen de haut-parleurs et d’alertes visuelles, le moindre événement anormal pouvant présenter un caractère d’urgence. Grégory, qui descend de sa voiture, tend l’oreille par curiosité professionnelle. Après avoir franchi trois portes, respectivement sécurisées par des contrôles vidéo, biométrique et magnétique, il enfile son gilet matelassé et accède à la salle de gestion de RBX1, l’un des cinq datacentres roubaisiens d’OVH. L’agent salue ses collègues en poste depuis 22 heures la veille puis embraye sur le débrief de la nuit. Il dispose pour ce passage de relais d’une petite heure, souvent entrecoupée par les premières alertes de la journée.
Ce jour-là, c’est un serveur de la salle 08 qui brusque soudainement les choses. Alerté par le système de monitoring, Grégory se rend sur place au pas de charge. Lorsqu’il pénètre dans la salle, des néons s’allument et tirent de l’obscurité des milliers de serveurs dont les diodes rouges et vertes scintillent. Il se presse dans l’allée H3, identifie le serveur défaillant, saisit les câbles VGA et USB suspendus à un rail et les fait coulisser pour atteindre la façade de la machine. Il effectue les branchements, de façon à pouvoir accéder au serveur depuis un ordinateur situé au milieu de l’allée. Diagnostic : le disque donne ses premiers signes de faiblesse. Via l’interface de gestion, Grégory ouvre un ticket à l’intention du client concerné afin qu’il programme le remplacement préventif du disque avec le support. Ainsi, il pourra réaliser ses sauvegardes et choisir un créneau horaire pour l’intervention, car cette dernière nécessitera un redémarrage de la machine (seuls les serveurs HG disposent de disques en hotswap et backplane active qui permettent un changement de disque à chaud).








7h14.


Retour dans la salle de gestion. Une dizaine de postes de travail font face à un mur tapissé d’écrans de contrôle. Une partie d’entre eux diffuse en boucle les images des caméras de vidéosurveillance disposées aux abords du bâtiment, qui détectent le moindre mouvement. Sur les autres écrans s’affichent les courbes des températures relevées dans les différentes salles, et des chiffres qui traduisent en temps réel l’état des serveurs. Un peu plus haut, surmontant les nombreux moniteurs, sont accrochés des compteurs digitaux dont les chiffres rouges indiquent la consommation électrique respective des 17 salles du datacentre. Enfin, terminant la rangée, un imposant gyrophare de couleur bleue se tient prêt à signaler toute avarie survenant sur les différentes arrivées électriques de RBX1. Un événement qui se produit quatre fois par an en moyenne, auquel OVH est naturellement bien préparé. Le cas échéant, des onduleurs sont en effet là pour fournir l’énergie nécessaire à l’alimentation des serveurs, le temps de basculer sur la ligne électrique de secours. Si par malchance cette dernière se trouve elle aussi défaillante, cinq groupes électrogènes montent alors en puissance pour suppléer EDF jusqu’au rétablissement du courant.







7h36.


Le terminal de Grégory indique que cinq serveurs ne répondent plus au ping. C’est à nouveau la course dans les couloirs bruyants du datacentre. Parce que Grégory connaît les lieux comme le fond de sa poche, il optimise tous ses déplacements, groupe les interventions par salle. Les deux premiers serveurs n’ont nécessité qu’un soft reboot (redémarrage système) pour pinguer à nouveau. Après un hard reboot (coupure de l’alimentation durant 15 secondes), le 3e ne montre, à son tour, plus aucun signe de faiblesse. À chaque fois, Grégory détaille dans l’interface de gestion le motif de son intervention ainsi que les actions effectuées sur le serveur, ce qui déclenche l’envoi immédiat par e-mail d’un rapport au client. La plupart du temps, ce dernier n’aura même pas eu le temps de constater la brève interruption de service. Les 4e et 5e serveurs nécessitent quant à eux un remplacement de disque dur, que le support programmera rapidement avec les clients concernés.



8h01.


Grégory regagne la salle de gestion et retrouve son café, à peine entamé et totalement refroidi. En guise de consolation : un monitoring au beau fixe. Le moment de souffler ? Pas vraiment : le technicien consulte les opérations programmées pour la journée. Au menu, du curatif – principalement des changements de disques durs – et du préventif. Par exemple : le remplacement des cartouches qui filtrent l’eau du système de refroidissement des serveurs (le watercooling). Cette opération hebdomadaire vise à préserver la qualité du liquide déminéralisé qui circule en circuit fermé, et fait d’ailleurs l’objet de réguliers contrôles chimiques. Le temps de substituer l’ancien filtre par le nouveau, une dérivation est mise en place pour assurer l’écoulement de l’eau et donc l’évacuation de la chaleur dégagée par les machines. La maintenance est totalement transparente pour les clients.







9h33.


Voilà du renfort ! Seule une partie des techniciens est postée en 3 x 8. La journée, les agents sont épaulés par des techniciens supplémentaires, qui se rendent de datacentre en datacentre au gré des besoins. Ces « permanents » sont prioritairement chargés des tâches de maintenance lourdes, telles que les essais et entretiens périodiques des générateurs, des onduleurs ou des échangeurs thermiques du système de watercooling. Mais ils peuvent également être affectés à la construction et à l’équipement des nouvelles salles, à l’installation des nouveaux serveurs, au câblage… et sont parfois amenés à prêter main forte aux équipes postées en cas de souci.



10h50.


Le client prévenu ce matin à 6h45 que son disque dur vivait ses dernières écritures vient de donner son accord pour une intervention dans les deux heures à venir. Avant de se rendre au chevet de la machine, Grégory fait un détour par le stock de pièces détachées, s’empare d’un disque identique à celui qu’il doit remplacer et enregistre cette sortie de l’inventaire dans l’interface de gestion. Sur place, il coupe l’alimentation du serveur et le fait glisser hors de son logement, de façon à pouvoir opérer. Une fois le nouveau disque connecté, il lance sur la machine la réinstallation du système d’exploitation, rédige son rapport puis retourne vers le stock. Il emballe le disque dur défaillant, y appose une étiquette mentionnant le numéro du serveur ainsi que la date, puis le range dans une armoire sécurisée. Les disques défaillants sont ainsi conservés durant deux mois, au cas où les clients souhaiteraient les récupérer pour en extraire des données grâce aux services de sociétés spécialisées. S’ils ne sont pas expédiés, les disques, comme toutes les autres pièces défaillantes extraites des serveurs, sont envoyées au « retrofitting » pour y être traités. OVH peut ainsi faire appel aux garanties constructeurs ou, lorsque celles-ci n’ont plus effet, procéder au recyclage des composants hors service.







11h30.


Un agent de maintenance parcourt quotidiennement 5 à 10 kilomètres dans les coursives du datacentre. Alors, quand vient l’heure de se restaurer à la Kantine d’OVH, Grégory peut se permettre de cumuler entrée, plat et dessert sans craindre pour sa ligne. Relayé par un collègue, il profite de cette pause pour échanger avec ses homologues des quatre autres datacentres roubaisiens. C’est aussi l’occasion d’évoquer les exigences du métier : « Nos missions requièrent une bonne condition physique, de la précision dans la manipulation des serveurs, un vrai sens de l’organisation. Et il faut adapter son mode de vie à des horaires de travail atypiques. Aimer l’informatique et l’action, c’est une chose. Passer la nuit de Noël dans un datacentre en est une autre ! » Mais Grégory ne manque pas de motivation. Et, considérant son passé de militaire en caserne – il était alors chargé de la maintenance des infrastructures de télécommunication – il trouve même plutôt des avantages à son emploi du temps actuel : « Nous sommes postés cinq jours l’après-midi, auxquels succèdent trois jours de récupération, puis cinq jours le matin suivis de deux jours de repos, et enfin cinq nuits suivies de quatre jours non travaillés. En fait, ça laisse du temps libre ! » Parce que le métier est éprouvant, et le travail en horaires décalés parfois difficile à concilier avec une vie de famille, certains agents, au bout de quelques années, changent néanmoins de poste au sein de l’entreprise. Une évolution qu’OVH facilite autant que possible.



12h30.


Grégory se connecte à son terminal et prend connaissance des dernières actions réalisées en son absence. Tandis que son collègue s’affaire sur les alertes de serveurs qui ne répondent plus au ping, lui peut s’atteler aux interventions programmées par le support. En l’occurrence : installer un commutateur KVM sur un serveur [dispositif qui permet d’accéder au serveur directement par son interface graphique, comme si la machine était chez soi], puis mettre en place un firewall privatif sur une seconde machine. La routine ! Si les interventions des techniciens peuvent être menées si promptement, c’est que tout a été pensé pour optimiser la maintenance et les installations, de la conception du datacentre à celle des serveurs eux-mêmes. Ces derniers, dont l’ensemble de la connectique est rassemblé sur une même face, logent ainsi dans de simples châssis, et non dans des baies, dont l’ouverture ralentirait l’accès aux composants. De même, les chemins de câbles habituellement dissimulés dans des faux plafonds sont ici directement accessibles. Autant de sacrifices à l’aspect esthétique des datacentres, qui contribuent à augmenter la qualité de service délivrée aux clients d’OVH.







13h15.


Il est temps pour Grégory de se consacrer à une tâche de fond, qui occupe chaque agent plusieurs heures par jour : la mise à jour des serveurs. Il s’agit de déracker les serveurs rendus par les clients, le plus souvent pour disposer d’une machine plus récente ou monter en gamme. Les serveurs « obsolètes » sont rapportés à l’atelier du datacentre, pour y être mis à jour grâce à un renouvellement partiel ou complet des composants. Les pièces démontées prennent quant à elles le chemin du « retrofitting », où elles seront valorisées. Si l’on cumule les serveurs mis à jour et les nouveaux, tout droit sortis des chaînes d’assemblage roubaisiennes, ce sont plusieurs centaines de serveurs qui sont implantés chaque jour au sein des datacentres d’OVH.



14h.


La relève de Grégory est arrivée. L’heure est venue de faire un point sur les huit heures écoulées depuis sa prise de poste, en présence du chef d’équipe. Lors de ces échanges, les agents émettent régulièrement des idées sur la façon d’optimiser leur travail. Des détails qui font souvent économiser un temps précieux, comme cette réduction de quelques millimètres du boîtier des serveurs 0.5 U, décidée à la suite des remarques des agents, qui pointaient un coulissement trop peu aisé lors des interventions. Ou encore le passage des tuyaux du système de refroidissement liquide, qui se fait désormais par l’avant des serveurs de façon à simplifier le dégagement de la machine. Parcourir les différentes salles des datacentres permet ainsi d’observer toutes les optimisations successivement réalisées. Et rappelle que les centres de données de l’hébergeur sont aussi des lieux où la R&D se pratique quotidiennement.



15h15.


La journée de travail de Grégory s’achève. Pour ses collègues de l’après-midi, une autre se profile, tout aussi remplie. En moyenne, 750 interventions sont réalisées chaque jour sur les 150 000 serveurs hébergés au sein des cinq datacentres roubaisiens d’OVH, dans la demi-heure qui suit l’alerte. Une performance bien supérieure aux obligations contractuelles de l’hébergeur, rendue possible par une armée de techniciens dévoués, qui veillent sans relâche sur les entrailles du Net.

(1) MARCEL est l’acronyme de Monitoring Audio des Réseaux Composants Équipements et Locaux.