DBaaS Time Series : cas d'utilisation de l'équipe stockage d'OVH

L’infrastructure de stockage interne chez OVH est composée de plusieurs milliers de serveurs, géographiquement situés dans les datacentres de Roubaix, Strasbourg, Paris, Gravelines, et Beauharnois. Tous sont exploités et gérés par l’équipe Storage OVH.De nombreux services en interne reposent sur le parc qu’elle exploite. Ces serveurs peuvent être utilisés bruts, pour des besoins d’archivage en déployant un système d’exploitation OmniOS et le filesystem ZFS. D’autres sont livrés aux équipes d’hébergement mutualisé pour former les espaces disque de nos clients. Les datastores des Dedicated Cloud sont également issus de leurs déploiements quotidiens.

Aujourd’hui, il est nécessaire d’être doté de tableaux de bord pour obtenir une vision précise de l’activité, coexistant avec le monitoring qui, lui, donne l’état de santé du parc. Se doter d’outils de collecte de métriques est indispensable pour assurer l'exploitation de milliers de serveurs répartis sur différentes zones.

"Aujourd'hui, il est nécessaire d'être doté de tableaux de bord pour une vision précise de l’activité."

Il y a plusieurs mois, les équipes Storage ont détecté de nouveaux besoins, dus au volume de données croissant rencontré. Une réflexion a été engagée sur les technologies à utiliser autour des trois aspects importants de la métrologie : la collecte, le stockage, et l’exploitation.

L’existant leur permettait d’avoir une vision sur tout le parc en activité via :
Graphite, au quotidien pour afficher les informations relatives aux dizaines de milliers de serveurs et disques du parc. Celui-ci alliait simplicité et flexibilité d’utilisation pour agréger les remontées et les synthétiser.
Dashing, en complément, pour afficher en permanence certaines valeurs critiques à un temps t, sur les écrans de contrôle.

Métrologie

On peut définir la métrologie comme un moyen d’évaluer, visualiser et analyser des données en provenance d’applicatifs ou de ressources matérielles.
Pour cela, il faut être en capacité de stocker/retrouver l’information facilement, généralement à l’aide d’API ou d’interfaces web permettant d’accéder à des fonctionnalités avancées – ici, ce sera Grafana.
Cette solution est généralement couplée à de la supervision (citons Shinken/Nagios ou Icinga), utilisant des sondes informant les administrateurs de l’état des différents services et composants.

Time Series, prochain Eldorado ?

Ces informations et données à propos de son infrastructure, sont devenus la nouvelle matière brute à exploiter. Il s’agit d’une des facettes d’un tout, appelée datascience regroupant les solutions, capacités, et la manipulation de grands volumes de données.
Une des tendances sur le sujet a été le Big Data, permettant la collecte et l’analyse de volumes importants pour les rendre accessibles et réutilisables.

L’analyse de Time Series, autre branche de cette data-science est fortement convoitée, à travers l’intérêt que lui porte les start-up travaillant étroitement avec des objets connectés.
Mais les utilisateurs d’IoT ne sont pas les seuls à manipuler d’importants volumes d’informations au quotidien, citons pour l’exemple la Buisness Intelligence.

Parlons Chiffres – Utilisation de l’équipe Storage

1 To - Volume stocké par jour
57 000 - Métriques remontées par seconde
152 milliards - Points disponibles sur les derniers 30 jours glissants

OVH a développé une solution dédiée : le DBaaS Time Series

Il s’agit d’un point d’entrée dans cet univers, afin de manipuler, et traiter ces téraoctets (ou pour certains, pétaoctets) de métriques relevées.
La sortie du DBaaS Time Series simplifie donc l’accès aux technologies de stockage et d’analyse dans de multiples cas d’utilisation. Avantage majeur de cette solution, ne pas se préoccuper de l’administration de cette plateforme-outil, et se concentrer sur son activité. En interne, chez OVH, de nombreuses équipes l’ont intégré en production comme outil de métrologie. Il s’agit du cas d’utilisation dont il est question aujourd’hui.

Ce choix s’est imposé de lui-même pour l’équipe stockage, compte tenu des nombreux avantages : une expansion sans limites en mode DBaaS et un gain de temps, la maintenance de l’infrastructure de métrologie n’est plus effectuée par l’équipe stockage. Le quotidien lui, est doublement amélioré avec l’intégration rapide du DBaaS TS basé sur des standards (OpenTSDB), et la simplification des requêtes grâce à ces protocoles ouverts.
Se tourner vers le DBaaS Time Series leur permet d’être encore mieux outillés et être informés en permanence lors de leur veille de l’infrastructure.

Le DBaaS Time Series en détails.

Différentes briques sont incluses dans l’offre d’OVH, et permettent conjointement de former la plateforme délivrée à nos clients. La Metrics Gateway, véritable porte d’entrée du DBaaS TS est conçue pour être multi-protocoles et gère pour l’instant OpenTSDB (par la suite, sont envisagés Graphite, ou InfluxDB). Les métriques ainsi collectées doivent être relayées, rapidement et sans perte, pour être stockées. Le choix de Kafka pour ce point central qu’est l’Event Bus a été fait pour assurer la partie Queue. C’est également la solution adoptée au sein du PaaS Logs OVH. Cette approche permet de capitaliser l’expertise interne.

Les données acheminées sont ensuite stockées au sein du Metrics Warehouse. Il s’agit d’une gigantesque base de données spécialisée et optimisée pour les données temporelles, basé sur la stack Big-Data Apache. Ce choix, HBase, permet de profiter d’une scalabilité infinie et de la réplication multi-site.
Le dernier des éléments managés par OVH de cette plateforme, est le Dashboard. Le bénéfice de l’utilisation de Grafana est immédiat : les données sont accessibles en quasi temps-réel

Comment le DBaaS TS est alimenté au quotidien

Comment le DBaaS TS est alimenté au quotidien

En amont, il est nécessaire de récolter l’information, les valeurs qui seront stockées au cœur de la plateforme. Pour cela, scollector a été déployé.

Le DBaaS TS est compatible OpenTSDB, et en respecte les conventions. Scollector, quant à lui, a la particularité et l’avantage, de pouvoir discuter nativement avec son API. C’est un des atouts majeurs qui ont poussé l’équipe à l’utiliser et à simplifier l’intégration.

La collecte est effectuée via des scripts, certains inclus directement pour les métriques système classiques (ex : consommation du processeur et de la RAM, Load Average, espace disponible sur chacune des partitions), et d’autres développés en Python en interne, par les collaborateurs. Le projet est disponible sur GitHub : scollector. Un des petits plus de cette solution : sa rapide adaptabilité. Les scripts spécifiques à notre activité ont été déployés en un temps record.

"Un des petits plus de scollector : sa rapide adaptabilité. Les scripts spécifiques à notre activité ont été déployés en un temps record."

Utilisation de Grafana

Utilisation de Grafana

À des fins d’analyse des milliards de points sont récoltés par jour. Il est donc essentiel d’être équipé d’un outil performant pour les visualiser, Grafana.

Ce choix a été fait pour couvrir les besoins de souplesse et de réactivité des équipes, et permet de croiser différentes sources d’information. C’est pourquoi Grafana a directement été mis à disposition par OVH au sein du DBaaS TS.

L’interface de visualisation des métriques est d’une importance capitale, puisque c’est elle qui, lors d’une analyse par un administrateur va être une valeur ajoutée, et un vrai bénéfice lors de diagnostiques poussés. Le DBaaS TS utilisé dans un scénario de métrologie est un atout au sein d’une infrastructure massive. Couplé à une solution de monitoring, il devient alors un outil à la précision fiable et robuste.

LoadAverage et RAM dans Grafana

Au quotidien, utiliser Grafana conjointement au DBaaS TS en backend, permet un regard en quasi real-time – les données sont accessibles à partir de la minute précédente. La capacité d’effectuer un retour dans le temps au niveau des métriques affichées offre la possibilité de constater une tendance sur les heures ou jours précédents, et mieux distinguer un élément s’en démarquant.

Vue quasi-temps réél, avec un zoom sur les 30 dernières minutes

L’avenir ?

L’innovation fait partie de notre ADN, et relever des défis au quotidien fait partie, sans conteste, de ce que nous adorons. Ces challenges actuels gravitent autour de la recherche par l’apprentissage de patterns, et d’avancées sur notre capacité de prédiction. Actuellement ces chantiers nous semblent décisifs, et désormais avec le DBaaS TS, s’y plonger est à la portée de tous.

Découvrez DBaaS Time Series, et contribuez à améliorer ce service aux côtés de nos experts en échangeant sur la mailing-list dédiée : [url="mailto:iot-subscribe@ml.ovh.net"]iot-subscribe@ml.ovh.net[/url].