Index des annonces

OCO: OvhCheckOut


Bonjour,

Pour surveiller les RPS et savoir s'ils fonctionnent correctement s'il n'y a pas une partition en read-only ou pour savoir tout simplement que tout va bien, nous allons utiliser OCO.

C'est quoi OCO ? OvhCheckOut a été développé initialement pour l'hébergement mutualisé chez Ovh. Ça permet savoir l'état du serveur de manière binaire: "OK" ou "KO". On a ajouté avec le temps l'état "OK, mais". L'OCO est très rapide et ne prend aucun temps ni de CPU pour s'exécuter. C'est un simple "cat" des fichiers.

OCO a été utilisé pour les offres de l'hébergement haute dispo et OCO fonctionne avec toute sorte de monitoring, comme Mon, Slb etc. Pour le monitoring, il suffit de lire les états sur le port 79.

# telnet <serveur> 79
Trying <serveur>...
Connected to <serveur>
. Escape character is '^]'.
200 OK <ip serveur> <name serveur> oco-1.14h
Connection closed by foreign host.

# telnet <serveur> 79
Trying <serveur>...
Connected to <serveur>.
Escape character is '^]'.
350 KO <ip serveur> <name serveur> oco-1.14h 300-http,300-php,300-php5
Connection closed by foreign host.

Pour utiliser OCO c'est extrement simple et securisé. Le script vérifie ce que vous demandez qu'il vérifie (ça peut être si le serveur WEB fonctionne, ça peut être un script php de vérification des bases, ça peut être une vérification que le disque dur n'est pas cassé, ça peut être ce que vous voulez) et il met à jour les états par test. Sur le port 79 on peut lire l'état général du serveur et les états de ce qui ne fonctionne pas correctement. S'il y a 200 partout c'est "OK", s'il y a au moins un 2XX c'est "OK, mais", puis s'il y a au moins un 3XX c'est "KO".

Vous pouvez personnaliser les scripts de vérifications: vous lancez vos vérifications et si le résultat vous convient vous créez un fichier avec 200 dedans. Sinon vous créez un fichier avec 300. Si le fichier n'a pas été mis à jour depuis 5 minutes, il est en 300 même s'il y a 200 dans le fichier.

D'abord OCO sera mis en place par défaut sur toutes les distributions pour le RPS, puis pour tous les serveurs dédiés, au même titre que le RTM. Le monitoring d'OCO avec l'alerte email et/ou SMS sera proposé dans le manager au même titre que le monitoring des ports (le port 80, 22, 23, 25, 53, 3306, 110, etc), les performances d'une URL, et le monitoring ICMP de l'IP principale et les secondaires. Certaines choses sont déjà développées mais pas encore dans le manager, d'autres vont venir.

Le système OCO va permettre de créer les incidents au sein d'Ovh automatiquement et compléter les incidents en cours. Si vous avez une erreur 5XX l'incident est créé et une équipe astreinte va gérer votre incident. Vous allez pouvoir suivre vos incidents et la résolution de manière plus poussée et totalement personnalisée. Les SLA sur le temps de prise en charge des incidents seront proposés aussi.

Concernant le RTM, il permet d'avoir des informations "chiffrables" sur le serveur, la charge de la machine, l'occupation du disque dur, l'utilisation CPU, de la RAM, etc. Sous peu, vous aurez des graphes de ces informations dans le manager.

Amicalement
Octave