Le Centre de Calcul de l’in2p3 s’est récemment enrichi d’une salle de contrôle [control-room] pour optimiser l’exploitation de ses services. Cet aménagement s’inscrit dans le cadre plus large d’une politique d’amélioration globale de la Qualité, déjà perceptible par la définition d’une Mission Qualité, et par l’implémentation de procédures et d’outils d’inspiration ITIL (Information Technology Infrastructure Library).
Un espace de 24 M2 accueille désormais, en permanence durant les heures de bureau, deux personnes en rotation hebdomadaire parmi les membres des deux groupes de l’équipe Opération. Cet espace est équipé de deux bureaux, d’une table pour réunion de crise, ainsi que d’écrans de contrôle sur lesquels défilent en permanence des affichages pertinents sur l’état des services, des productions et des transferts de données.
Les ingénieurs de permanence dans cette salle reçoivent un flux continu d’informations issues de sources diverses : système d’alarmes par le système de monitoring Nagios, mails automatiques des applicatifs, contacts des experts des services, etc.
Dans la plupart des cas, les interventions induites par les évènements observés relèvent directement de cette salle et sont donc contrôlées et coordonnées par ces ingénieurs, parallèlement à une action de communication (interne ou/et externe) appropriée et ciblée au mieux.
Equipe de permanence dans la Control Room
La plupart des interventions peuvent être pilotées directement depuis cette salle de contrôle.
Après quelques mois de fonctionnement, le bilan est positif.
La salle de Contrôle joue son rôle de centralisation des informations relatives à la production. Elle s’est imposée comme le lieu d’organisation des arrêts programmés pour maintenance (4 fois par an), mais surtout, comme lieu de gestion des incidents impromptus. Cela permet aux experts du(des) service(s) concerné(s) de focaliser leur énergie sur l’incident lui-même, les libérant ainsi des tâches annexes, tandis que la coordination des personnels et des actions sur les équipements, la communication ciblée, modélisée et régulière, sont assurées par les ingénieurs de service.
Des outils ont été mis en place pour faciliter cette coordination et cette communication interne (logs de service, wiki, messagerie instantanée, outil de communication, etc.).
Cette nouvelle organisation rend également plus intuitif le développement et la mise en place, au CC-IN2P3, des procédures d’amélioration de la Qualité, en précisant des règles de déroulement concernant d’autres opérations, telles que les demandes d’intervention sur les services, les mises à jour, ou les correctifs, selon leur degré d’urgence. Ces démarches se sont accompagnées de réflexions sur les outils organisationnels nécessaires. Ainsi, des projets sont en cours pour se doter d’un catalogue des services, d’une CMDB (Configuration management DataBase), d’un "Etat des Services", d’un meilleur outil de "ticketing", tout en développant les procédures nécessaires à leur bonne utilisation (gestion des changements, de mise en production de nouveaux services, etc.).
Ecrans de contrôle
Dès à présent, nous avons pu observer une meilleure réactivité aux incidents par une détection plus rapide, un meilleur suivi des productions en cours sur les serveurs de calcul et de stockage, et, de façon plus visible par les utilisateurs, un meilleur suivi des "tickets" postés ainsi qu’une meilleure communication sur les incidents.
Nous constatons donc que cette salle de contrôle, en jouant également un rôle de bassin d’initiatives collectives, est un facteur capital dans l’amélioration de la qualité des services rendus par le CC-IN2P3,
Philippe OLIVERO, Responsable de la mise en place de la Salle de Contrôle