La Control Room du Centre de Calcul © CC-IN2P3
Quatre fois par an, le CC-IN2P3 effectue des opérations de maintenance et de mise à jour de ses services. Ces interventions, qui sortent du cadre de celles réalisées par les agents du Centre au quotidien, nécessitent rigueur, coordination et investissement. Plongée dans cette machinerie bien rôdée que sont les arrêts de production du CC-IN2P3.
Le 18 septembre dernier, le site web du CC-IN2P3 affichait un énorme bandeau sur lequel on pouvait voir l’état des services : ‘arrêtés’, ‘dégradés’ ou ‘en service’, selon les cas. Ce jour là était particulier pour les agents du CC-IN2P3 : un jour d’arrêt de la production pendant lequel on s’efforce d’effectuer les mises à jour et la maintenance des services que l’on ne peut pas faire au quotidien sans impacter les utilisateurs.
Les services du Centre sont arrêtés. Pourtant, pas d’affolement, personne ne court dans les couloirs. Tout est calme finalement pour un jour où rien, ou presque, ne fonctionne. Mais cette sérénité qu’on lit dans les yeux des agents n’est pas le fruit du hasard : c’est plutôt le fruit d’une longue et rigoureuse préparation pour que même les aléas soient gérés et prévus au maximum.
Un mois avant la date fatidique (fixée classiquement selon un planning annuel prédéfini, aux mois de février, mai, septembre et décembre), la mécanique se met en route. Selon un système précis et bien rôdé. L’équipe Opération du CC-IN2P3, responsable de la mise en œuvre des arrêts, lance un recensement des interventions à prévoir, ainsi que leur impact, leur durée et leur contenu exact. A partir de cette liste, une synthèse est faite, répertoriant les interactions entre les différentes interventions puis la date de l’arrêt est fixée. Date qui peut encore être encore modifiée si une expérience majeure indique qu’elle n’est pas compatible avec son calendrier ses contraintes de production.
Une fois la date validée, trois personnes clés sont alors nommées : une responsable de la mise en œuvre de l’arrêt, une personne rattachée à la Control Room (voir photo) et une autre appartenant au groupe ‘Support aux utilisateurs’ pour gérer les relations avec les chercheurs. La réunion de préparation qui suit rassemble ces trois personnes, ainsi qu’un expert par service impacté qui sera l’interlocuteur privilégié pendant toute la durée de l’arrêt.
Une fois le planning des interventions finalisé, démarre la phase de communication vers les agents du Centre et surtout vers les utilisateurs. En effet, la préoccupation première du personnel du CC-IN2P3 pendant les arrêts reste le souci de minimiser au maximum l’impact sur les expériences. Et cela passe forcément par une bonne communication : message sur les consoles de services du Centre avec un décompte jusqu’au jour de l’arrêt, news et brèves sur le site web du Centre ; enfin, mails aux représentants des expériences et bandeau annonçant en temps réel l’état des services… tout est fait pour que les utilisateurs soient informés des services arrêtés suffisamment à l’avance pour qu’ils puissent prendre leurs dispositions.
La veille de l’arrêt, certaines précautions sont prises : par exemple s’il y a une mise a jour sur le système de batch , il faut veiller à vider les serveurs de calcul et faire en sorte que plus aucun job ne s’y trouve au moment de l’arrêt. Le jour J, tout le monde est sur le pied de guerre : chacun se prépare à intervenir au moment précis défini par le planning. Si une intervention est prévue tôt le matin, l’agent peut se connecter de son domicile si c’est possible. Dans le cas contraire, il se déplace sur le site. Tout est prêt pour que tout se passe selon le planning défini à l’avance, selon une suite logique et chronologique, et pour que l’enchaînement des interventions se fasse sans encombre. « On suit le déroulement, étape par étape, avec des points réguliers » précise Nadia Lajili, membre du groupe Exploitation et régulièrement aux commandes des arrêts. Les communications entre experts se font grâce à la messagerie instantanée ou par téléphone. « Il est hors de question qu’on commence à courir dans les couloirs » insiste Nadia Lajili, qui suit pas à pas le planning des interventions.
En cas de problème sur le redémarrage d’un service, il est possible que l’intervention se termine le lendemain matin afin de régler le problème sereinement, en présence des experts. La précipitation sur une intervention pourrait provoquer une succession d’erreurs sur le système, inutile de tenter le diable. « Des tests de mise à jour sont réalisés en amont de l’arrêt sur des serveurs sortis de la ferme, explique Pierre-Etienne Macchi, directeur adjoint du CC-IN2P3. Mais on n’est jamais à l’abri d’un effet ‘démo’ le jour J. »
Une fois tous les services remis en production, une réunion bilan a lieu afin d’évoquer les éventuels dysfonctionnements sur les interventions, la communication entre experts ou le déroulement global de l’arrêt. Dans un souci constant d’amélioration, une liste des points à corriger est élaborée et diffusée à l’ensemble des intervenants, l’objectif étant que les arrêts se passent le plus sereinement pour tous : utilisateurs et experts du CC-IN2P3.
L’arrêt du 18 septembre a permis d’intervenir sur des services tels que HPSS, GPFS, dCache, etc. Le prochain arrêt sera un peu particulier, plus long qu’à l’accoutumée et avec une notion de gestion des risques à considérer. Prévu les 11, 12 et 13 décembre, il sera entièrement consacré à la connexion d’une deuxième arrivée électrique sur le poste de livraison EDF. L’entreprise publique ayant demandé une coupure totale de la ligne électrique, aucune intervention informatique ne sera cette fois effectuée sur les services du Centre. Cependant, grâce au groupe électrogène, le CC-IN2P3 maintiendra un certain nombre de services dits critiques (dont la liste précise sera diffusée ultérieurement), tels que le réseau RENATER, les mails et certains services assurant le transfert de données essentielles aux expériences.
Cet arrêt, comme tous les autres, permettra d’améliorer la qualité du service rendu aux utilisateurs du CC-IN2P3, en maintenant un service 365 jours par an… à quatre arrêts près. ☺
GAELLE SHIFRIN