n°11
Mai
2010
CIC Portal

Le Portail des Opérations d’EGEE [1], développé au Centre de Calcul de l’IN2P3 depuis Novembre 2004, et aussi utilisé par le projet WLCG, est un portail web déployé pour différentes catégories d’acteurs opérationnels : responsable des opérations, responsables de fournisseurs de ressources de calcul et de stockage (sites), responsables de communauté d’utilisateurs (regroupées par discipline scientifique), ou bien encore utilisateurs finaux de l’ensemble des ressources informatiques participant au projet de grille européenne de production EGEE.

Les fonctionnalités principales de ce portail sont la détection et le suivi de problèmes sur les sites en production, la mise à disposition d’informations opérationnelles sur les communautés d’utilisateurs, et des fonctionnalités de reporting. Le portail dispose aussi d’une plate-forme de communication transversale au projet, reliant des partenaires distribués dans plus de 130 institutions. En outre, l’utilisation d’outils de notifications d’incidents sur les sites a permis d’assurer une fluidité dans le quotidien des opérations du projet.

Si, au départ, le projet portait sur une trentaine de sites en production , et sur trois fournisseurs d’informations - outils opérationnels centraux - aujourd’hui le portail permet de suivre plus de 260 sites et une dizaine de sources d’informations différentes.

Si le portail des opérations EGEE a suivi le changement d’échelle du projet EGEE au fil des ans, en mettant en œuvre de façon réactive les demandes du projet, il a aussi permis de faire le prototype des évolutions du modèle opérationnel depuis 6 ans. De plus, il a su évoluer dans les technologies utilisées pour sa conception, afin de refléter les évolutions du projet lui-même, et des composants de son intergiciel, de ses outils opérationnels ou de l’ évolution de ces procédures.

Pour se faire, les développements se sont organisés autour d’un service d’accès uniforme à des sources de données hétérogènes : Lavoisier [2]. Ce service permet ainsi de récupérer des données hétérogènes, de les organiser, de les croiser à travers des vues et de les rendre disponibles sous forme d’interfaces ou alors de flux RSS ou XML.

La collecte croissante de sources d’informations et de demandes d’interface, nous a poussé en outre à reconsidérer une partie des développements du module Web dans un framework.

Cette dernière restructuration réalisée durant EGEE-III permet d’effectuer une transition vers le but affiché de pérennisation de l’infrastructure du projet EGEE dans le cadre de la coordination de EGI. En effet, l’efficience de la maintenance, ainsi que les possibilités de personnalisation de l’outil et de la structure modulaire permettent de proposer des versions de fonctionnalités pertinentes qui sont « packagées » et qui fonctionnent localement au sein des futures collaborations nationales de grille, partenaires principales de la structure EGI. Notre idée est de proposer une vue régionale des interfaces hébergées, sur une instance centrale dans un premier temps, afin de parvenir dans un deuxième temps à proposer une version distribuée dans les différentes régions. En fait, les diverses instances nationales pourront opter pour l’une ou l’autre solution sans risquer de dysfonctionnement de la supervision internationale des opérations.

Cette démarche est appliquée de manière progressive aux fonctionnalités phares du portail et la première à avoir été considérée a été le tableau de bord des opérations ou « operations dashboard » [3].

Ce « dashboard » est en fait bien plus que l’agrégation de différents indicateurs et informations concernant les sites à travers un tableau de bord synthétique. Intégrant aussi bien des informations de supervision, des informations administratives sur les sites, ou l’accès aux historiques des incidents, l’outil permet à travers une vue synoptique d’identifier rapidement un incident et de le traiter grâce à des procédures et des outils développés de facçon spécifique (en particulier un opérateur chargé de la surveillance des sites de production peut créer et/ou suivre des tickets d’incident sur une seule et même interface). Les incidents sur les sites de toute la grille EGEE peuvent donc être traités par une équipe d’opérateurs en rotation au niveau central à l’aide de cet outil.

Ce dispositif, qui regroupe une communauté d’opérateurs et qui met en place des procédures et des outils dédiés, a été reconnue comme un facteur clef de la fiabilisation de la « grille » de production dès 2007. De plus, ce modèle de fonctionnement au quotidien s’est avéré durable puisque la charge de travail est restée stable malgré l’augmentation du nombre de sites en production.

Depuis 2008, dans la phase finale du projet EGEE, le modèle opérationnel a évolué vers un modèle pérenne en transférant la plupart des opérations aux fédérations de pays en Juin 2009. Les équipes d’opérateurs se sont donc concentrées sur une supervision permanente au sein de leur propre région avec une coordination minime au niveau international. Ce modèle, évalué à l’aide de métriques depuis l’automne 2009, est considéré comme stable. C’est sur ce modèle des opérations qu’est fondé EGI, qui a commencé à compter du 1er Mai 2010.

Aujourd’hui, le challenge est notamment de faire évoluer, de façon similaire au « dashboard », le reste des fonctionnalités du portail dans le cadre de notre nouvelle mission de portail des opérations EGI.

Cyril L'Orphelin

[1] http://cic.gridops.org

[2] http://grid.in2p3.fr/lavoisier

[3] https://operations-portal.in2p3.fr

Interview

Ikuo UEDA

Cloud Computing

StratusLab
Rechercher
     

Responsables éditoriaux : Dominique Boutigny et Cristinel Diaconu
Comité de rédaction : Virginie Dutruel, Sébastien Grégoire, Eric Legay, Gaëlle Shifrin et Tiffany Thome

logo CCIN2P3
© CCIN2P3