n°11
Mai
2010
L’accès aux grilles de calcul facilité par le Projet DIRAC.

Aujourd’hui, les projets scientifiques produisent et analysent une quantité d’information sans précèdent, ce qui nécessite une puissance de calcul jamais vue auparavant. Les leaders dans ce défi de traitement de données sont les expériences du LHC au CERN, qui accumulent des dizaines de Pétaoctets de données chaque année. Cependant, il se révèle que d’autres domaines scientifiques s’approchent aussi de ces limites. Très vite, il est devenu évident qu’aucun centre de calcul ne peut fournir, à lui seul, assez de ressources pour la gestion de toutes ces données.

Par conséquent, nous devons exploiter les ressources disponibles à travers le monde de manière à ce que les utilisateurs les considèrent comme un seul super ordinateur, facile à gérer. C’est pourquoi le concept de Grille de Calcul a été proposé. Mais ses premiers prototypes ont rencontré bien des difficultés. Cela a conduit les 4 expériences du LHC à développer chacune sa propre solution au problème de la production massive de données.

Dans le cas de l’expérience LHCb, cette solution a été proposée par le projet DIRAC. Le projet DIRAC a débuté en 2003 dans le but de fournir à la Collaboration LHCb un système de la production massive de données de modélisation du détecteur. Le projet a présenté plusieurs innovations, parmi lesquelles le système d’ordonnancement des tâches avec Jobs Pilotes. Ce système a permis de construire un système distribué de plus de 20 centres de calcul avant même que les solutions Grille soient en place. En 2004, la Grille LCG a été mise en production et LHCb a assuré sa première utilisation massive avec un succès, grâce au système DIRAC, qui a permis de surmonter les instabilités du logiciel Grille (middleware) encore inachevé. Dans les années qui ont suivi, DIRAC est passé d’un système de production de données de simulation Monte-Carlo à un middleware complet, utilisé par la Collaboration LHCb pour tous les besoins en matière de calculs distribués : de la distribution des données du détecteur et leur reconstruction jusqu’à l’analyse finale par les utilisateurs. Sa performance est caractérisée par sa capacité à gérer jusqu’à 30 milles tâches tournant simultanément sur plus de 150 sites, ce qui est équivalent au fonctionnement d’un centre de calcul virtuel comparable à celui du CERN.

Depuis le début, l’équipe du projet DIRAC avait pour but de produire un logiciel bien organisé, facilement extensible aux besoins des utilisateurs. Il a été complètement réécrit deux fois, pour pouvoir prendre en compte l’expérience acquise lors des productions massives des données. Par conséquent, DIRAC est maintenant devenu le middleware d’application générale, ou les parties spécifiques au LHCb sont bien séparées. Ainsi, cette solution peut être proposée à d’autres communautés d’utilisateurs.

Quelle technologie avancée DIRAC peut-il mettre à la disposition de ses utilisateurs ? Avant tout, DIRAC est basé sur le cadre logiciel pour la construction des système distribués orienté service (nommé DISET) qui est entièrement compatible avec les standards grille de sécurité et permet de définir les règles d’autorisation précises. Cela permet d’ajouter très facilement de nouveaux services, ce qui fait de DIRAC un système flexible, qui s’adapte aux besoins d’une communauté spécifique d’utilisateurs. Le système d’ordonnancement des tâches (Workload Management System - WMS) de DIRAC est basé sur le cadre DISET. Pour un utilisateur occasionnel il peut très bien être utilisé de la même manière que le WMS gLite. Toutefois, il est basé sur le concept de Jobs Pilotes. Cette méthode augmente l’efficacité d’exécution des tâches d’utilisateur.

Mais c’est surtout pour les grandes communautés d’utilisateurs que DIRAC révèle son efficacité réelle. Les grandes communautés ont des groupes internes qui utilisent des ressources de calcul communes. Il est donc nécessaire de définir des priorités pour les groupes, en accord avec la politique de la communauté. Le middleware gLite ne fournit pas les moyens pour prioriser des tâches. Avec DIRAC, cet arbitrage peut être appliqué dans sa Queue des Tâches Centrale, de manière similaire aux systèmes batch standards. Grâce à cela, les utilisateurs LHCb bénéficient d’une exécution plus rapide de leurs tâches car ils ne souffrent pas d’une compétition avec l’activité de la production de données de priorité inferieure.

Un autre problème est fréquemment rencontré avec les grandes communautés : elles ont typiquement accès à différentes ressources informatiques, mais cet accès n’est pas uniforme puisqu’il est géré par les systèmes WMS spécifiques. C’est là où le concept de Jobs Pilotes se révèle très utile. Il suffit de soumettre les Jobs Pilotes aux différentes ressources hétérogènes, ce qui est pris en charge par DIRAC. Les Jobs Pilotes présentent toutes les ressources de manière uniforme et les utilisateurs bénéficient, comme par magie, d’un accès transparent. Dans le cas de LHCb, cette méthode a été présentée en regroupant les ressources des Grilles EGEE, EELA et NORDUGRID. Plus récemment, un exercice similaire a eu lieu pour l’expérience Belle, au KEK, Japon, dans le but d’inclure le Nuage de Calcul ( Computing Cloud ) – la ressource de calcul commerciale fournit par la société Amazon. D’autres ressources, comme des grappes de calcul ou même des ordinateurs de bureau individuels peuvent aussi être intégrés. Le Système de Gestion de la Production (Production Management System – PMS) est basé sur le WMS et permet la définition et exécution de séquences complexes des tâches (workflows) de façon tout à fait automatique déclenchée par la disponibilité de données à traiter. Le Système de Gestion de Données de DIRAC inclut des Catalogues de Réplicas et de Métadonnées complets mais l’utilisation des Catalogues standard de gLite est aussi possible. Les fonctionnalités d’un plus haut niveau incluent la réplication automatique des données, en accord avec des algorithmes spécifiques qui peuvent être fournis comme plugins. Des outils pour la vérification de l’intégrité des données sont également disponibles. Tout cela permet de gérer le système complexe de production de données du LHCb avec un seul operateur de production.

Chez DIRAC, une grande attention est portée aux interfaces utilisateurs, dans le but de les rendre le plus pratique possible. Une interface en ligne de commande est disponible, mais aussi une librairie Python pour les utilisateurs plus avancés. Toutefois, il est de plus en plus commun de voir des applications grilles complétées par des interfaces graphiques dédiées, pour plus de commodité et d’efficacité. DIRAC propose aussi une interface utilisateur graphique basée sur son cadre de Portail Web. Ce cadre permet de construire les interfaces Web à tous les services DIRAC avec la sécurité d’accès sans compromis grâce au système de délégation d’accrédités des utilisateurs intégré. Pratiquement toutes les opérations de DIRAC peuvent être exécutées via son Portail Web : de l’administration du système jusqu’au monitorage des tâches des utilisateurs. Les pages web du système PMS de LHCb sont un bon exemple de Portail Web pour une application complexe. Des portails similaires peuvent facilement être fourni pour d’autres applications. Pour un utilisateur qui souhaiterait l’essayer, il y a un outil Web simple pour la soumission des tâches sur la grille, avec la possibilité de téléchargement des fichiers d’entrée et de sortie. Une fois la tâche soumise, son progrès peut être suivi, tout en en ayant accès aux résultats intermédiaires.

Le projet DIRAC a déjà traversé une longue période d’évolution, et a prouvé sa valeur pour la Collaboration LHCb et d’autres utilisateurs dans le domaine de la physique des particules et bien d’autres. Maintenant, le projet est ouvert à de nouvelles applications et aide encore plus de communautés d’utilisateurs dans l’univers des grilles de calcul.

Andreï Tsaregorodtsev

Interview

Ikuo UEDA

Cloud Computing

StratusLab
Rechercher
     

Responsables éditoriaux : Dominique Boutigny et Cristinel Diaconu
Comité de rédaction : Virginie Dutruel, Sébastien Grégoire, Eric Legay, Gaëlle Shifrin et Tiffany Thome

logo CCIN2P3
© CCIN2P3