n°1
Juillet
2008
iRODS 1.1 : une nouvelle génération de middleware

On assiste depuis plusieurs années à une explosion des quantités de données et de métadonnées produites par les projets scientifiques, en premier lieu dans les disciplines couvertes par l’IN2P3 mais aussi dans les domaines de la biologie, l’astrophysique, les sciences de la Terre voire même maintenant les sciences humaines et sociales. A ceci s’ajoute un environnement de travail complexe où de vastes communautés scientifiques dispersées géographiquement sont appelées à travailler sur des données communes à l’aide de systèmes informatiques de traitement et de stockage des données hétérogènes eux aussi distribués à travers le monde.

Cet environnement de grille nécessite des intergiciels permettant la gestion et la distribution des données dans un milieu hétérogène. Ces briques doivent masquer la complexité et la diversité des systèmes de stockage sous-jacents tout en les fédérant et en fédérant également la communauté des utilisateurs. iRODS (pour integrated Rule-based Data System), logiciel « open source » dont la version 1.1 est sortie en juin 2008 répond à une vaste série de besoins qui découlent d’une telle organisation. Comme son prédécesseur SRB (Storage Resource Broker) utilisé par une dizaine de groupes au Centre de Calcul de l’IN2P3/CNRS et gérant plus de 800 To de données, iRODS (dont les développements sont dirigés par le San Diego Supercomputing Center) permet de virtualiser l’accès aux ressources de stockage et fournit une palette riche d’outils d’aide à la gestion de données (extraction de métadonnées, intégrité des données etc.).

Mais ce qui rend iRODS particulièrement innovant est son moteur de règles qui n’a pas d’équivalent parmi tous les outils de grille. Ce moteur de règles permet d’effectuer des tâches complexes au niveau de la gestion de données : les politiques de gestion des données se trouvent du coup « virtualisées » en appliquant des règles côté serveur qui contrôlent l’exécution des opérations de manipulation et d’accès aux données. Du coup, il n’est plus nécessaire d’implémenter en dur les workflows ou les actions sur les données au niveau des applications clientes. iRODS est financé par la NSF (National Science Foundation) et la NARA (National Archives and Records Administration). Le CC-IN2P3 avec le groupe « Data Management » de e-Science en Grande-Bretagne est l’un des principaux collaborateurs étrangers du projet.

Le CC-IN2P3 s’est engagé dans le développement d’outils de tests de charge, de fonctionnalités (répartition de charge dynamique, monitoring, etc.) ainsi que dans le développement de l’interfaçage avec des systèmes de stockage de masse. D’autre part, une ingénieure du KEK (Koh Ene Ken, au Japon) est venue travailler à Lyon durant 8 mois sur les problématiques de transferts longue distance, de tests de charge et d’intégration dans la perspective d’utiliser iRODS dans le monde de la physique des particules. Le CC-IN2P3 a installé une première instance en production pour accueillir de nouveaux projets, le premier d’entre eux étant un projet d’archive numérique de documents anciens. D’autres projets vont suivre dans un proche avenir.

En France, iRODS est en phase d’évaluation à la Bibliothèque Nationale de France, au Centre des Données de Strasbourg (Observatoire de Strasbourg) dans le cadre de l’intégration de iRODS avec les couches logiciels de l’Observatoire Virtuel, et dans diverses entreprises privées (Xerox, HP). Le CC-IN2P3 est en relation avec la BNF et le CDS sur ce sujet.

Enfin, notez qu’un workshop iRODS aura probablement lieu à Lyon en janvier ou février 2009.

Jean-Yves NIEF (CC-IN2P3)