Depuis plus d’une décennie, l’IN2P3 comme beaucoup d’autres acteurs du monde scientifique, est le témoin d’une explosion des quantités de données produites par les projets scientifiques qu’il soutient. La gestion de ces masses de données est un enjeu de première importance : il faut à la fois assurer la disponibilité et la pérennité de l’accès à celles-ci. Ces deux tâches sont rendues particulièrement délicates dans un environnement de travail qui est complexe à plus d’un titre :
• Les collaborations scientifiques sont généralement dispersées géographiquement, ce qui nécessite de pouvoir partager, diffuser et gérer de façon efficace et sécurisée, les données réelles et les simulations numériques produites par les expériences, et ce à travers des sites de traitement eux aussi distants les uns des autres.
• Les supports et systèmes de stockage employés peuvent différer grandement d’un centre de traitement à l’autre. A cette hétérogénéité, viennent s’ajouter l’évolution continue des media de stockage (ce qui induit des migrations matérielles) et les évolutions technologiques au niveau logiciel (ce qui implique éventuellement des changements au niveau du nommage des données ou des protocoles d’accès à ces dernières).
Qu’est-ce que iRODS ?
De tels environnements nécessitent des intergiciels permettant la gestion et la distribution des données dans un environnement hétérogène, notamment en virtualisant le stockage, c’est-à-dire en masquant la complexité et la diversité des systèmes de stockage sous-jacents tout en les fédérant.
iRODS (pour integrated Rule based Data System) développé principalement par le groupe DICE [1] bi-localisé à l’Université de Californie à San Diego et l’Université de Caroline du Nord à Chapel Hill, répond à ce besoin en offrant une vue logique unique des données indépendantes de l’organisation et de l’emplacement physique de ces dernières. De plus, iRODS fournit une palette riche d’aide à la gestion de données (extraction de métadonnées, intégrité des données etc…). De par sa flexibilité, il peut s’interfacer avec un nombre quasi illimité de technologies de stockage (systèmes de stockage de masse, systèmes de fichiers distribués, bases de données relationnelles, Amazon S3, Hadoop etc…).
Mais ce qui rend iRODS particulièrement attractif est son moteur de règles qui n’a pas d’équivalent parmi ses compétiteurs. Ce moteur de règles permet d’effectuer des tâches complexes au niveau de la gestion des données. Ces politiques de gestion se trouvent déportées du côté serveur : par exemple quand des données sont déposées dans iRODS, des tâches de fond peuvent être déclenchées automatiquement côté serveur comme par exemple des réplications sur plusieurs sites, des contrôles d’intégrité des données, des post-traitements sur celles-ci (extraction de métadonnées….) sans action particulière du côté client. Du coup, la politique de gestion des données est virtualisée. Cette virtualisation permet d’assurer une application stricte des règles établies par les utilisateurs, quelle que soit la localisation des données ou de l’application qui accède à iRODS.
Le service iRODS du CC-IN2P3
Le Centre de Calcul de l’IN2P3 offre un service iRODS à l’IN2P3 depuis 2008. Ce service est ouvert à l’ensemble des expériences qui souhaitent l’utiliser. Actuellement, 34 groupes dans les domaines de la physique des particules (BaBar, dChooz…), la physique nucléaire (Indra, Fazia…), les astroparticules et l’astrophysique (AMS, Antares, Auger, Virgo, LSST…), les Sciences Humaines et Sociales (Huma-Num) et la biologie, utilisent le service iRODS du CC-IN2P3 pour la gestion et la diffusion de leurs données. Le CC-IN2P3 fournit aussi l’hébergement du catalogue central du service iRODS nouvellement créé de France Grille, ainsi qu’un support aux administrateurs de France Grille sur l’utilisation de cette technologie.
Le service iRODS possède ses propres serveurs de disques et se trouve interfacé avec notre système de stockage de masse HPSS (stockage sur bandes magnétiques) : il gère actuellement plus de 8 Po de données, ce qui en fait le service le plus important en volumétrie recensé au niveau international.
Le service est fédéré avec d’autres services iRODS comme celui du SLAC par exemple. Dans cette perspective, il est aussi tout à fait possible de fédérer des serveurs de stockages disponibles dans les laboratoires avec le service iRODS du CC-IN2P3.
Il est appelé à se développer encore davantage de par son adoption par de nouveaux projets scientifiques.
L’implication du CC-IN2P3 dans iRODS
Depuis 2003 et la mise en production de SRB à Lyon, le CC-IN2P3 est en étroit contact avec le groupe DICE. Le CC-IN2P3 participe au projet de développement iRODS en tant que collaborateur depuis le démarrage du projet en 2006. Le CC-IN2P3 est aussi très actif au sein de la communauté des utilisateurs et administrateurs iRODS, en fournissant une aide et des conseils sur cette technologie. De par son expérience et son activité, le CC-IN2P3 est considéré comme une référence au sein de cette communauté très diversifiée de par les thématiques scientifiques et technologiques couvertes.
Comment utiliser le service iRODS du CC-IN2P3 ?
Pour toutes questions relatives à iRODS et à son utilisation au CC-IN2P3, vous pouvez contacter le support utilisateur qui répondra à vos demandes.
Jean-Yves NIEF (CC-IN2P3)