Logo de IHEP (© copyright)
Les collaborations dans le domaine de la recherche en physique des particules et des technologies associées entre des acteurs français et chinois datent de nombreuses années. Elles ont été placées dans un cadre institutionnel avec la création en 2007 d’une structure conjointe sous la forme d’un laboratoire international associé (LIA) en physique de particules. Le FCPPL (France China Particle Physics Laboratory) réunit l’IN2P3/CNRS, le CEA/Irfu et des universités françaises avec leurs homologues chinois.
Dans ce contexte et avec le soutien du Ministère des affaires étrangères et européennes, j’ai eu le privilège de rejoindre l’équipe du Service pour la science et la technologie de l’Ambassade de France en Chine à partir l’été 2010. La mission qui m’a été confiée était de renforcer la collaboration dans le domaine du traitement de données pour les activités de recherche d’intérêt pour les partenaires du FCPPL en général, avec un accent particulier sur les expériences auprès du LHC. Avec ma double localisation géographique à la fois au centre de calcul de l’Institut de Physique de Hautes Energies (IHEP) et à l’Ambassade de France à Pékin, j’ai eu l’opportunité de contribuer aux activités de promotion de la recherche et de la technologie françaises en Chine, d’une façon générale et plus particulièrement de travailler sur le terrain auprès des ingénieurs de IHEP pour le support au quotidien des expériences.
Le CC-IN2P3 et le centre de calcul de IHEP se connaissent depuis longtemps. Leur missions, organisation et activités sont comparables. En plus de servir des expériences nationales, le centre de calcul de IHEP est impliqué dans des expériences internationales dans lesquelles la France est également un acteur important, telles ATLAS et CMS. IHEP opère un centre de traitement de niveau 2 de la grille LCG pour chacune de ces deux expériences et des échanges des données entre la France et la Chine sont une activité quotidienne.
Dès mon arrivée à IHEP, j’ai eu l’occasion de contribuer à plusieurs projets. Comme le CC-IN2P3 peu d’années auparavant, le centre de calcul de IHEP était sur le point de lancer un projet de modernisation de l’infrastructure électrique et climatique de sa salle machine. Cette mise à jour était motivée par la croissance rapide prévisible des besoins en équipement informatique et l’impossibilité de l’accueillir sans une augmentation de la capacité de son infrastructure. Avec l’aide de plusieurs experts nous avons fait un retour d’expérience sur le projet comparable mené par le CC-IN2P3 avec succès. Ce partage d’information très pertinent et opportun a été très apprécié par les responsables du projet à IHEP. Depuis l’été 2012, l’augmentation de la capacité d’alimentation électrique et de refroidissement de la salle machine à IHEP est effective et les nouveaux équipements sont complètement opérationnels.
Côté purement informatique, nous avons mené plusieurs actions. Conjointement avec des experts du CC-IN2P3, nous avons démarré fin 2011 un projet visant à comprendre l’origine des limitations observées dans le lien réseau entre IHEP et le CC-IN2P3 et qui pénalisaient le transfert des données des expériences. Plusieurs campagnes de tests de débit réseau ont été effectuées. Des mécanismes de surveillance permanente du lien entre IHEP et tous les centres européens de niveau 1 de la grille LCG ont été mis en place. Des études détaillées de tous les segments du chemin emprunté par les données lors du transfert entre IHEP et CC-IN2P3 ont été menées. Des améliorations progressives ont été apportées au fur et à mesure de notre compréhension de l’origine des limitations.
Après une première amélioration du débit dans le sens IHEP vers CC-IN2P3 d’un facteur 100 cette campagne de travaux s’est terminée par l’augmentation récente de la bande passante du lien transcontinental entre Pékin et Londres pour atteindre 5Gbps. Cette capacité supplémentaire étend les possibilités d’échange de données entres les deux centres et va sans doute bénéficier les expériences.
Les actions ne se limitent au CC-IN2P3. L’équipe du projet DIRAC du CPPM a accueilli un doctorant chinois pour un séjour pendant 12 mois, financé par une agence gouvernementale chinoise. L’objectif était d’explorer l’intégration de DIRAC et des plates-formes de calcul distribué basées sur le principe du calcul volontaire (ou volunteer computing) basées sur BOINC. Des résultats intéressants ont été obtenus et un deuxième doctorant va rejoindre l’équipe DIRAC à Marseille pour continuer ce travail dans les prochains mois.
Au même moment, DIRAC a été sélectionné comme l’outil de gestion des travaux et des données au cœur de l’infrastructure distribuée de traitements de données de l’expérience BES-III, auprès du collisionneur localisé sur le campus de IHEP. Cette grille, actuellement en cours de déploiement, va permettre à terme la mise en commun de ressources informatiques des plusieurs universités et laboratoires de recherche en Chine, en Russie, en Allemagne et aux Etats Unis participant à l’expérience.
Le premier objectif de la grille BES-III est de décentraliser la production de données de simulation, actuellement presque exclusivement réalisée à IHEP. Pour ce projet, j’ai été invité à coordonner l’équipe en charge de l’architecture de stockage centralisé et du catalogage des données produites par tous les sites participant à l’expérience. Les travaux de mise en œuvre sont en cours et devraient permettre de désengorger le centre de calcul de IHEP en réorientant sa puissance de calcul vers l’activité d’analyse de données.
En plus des grosses expériences, nous avons aussi œuvré pour faciliter l’usage des ressources de calcul par les expériences à effectifs réduits. En profitant de la voie tracée lors de la mise en place d’une grille de calcul reliant le CC-IN2P3 et des centres de calcul de KISTI en Corée et de KEK au Japon et avec l’intervention opportune des experts français, IHEP a pu être configuré pour rejoindre cette plate-forme franco-asiatique de calcul distribué.
Fabio Hernandez dans la salle machine de IHEP. © CC-IN2P3 / CNRS
Le but de cet effort initié dans le cadre des laboratoires internationaux de physique de particules entre la France et la Corée (FKPPL) et la France et le Japon (FJPPL) est de baisser significativement les barrières à l’entrée pour l’usage des infrastructures de grille, en particulier pour les expériences qui ne disposent pas d’experts dédiés à l’informatique. Ainsi, les utilisateurs de l’organisation virtuelle France-Asia ont désormais la possibilité d’utiliser les ressources de calcul de IHEP pour leurs travaux. L’instance de DIRAC opérée par le CC-IN2P3 pour le compte de France-Grilles donne à ces expériences la possibilité d’exploiter les capacités de calcul que leur offrent le CC-IN2P3 et les 3 sites asiatiques cités.
C’est le cas par exemple de l’expérience franco-chinoise TREND (Tianshan Radio Experiment for Neutrino Detection) dont le site d’acquisition de données est situé dans la province du Xinjiang, à l’extrême ouest de la Chine. Les données sont transportées en disque amovible jusqu’à IHEP à Pékin pour être par la suite transférées, référencées et stockées de façon permanente au CC-IN2P3.
Toutes les phases du traitement des données TREND ont été historiquement réalisées au CC-IN2P3. Néanmoins, l’expérience est en cours de transition vers l’utilisation de la grille, en particulier pour la production de données de simulation. L’existence de l’organisation virtuelle France-Asia a rendu plus attractive cette transition qui va à terme étendre les possibilités de traitement de données de TREND.
J’ai eu également l’opportunité de conduire des projets d’exploration technologique. Nous avons développé un prototype fonctionnel d’un système de stockage de fichiers en s’appuyant sur le modèle du cloud computing et compatible avec le protocole Amazon S3. Ce développement exploite les possibilités offertes par les bases de données non structurées (connues collectivement sous le nom NoSQL) pour le stockage des métadonnées. Les résultats préliminaires de ces travaux ont été publiés et présentés à l’occasion des séminaires et rencontres en Chine.
Lors d’une de ces rencontres, l’un des trois opérateurs télécom nationaux en Chine a exprimé son intérêt pour ce projet, en particulier sur le volet stockage des métadonnées. En effet, il s’apprête à commercialiser un service de stockage de fichiers pour les centaines de millions de clients abonnés à ses services de téléphonie fixe et mobile. Un travail de collaboration dans ce domaine avec IHEP pourrait être mis en place et depuis plusieurs rencontres ont eu lieu à ce sujet.
Dans le même volet de stockage à distance, la société chinoise Huawei, l’un des équipementiers télécom les plus importants au niveau mondial, a mis à disposition de IHEP une machine de stockage conçue spécifiquement pour implémenter nativement le protocole S3. Nous menons actuellement un projet de qualification de cette machine afin de déterminer sa faisabilité de bâtir un service de stockage à distance destiné aux expériences et aux individus utilisant les services du centre de calcul de IHEP. Une machine du même type est en cours de test au Openlab du CERN et des tests de réplication de fichiers entre Genève et Pékin sont programmés.
Par ailleurs, ma contribution sous forme de code source C++ a été acceptée par l’équipe ROOT du CERN. Elle permet d’améliorer le support du protocole S3 pour tous les utilisateurs de ce logiciel. D’autres améliorations dans ce sens sont déjà planifiées. L’expérience acquise lors de ces projets nous sera très certainement utile pour la mise en place des infrastructures de stockage pour les expériences à venir.
En nous appuyant sur l’expérience acquise sur les bases de données non structurées, nous avons entrepris un projet d’évaluation de cette technologie pour le stockage de données d’utilisation des ressources gérées par DIRAC. Sous ma co-supervision et en travail étroit avec l’équipe DIRAC, un étudiant fait un travail exploratoire de ce type d’outils pour l’analyse d’utilisation des ressources faite à travers DIRAC, à des fins de comptabilité et d’identification de tendances.
Les sujets de collaboration dans le domaine de l’informatique entre IHEP et l’IN2P3 sont donc multiples et les actions menées commencent à porter leurs fruits. Par ces échanges de personnes et à travers des sujets de travail d’intérêt commun, nous entendons établir un environnement durable de coopération bénéfique pour les deux organismes.
Fabio HERNANDEZ