n°21
Juillet
2012
CHEP, le rendez-vous international incontournable

Conférence

L’édition 2012 organisée par le laboratoire de Brookhaven (BNL), s’est tenue du 21 au 25 mai dernier, à l’Université de New-York (NYU) en plein cœur de Greenwich Village. Plus de cinq cents personnes étaient réunies pour évoquer le futur des outils informatiques et les évolutions du calcul en Physique Nucléaire et Physique des Particules. La « délégation française » était, comme à chaque fois, constituée d’une bonne vingtaine de collègues de l’IN2P3 et de l’IRFU qui ont suivi assidûment les différentes sessions parallèles.

Le programme de CHEP aborde le traitement des données dans tous ses aspects, depuis le traitement en ligne au plus près des détecteurs jusqu’à l’analyse finale) sans oublier la préservation des données à long terme et les outils collaboratifs. Cette année a été, très logiquement, marquée par une présence forte du calcul LHC, les perspectives et les besoins étant essentiellement portés par le projet LSST (Large Synoptic Survey Telescope). Cet article met en lumière de façon subjective quelques idées marquantes issues de la pléthore de sujets et de présentations.

GEANT et ROOT restent les deux piliers du Computing HEP : le premier pour la simulation Monte Carlo, le second pour l’analyse de données à l’aide d’histogrammes. Depuis le milieu des années 90, ces deux logiciels que l’on a plutôt l’habitude de qualifier de « frameworks » (ou cadriciels en bon français), restent au cœur du programme de CHEP. Leurs évolutions sont intimement liées à l’histoire de la conférence. GEANT4 a été initié lors de la tenue de CHEP 1994 à San Franscico. Le cadriciel GEANT est aujourd’hui de loin le plus cité dans des publications scientifiques avec près de 3000 articles, laissent le deuxième (ROOT) loin derrière avec environ 500 citations jusqu’au début 2012.

Cette année, après plus 30 ans d’activité au CERN, René Brun a été salué par la communauté en ouvrant la première séance plénière et en livrant sa vision de l’évolution du software HEP des années 1970 jusqu’à cette année qui sera marquée par son départ à la retraite. Évoquant dix-sept années de développement de ROOT, il n’a pas éludé les difficultés actuelles de nos logiciels : utilisation de la mémoire RAM, structuration et format de données (traces, vertex, événement) incroyablement complexes, absence, dans la majorité des cas, de tests systématiques et automatisés. La structuration, l’agrégation des données et les performances des entrées/sorties sont au cœur des enjeux depuis près de 25 ans. ROOT, à partir du concept de TTree et avec le support de la persistance, a certes influencé le format de stockage des données à l’interface entre le traitement en batch et l’interactif. Mais, face aux volumes de données croissants, les questions restent les mêmes : « Comment naviguer dans un grand nombre de fichiers en n’utilisant qu’une petite fraction de chaque fichier ? Comment limiter l’impact des étapes séquentielles comme la fusion (ou merging) de fichiers ? ». En outre, les processeurs multi-cœurs ont déjà un gros impact sur l’architecture des logiciels. Demain, la communauté HEP devra être capable d’exploiter le parallélisme des nouvelles architectures. Pour cela, il faudra être en mesure d’ajuster, de façon dynamique, les ressources critiques à tous les niveaux possibles : mémoire, cache, bande passante.

DELL, principal sponsor de cette édition, a évoqué le passage à l’Exascale Computing repoussant cette échéance vers 2018-2019 dans le meilleur des cas. Chacun sait que la fréquence des processeurs stagne depuis dix ans autour de 3 GHz et que les facteurs d’amélioration se trouvent ailleurs, d’autant que la principale préoccupation reste la consommation électrique. Autre difficulté, la puissance de calcul ne suit pas nécessairement l’évolution de performances des processeurs à cause des débits mémoire. Dans ce contexte, les acteurs envisagent des approchent hybrides combinant GPU et CPU avec des processeurs ARM issus du marché des Smartphones et tablettes qui seraient en mesure de venir concurrencer les processeurs à architecture x86.

Une autre facette de la difficulté d’exploiter les avancées techniques selon « la loi de Moore » était représentée par le débit de transfert des réseaux et le stockage. La loi de Moore ayant été formulée initialement concernant le degré d’intégration (de densité) des transistors sur les puces des circuits intégrés, elle était vite généralisée sur les autres paramètres de performance comme la vitesse des CPU, taille mémoire, les débits de réseau, vitesse et volume de stockage. Or, la fréquence d’ordonnancement des CPU stagnante depuis quelques années (« Free lunch is over »), alors que les autres caractéristiques continuent à s’améliorer, la cohabitation entre parallélisme et accès sériel aux canaux d’une interface unique pose et continuera à poser quelques défis aux développeurs.

Infrastructures de calcul, grilles de production et réseaux, cette session, parmi les plus suivies, a réuni en permanence une assistance de 70 à 80 personnes. Près d’un quart des présentations traitait des systèmes de stockage et des performances des entrées/sorties toujours en relation avec les besoins d’analyse. Outre l’analyse des goulots d’étranglements, la comparaison entre les performances des différents protocoles, les promesses de NFS version 4.1, de nouvelles approches (hiérarchisation et fédération notamment) viennent enrichir la réflexion du côté du stockage des données.

L’approche HSM classique (disques et bandes), typiquement incarnée par CASTOR et mise en place pour les besoins du stockage des données LHC au CERN, n’est clairement pas adaptée aux besoins de l’analyse. Depuis mi 2010, le CERN développe un nouveau système de gestion de disques, EOS, qui après un an d’exploitation se révèle beaucoup plus adapté pour l’accès aléatoire aux données. Pour preuve, près de 9 Pétaoctets de données essentiellement ATLAS et CMS, sont aujourd’hui stockés dans EOS. Décoder le sigle ne vous sera d’aucune utilité. Comprenez qu’il s’agit d’une nouvelle approche dite « multi-tiers » voulue, non seulement pour découpler le stockage disque du stockage de masse toujours géré par CASTOR, mais aussi pour hiérarchiser les niveaux disque. Ainsi, la couche supérieure autorisant les accès à faible latence est séparée de la couche assurant la volumétrie disque. EOS se charge de répartir les fichiers par bloc entre les différents serveurs de disques et de gérer l’espace de nommage en mémoire. On parle alors d’architecture RAIN (Redundant array of Inexpensive/Independant Nodes) qui est aux serveurs ce que le RAID est aux disques.

Fédérer le stockage à l’échelle de la grille est l’autre idée qui anime la communauté des sites LCG (LHC Computing Grid). Les possibilités offertes par le réseau permettent de l’envisager aujourd’hui. Ce serait enfin mettre le stockage au niveau du CPU et introduire de la souplesse dans les modèles de gestion de données ! Imaginer un accès uniforme aux données, décloisonner le stockage des sites, éviter la distribution a priori de données, ignorer la localisation des données, optimiser l’accès aux données en fonction de leur popularité, disposer d’un espace de nommage unique et cohérent, s’affranchir des défaillances du stockage local, exploiter des sites ne disposant pas de stockage, la liste des avantages est longue et justifie parfaitement l’intérêt actuel. ALICE exploite depuis assez longtemps cette idée et a promu une approche basée sur xrootd. Plusieurs fédérations basées sur xrootd sont également déployés aux Etats-Unis pour ATLAS et CMS. Mais la réflexion actuelle doit en partie s’affranchir des implémentations (xrootd, http/webDAV…) pour aborder des points importants liés aux modèles et algorithmes de cache de données, à la connaissance et la surveillance de la topologie réseau, à la gestion des autorisations et plus généralement des métadonnées : ACLs, checksums etc.

Côté infrastructures, à l’évidence, les choix se diversifient. Après étude des différents critères (coût, performance énergétique, localité, pérennité), l’expérience LHCb a choisi une solution de « data center en conteneur » pour héberger la nouvelle ferme online qui sera nécessaire après le second arrêt du LHC (LS2) prévu en 2017. Autre besoin, autre choix : l’extension du Tier-0 pour les besoins du calcul LHC au CERN a fait l’objet d’un contrat d’hébergement avec un centre situé à Budapest suite à un appel d’offre. Ces choix sont autant d’alternatives à la construction de nouvelles infrastructures de calcul au CERN et marque un tournant. Le temps où la physique des particules, le CERN en particulier, devait satisfaire les besoins des utilisateurs « les plus gourmands en ressources qui soient » en déployant des solutions totalement spécifiques, est en passe d’être définitivement révolu. A tel point que le CERN prend aujourd’hui exemple sur les datacenters extérieurs pour promouvoir une approche basée sur l’industrialisation, la sous-traitance et l’agilité (osons le terme !) de ses services et activités IT. A ceci, s’ajoute le souci de l’efficacité énergétique pour un « calcul écologique ou vert ». « L’informatique au plus juste » pourrait être le maître mot aujourd’hui.

A l’ère du « Big data », la communauté HEP est un acteur parmi d’autres en matière de déploiement d’infrastructures IT à grande échelle. Les solutions à grande échelle ne peuvent plus et ne doivent plus être spécifiques. Chacun pensera aux solutions Cloud que nous n’avons malheureusement pas abordées ici mais qui ont été largement évoquées à CHEP dans le cadre de la session « Traitement distribué et Analyse sur Grille & Clouds ».

L’avenir passe aussi par les FPGAs et les GPUs qui vont permettre d’accroître la puissance de calcul disponible en ligne au plus près des détecteurs. Tous les efforts de portage et d’optimisation des algorithmes de reconstruction sont requis et seront utiles pour le online comme pour le offline. Avec l’amélioration des performances du LHC, il faudra à la fois gérer l’empilement des événements et améliorer la pertinence et les performances de la sélection en ligne. En résumé, il faut traiter plus de données, plus rapidement et être capable d’exécuter en ligne de nouveaux algorithmes, de reconstruction. Aujourd’hui, la sélection en ligne se base sur les données des détecteurs à muons et des calorimètres. Demain, il est envisagé d’exploiter en ligne les informations fournies par les détecteurs de traces, jusqu’alors considérés comme nécessitant des algorithmes de reconnaissance de particules trop complexes pour fournir des résultats utilisables et rapides. Tout l’intérêt des GPU pour le tracking et l’amélioration des triggers est là, se reflétant dans une session plénière complète (Event processing) traitant exclusivement des GPU et de leurs applications.

Outil devenu indispensable au point d’oublier parfois les exploits technologiques qui étaient nécessaires pour leur mise en œuvre, les outils collaboratifs font l’objet de deux séances parallèles, récentes dans l’histoire de CHEP, mais en constante augmentation de fréquentation et de présentation. Le choix crucial d’un système de visioconférences universel qui semble décidé du fait que le CERN a initié la migration définitive vers le produit Vidyo a été remis en discussion. Philippe Galvez du Caltech a présenté en séance plénière une étude de marché comprenant des offres commerciales, mais surtout les grands joueurs ECS/ESnet et EVO (ainsi que Vidyo). Encore une fois « HEP » mène le palmarès des utilisateurs les plus demandeurs. Rien que sur EVO, 60 millions de minutes annuelles de conférences en vidéo, audio et de partage d’écran mélangés sont gérées par le système. Rappelons qu’une année ne compte 526 000 minutes ! Le niveau d’utilisation est donc équivalent à 120 utilisateurs en moyenne, connectés en permanence. Les documents associés à une expérience sont gérés sans les contraintes de fonctionnement et de disponibilité 24/7, mais la volumétrie est tout aussi impressionnante, comme nous l’a montré Lucas Taylor, imaginant tous les documents de CMS imprimés et empilés (voir ci-dessous).

Pour la première fois, le groupe international DPHEP qui développe des idées et solutions concernant la préservation des données et résultats de physique des expériences, a présenté le résultat de ses travaux en séance plénière, ayant également organisé un atelier d’une demi-journée en parallèle avec le programme CHEP.

Est-ce que les paradigmes modernes du développement logiciel s’appliquent à HEP ? Telle était la question soulevée par Federico Carminati en séance plénière. Après avoir fait une analyse comparative entre l’« agile » (agile), l’« extrême » (extreme programming, XP) et les habitudes dans notre domaine, il a conclu que la communauté HEP avait en réalité développé, sans s’en rendre compte, sa propre méthode de développement : une méthode itérative et incrémentale, menée dans un esprit collaboratif avec juste ce qu’il faut de formalisme. Resterait juste à la communauté HEP à expliciter, à adapter et à optimiser ce qu’elle fait naturellement et spontanément ! Chacun appréciera.

NIKHEF vous donne rendez-vous à Amsterdam du 14 au 18 octobre 2013 pour la 20e édition de CHEP, 30 ans après ses débuts au même endroit !

Pour en savoir plus : http://www.chep2012.org/

Frédérique CHOLLET, Dirk HOFFMANN