Quel est le rôle du SLAC National Accelerator Laboratory dans la grille de calcul du LHC ?
Depuis deux ans, SLAC est un centre de niveau 2 pour l’expérience ATLAS, c’est-à-dire un centre qui participe à la simulation des données et qui fournit une plate-forme d’analyse de données pour les physiciens. On a la capacité et les ressources pour jouer un rôle plus important mais il nous faut du temps car on ne peut pas prétendre à plus de ressources et donc à plus de budget. Le coût des centres de calcul étant très surveillé par le Congrès américain, on ne peut actuellement pas demander plus de moyens ; il nous faut attendre l’arrivée des données réelles, et ensuite on avisera.
Quelle est la particularité du calcul pour le LHC ?
Les besoins informatiques pour la reconstruction et la simulation de données pour le LHC sont compris. En revanche, les centres de niveau 1 doivent assurer un rôle d’échange de données qui a un caractère un peu chaotique et rend le système fragile.
Pour l’expérience ATLAS, plus de 90% des matériels sont destinés à la reconstruction et à la simulation, et une faible proportion à l’analyse de données mais je pense que cela ne correspond pas à la réalité des besoins. Avec l’expérience Babar, on avait fait une assez bonne estimation des besoins pour la production et la reconstruction des données mais avant l’arrivée des données, nous n’avions aucune idée de ressources réellement nécessaires pour l’analyse. C’est aussi le cas pour le LHC.
D’autre part, pour BaBar, on avait utilisé une sorte de ‘grille pour les pauvres’, c’est-à-dire qu’on avait relié ensemble quelques centres de calcul dans un système lié à la collaboration. Si on fait un parallèle avec la grille WLCG, on peut dire qu’on avait 5 ou 6 centres de calcul de niveau 1 (dont le CC-IN2P3) dont on a utilisé les ressources pour toute la collaboration. Mais à la différence de la grille actuelle, c’était un système plus manuel où tous les membres de BaBar accédaient à ce système via un login.
Avec la grille, en principe, on devrait bientôt pouvoir utiliser les ressources des centres de calcul avec une très grande efficacité et sans trop d’efforts. Mais reste une inconnue : l’analyse chaotique des données. On ne sait pas réellement comment cela va se passer mais on sait qu’il va falloir un très bon accès aux données. C’est pourquoi on utilise des systèmes dédiés aux expériences : il est préférable de gérer les données d’une communauté de physiciens pas trop grande : on évite ainsi de multiplier les problèmes.
Quelles sont les principales difficultés du traitement des données du LHC ?
Les grilles européennes et américaines ont coûté plus qu’elles n’ont encore livré, notamment si on la compare à cette ‘grille de pauvre’ dédiée à BaBar. Et chaque année, elles coûtent un peu plus. Je précise tout de suite que je soutiens les efforts de grille depuis le début mais il faut admettre qu’il y a encore beaucoup de travail à faire avant d’obtenir un système automatisé et demandant moins de ressources humaines.
Autre problème : tandis que les disques sont de plus en plus capacitifs et les données de plus en plus nombreuses, les vitesses d’accès aux données n’évoluent pas de la même manière. Pour résoudre ce problème, on pense maintenant à l’exploitation des SSD (Solid State Device). Or on n’a pas suffisamment d’expérience dans l’utilisation de ce type de matériel. On ne sait pas non plus dans quelle mesure il faudra adapter les logiciels de stockage pour les utiliser. Et c’est un véritable défi.
Comment pensez-vous que les technologies de grille vont évoluer dans l’avenir ?
Le grand changement dans les deux années à venir, c’est l’utilisation systématique et l’intégration de services commerciaux comme Amazon. Le cloud est un système commercial qui offre la possibilité de disposer d’une grande capacité de calcul dans un environnement virtualisé. Dans les grilles actuelles, il faut parvenir à un très grand niveau de contrôle sur les systèmes d’exploitation et les ordinateurs qu’on va utiliser (Scientific Linux et Redhat) : sans cela, on ne pourra pas utiliser les résultats car on n’aura pas la certitude qu’ils soient corrects. En utilisant un environnement virtualisé, on espère réduire la dépendance aux systèmes d’exploitation et aux plateformes matérielles.
D’autre part, si le cloud est une grille avec une technologie plus récente et plus simple, on n’a pas les mêmes possibilités de partager les jobs entre les centres de calcul et de répondre aux besoins de la communauté HEP… mais par contre, on peut devenir riche… D’ailleurs, on peut se demander s’il sera encore nécessaire de construire des centres de calcul, si on peut tout faire sur le cloud…
Enfin, le cloud est une technologie accessible à tout le monde, presque la moitié de la population devrait être capable de l’utiliser. A contrario, je ne pense pas que la grille actuelle sera adaptée au grand public. Actuellement aux Etats-Unis, 5% de l’électricité est consommée chaque année par les centres de calcul. Si ce chiffre augmente encore, on va être confronté à un vrai problème. Le cloud pourrait donc être l’une des solutions d’avenir.
PROPOS RECUEILLIS PAR GAËLLE SHIFRIN