n°36
Mars
2017
Quand la performance du LHC dépasse les attentes...

...inévitablement les ressources informatiques nécessaires dépassent un peu les prévisions.

L’environnement

Le Run-2 du LHC, qui voit l’énergie disponible passer de 8 TeV au Run-1 à 13 TeV, s’étend sur trois ans, de 2015 à 2018.

Après un démarrage difficile en 2015, dû à l’optimisation délicate de l’accélérateur à une telle énergie et luminosité, l’année 2016 a vu un fonctionnement en tous points exceptionnel, comme le montre la figure ci-dessus. Par rapports aux précédentes estimations, le LHC a fourni fin 2016, et donc pour 2017 et 2018, environ 50% de plus de données que prévues initialement (7.8M secondes de collision pp en 2016, contre 5.5M attendues).

Cette situation, excellente pour les découvertes potentielles au Run-2, a un impact important sur les ressources : plus d’événements à traiter et conserver (données et simulation), donc plus de CPU et de stockage nécessaires.

Cependant cet accroissement de ressources doit s’effectuer dans le cadre financier propre au calcul depuis le démarrage du LHC, le ‘flat budget’, qui permet grâce aux progrès de la technologie et la baisse des coûts associée, de bénéficier de plus d’équipements à budget constant.

Prenons maintenant l’exemple de l’expérience ATLAS pour montrer comment faire face au problème.

Les demandes

Par rapport aux demandes initiales pour 2017, qui étaient déjà très exigeantes en termes de ressources, ce surcroît de 50% en données du LHC se traduit par une augmentation de 20%, tant en disque qu’en CPU, et de seulement 10% en bande (grâce notamment au nettoyage permanent des fichiers inutilisés). Les 20% s’expliquent par le fait qu’une grande partie des ressources est dédiée à la simulation qui ne croît pas linéairement avec la quantité de vraies données.

Globalement, la croissance annuelle des demandes des 4 expériences LHC en stockage et CPU pour l’ensemble des sites Tier-1 et Tier-2 (voir les diagrammes ci-dessus), montre clairement un fort accroissement en 2017, moindre en 2018 (demandes qui ne sont cependant pas encore finalisées), et se situe au-delà de ce que permet le modèle à budget constant.

Les solutions envisagées

Les expériences LHC comme ATLAS ont déjà effectué un énorme effort d’optimisation tant pour ce qui est du temps de calcul que du stockage (simulation et reconstruction optimisées, placement de données dynamique, destruction systématique des vieux fichiers).

Deux solutions peuvent être envisagées qui consisteraient soit à réduire le nombre d’événements sauvés sur disque, i.e. réduire le dernier niveau de déclenchement de 1kHz à 750 Hz, soit à stocker les données prises et les traiter et analyser avec retard, pendant le prochain long arrêt du LHC. Mais ces deux solutions auraient un impact très négatif sur le programme de physique, et les sujets de thèse accessibles aux étudiants notamment.

La seule solution viable envisagée serait de réduire la quantité d’événements simulés d’environ 20%, avec un impact très négatif sur la précision des résultats de physique produits.

Dans les faits

Fin 2016, grâce à l’effort énorme fourni par les agences de financement, en particulier l’IN2P3 (qui a augmenté le budget 2017 de LCG de 11%) et l’IRFU, le déficit en ressource pour ATLAS en 2017 est de 15% pour le CPU, 5% pour le disque et 5% pour les bandes.

Plus précisément, le choix a été de privilégier le stockage au détriment du CPU, afin de pouvoir stocker de façon optimale les données produites par toutes les sources possibles de CPU, y compris provenant des sites très modestes en taille, ainsi que des ressources de calcul opportunistes (hpc, nuage, calcul ‘volontaire’).

ATLAS poursuit en parallèle les efforts pour optimiser l’utilisation de ses ressources, comme utiliser encore plus le stockage sur bande, effectuer les campagnes de retraitement des données depuis les bandes, et réduire la quantité d’informations stockée pour chaque événement.

Le futur proche

Une fois encore, grâce aux efforts des instituts, et en particulier de l’IN2P3 et de l’IRFU, les expériences LHC comme ATLAS devraient pouvoir, malgré des ressources inférieures aux besoins, réaliser leur programme de physique en 2017.

L’année 2018 devrait voir un fonctionnement du LHC stable, ce qui peut laisser présager des demandes de ressources abordables, mais à évaluer avec soin.

Le problème va devenir beaucoup plus critique pour le Run-3 du LHC en 2021, et encore plus pour la phase à haute luminosité HL-LHC. L’année 2017 a montré les limites du modèle à budget constant, qui doit certainement être revisité pour le futur du LHC.

Luc POGGIOLI (LAL)