n°8
Octobre
2009
Astroparticule : vers une évolution des infrastructures de calcul
Satellite Planck / copyright CNES © 2008

En raison de sa diversité, le calcul en astroparticule présente quelques spécificités. La nature des données à étudier est très variée en fonction des projets. Les traitements peuvent être effectués à partir de données temporelles (Virgo, Lisa-Pathfinder…)., ou bien à partir de cartes du ciel (Planck,..). Les outils et logiciels d’analyse de données sont alors très différents. Mais l’ensemble de ces expériences nécessitent des simulations de plus en plus lourdes car les détecteurs sont de plus en plus complexes.

Les expériences telles que la physique des rayons cosmiques de hautes ou d’ultra-hautes énergies (Auger, Auger Nord, EUSO..), la cosmologie (Planck), la recherche d’ondes gravitationnelles (LISA, Virgo,...), ou encore l’astronomie gamma (HESS, Cherenkov Telescope Array) produisent de plus en plus de données. Les projets astroparticules tels que le projet LSST (Large Synoptic Survey Telescope), confirme ce besoin croissant. Nous arrivons en astroparticule à des problématiques en terme de besoin de calcul et de volume de stockage proches de celles des expériences de physique des particules.

Par exemple, en ce qui concerne la mission spatiale Planck dont le satellite a été lancé au mois de mai 2009, les simulations demandent un accès performant en lecture/écriture sur les disques. Le système de fichiers choisi de type distribué (gpfs) peut supporter une utilisation intensive dans un environnement haut débit et à haute performance et permet d’obtenir des débits proches de 500 Mo/s pour plusieurs dizaines de tâches parallèles. La mémoire utilisée par ces tâches peut atteindre 10 Go de RAM. 

L’utilisation des environnements de calcul parallèle (MPI Message passing interface) ou PVM (Parallel Virtual Machine) à mémoire partagée permet de répondre à cette contrainte. La volumétrie des données brutes pourrait atteindre une dizaine de téra-octets. Néanmoins, la quantité des données à stocker après simulation augmente cette volumétrie d’un facteur 100 et incite à utiliser des solutions de stockages pérennes.

Un autre exemple démontrant les besoins croissants en processeurs de calcul et en stockage des applications astroparticules est le projet LSST. Il s’agit d’un projet de télescope de 8,4 m de diamètre, qui devrait prendre ses premières images scientifiques en 2016. Il sera implanté au Chili et possédera une mosaïque de 200 CCD 4k x 4k, totalisant 3,2 milliards de pixels, lui donnant un champ de vue de dix degrés carrés.

À raison d’une pose toutes les quinze secondes, le LSST devrait couvrir en trois jours l’ensemble du ciel visible du Chili. La quantité de données produites annoncée est entre 15 à 30 To par jour et le volume de la base de données aura une taille sans précédent en astronomie. Les traitements d’images massivement parallèles seront les principaux besoins en calcul. Le système de fichiers devra permettre d’accéder aux données brutes et d’analyser ces données à l’échelle du péta-octet. Indépendamment du choix du système de fichiers, se rajoute la problématique du choix du système de base de données le plus adapté à cette volumétrie.

D’une façon générale, l’ensemble des données telles que les données d’étalonnage, les réponses instrumentales, celles issues de l’analyse standard et les logiciels d’analyse associés nécessaires à l’exploitation scientifique sont archivées et mise à la disposition de la communauté scientifique. Elles doivent être disponibles bien après la fin de la mission ou du projet. Cette contrainte implique de maîtriser des systèmes d’archivages hybrides sur bandes et sur disques pour la gestion de très grosse volumétrie. De plus, il est nécessaire d’assurer la sécurité de ces données et d’en gérer la distribution en tenant compte de leurs caractères privé/publique selon les règles de distribution propre à chaque mission et expérience. Leur stockage et leurs distribution sont d’autant plus importantes qu’ils permettent par exemple de procéder à des analyses corrélatives entre les différentes données des observatoires au sol (Virgo) et en vol (Swift/GLAST).

Les infrastructures de calcul sur architecture distribuée de type grille de calcul (AUGER, virgo, CTA…) et parallèle (Planck HFI..) répondent à ce besoin croissant. Elles s’appuient sur un réseau dont les performances sont devenus indispensables à la stabilité des systèmes. Le choix de ce type d’infrastructure de calcul pour répondre aux besoins des applications astroparticules et des projets spatiaux annonce le déploiement de réseau optique dédié de haute performance pour les laboratoires qui hébergeront des nœuds de calcul ou de stockage.

Michèle DETOURNAY

Un peu de lecture

Gazette du CINES

Appel à propositions

Programme ARTS
Rechercher
     

Responsables éditoriaux : Dominique Boutigny et Cristinel Diaconu
Comité de rédaction : Virginie Dutruel, Sébastien Grégoire, Eric Legay et Gaëlle Shifrin

logo CCIN2P3
© CCIN2P3