- Qu’est-ce que le projet LSST ?
Le projet LSST (Large Synoptic Survey Telescope) va consister à effectuer un relevé aussi précis et étendu que possible des objets célestes du ciel austral à l’aide d’un télescope terrestre disposant d’un miroir de plus de 8m de diamètre et d’une caméra à très grand champ (3.2 milliards de pixels). Ce relevé va s’effectuer sur une période de 10 ans à partir de 2022 et avec une cadence extrêmement rapide, de façon à pouvoir ré-observer régulièrement les mêmes portions du ciel. Au cours des 10 ans du projet, c’est donc un véritable film que l’on réalise permettant de repérer et de mesurer des phénomènes transitoires tels que l’explosion de supernovæ et de détecter des objets de plus en plus faibles en accumulant les images des mêmes régions.
Les débouchés scientifiques du LSST sont multiples : ils couvrent aussi bien l’étude de corps célestes proches comme les astéroïdes géocroiseurs que celle des objets les plus lointains de l’univers comme les supernovae ou les quasars. Les équipes de l’IN2P3 s’intéressent, quant à elles, aux mesures des paramètres cosmologiques, notamment l’énergie noire qui tend à accélérer l’expansion de l’univers et dont la nature échappe encore à notre compréhension.
En raison de son implication forte dès la genèse du projet, l’IN2P3 est un partenaire privilégié de LSST qui, outre la préparation de la science, intervient au niveau de la construction de la caméra (capteurs CCD, électronique, système de changeur de filtre et logiciels de contrôle) et du traitement des données. Au mois de mars dernier, deux accords ont été signés par le projet et la direction de l’IN2P3 afin de formaliser ces engagements techniques. En retour, la France dispose de droits d’accès aux données qui permettent à toute notre communauté d’exploiter scientifiquement ce fantastique instrument.
- Quel est le rôle du CC-IN2P3 dans le projet ?
L’un des deux accords signés en mars formalise une collaboration entre le CC-IN2P3 et le National Center for Supercomputing Application (NCSA) pour la production des catalogues de LSST. Chaque centre traitera 50% des données qui seront ensuite échangées afin de disposer de deux jeux complets de données en France et aux États-Unis auxquels s’ajoutera une troisième copie au Chili près du site du télescope.
Chaque nuit, ce sont 15 To de données brutes qui seront acquises par l’instrument. Au bout de 10 ans, l’ensemble des traitements logiciels aura produit 500 Po et les catalogues exploitables pour la science seront indexés dans une base de données distribuée contenant des dizaines de milliers de milliards d’entrées. Au-delà de la volumétrie, qui est certes importante mais pas démesurée vu les échelles de temps considérées, c’est bien la complexité de l’indexation et les performances en termes de taux d’entrées/sorties qui placent sans conteste ce projet dans la catégorie "big data". Les chercheurs en informatique ne s’y sont d’ailleurs pas trompés puisque LSST sert de cas d’utilisation pour le projet pluridisciplinaire PetaSky soutenu par le CNRS dans le cadre du défi "Grandes masses de données scientifiques" MASTODONS.
- De quelles ressources dispose le CC-IN2P3 pour ce projet ?
Outre les ressources mutualisées du CC-IN2P3, LSST bénéficie d’un cluster dédié de 50 machines disposant de 400 To de stockage utilisable, mis à disposition par la société DELL dans le cadre d’un accord de partenariat avec le Centre de Calcul. Ces machines constituent une plateforme de test pour le système de base de données distribué Qserv développé au SLAC pour LSST. L’idée est de pouvoir tester en vraie grandeur cet élément clé du projet en s’assurant qu’il peut passer à l’échelle et garantir des temps de réponse acceptables sur des requêtes SQL complexes correspondant aux besoins scientifiques.
Par ailleurs, plusieurs activités se développent au Centre de Calcul pour mettre en place des outils modernes de distribution du code, tester de nouveaux systèmes issus des technologies du cloud computing et développer des outils de traçage des entrées/sorties associés aux logiciels de traitement des images.
Enfin, le CC-IN2P3 s’organise aussi au niveau humain de façon à mettre en place toute l’organisation nécessaire à la réussite de cet ambitieux projet. C’est notamment Fabio Hernandez, assisté d’Yvan Calas, qui est chargé du pilotage du projet au Centre de Calcul.
- La prochaine étape ?
Après une première réunion très productive avec le NCSA, il faut maintenant démarrer le travail conjoint entre les deux centres pour définir un plan de travail aussi précis que possible en vue d’arriver à la mise en place du système de production distribué sur les deux sites. Cela passera forcément par une phase de R&D afin d’évaluer les diverses options qui se présenteront. Gageons que ceci aura un impact plus large que le projet LSST et rejaillira sur la qualité de l’ensemble des services proposés par le CC-IN2P3.
Le travail de validation des logiciels de LSST est également un sujet très important qui est en train se développer ; il consiste à soumettre les algorithmes existants à l’épreuve des données de projets précurseurs tels que le CFHT-LS ou Suprime-Cam et à en développer de nouveaux. Avec cette activité, c’est réellement le pont entre la science et l’informatique de LSST qui est en train de se construire.
Propos reccueillis par Gaëlle SHIFRIN