n°25
Octobre
2013
Le système de traitement de données de LSST mis à l’épreuve durant l’été
Association des bases de données déployées dans Qserv avec des portions de la sphère céleste selon un pavage en géométrie sphérique. Chaque zone recouvre légèrement ses voisines afin d’optimiser les recherches sur les objets proches des limites des pavés.

Le Large Synoptic Survey Telescope (LSST) qui va être mis en service à la fin de la décennie va fournir une cartographie spatiale et temporelle de l’univers visible d’une précision et d’une exhaustivité sans précédent. Équipé d’un miroir primaire de 8,40m de diamètre et d’une caméra comptant 3.2 milliards de pixel couvrant un champ de vue instantané de 9 degré2, LSST va photographier systématiquement près de la moitié du ciel (soit environ 20 000 degré2) durant dix ans. Chaque zone du ciel correspondant au champ de la caméra sera photographiée à travers 6 filtres passe-bandes (u, g, r, i, z, y) à raison d’une paire d’images toutes les 40 secondes. Les champs d’application du LSST sont extrêmement larges et couvrent de nombreux domaines de l’astrophysique et de la cosmologie : le système solaire, la physique stellaire et la structure de la voie lactée, la formation et l’évolution des galaxies et la cosmologie. En ce qui concerne les thématiques développées à l’IN2P3, cet instrument fournira une cartographie en 3 dimensions des objets dans l’univers, dont l’étude des propriétés statistiques permettra de contraindre les modèles cosmologiques et l’énergie noire en particulier. La mesure de la 3ème dimension s’effectuera grâce à l’estimation du décalage vers le rouge (z) des objets les plus lointains par une méthode photométrique.

Sur le plan de la gestion et du traitement des données, LSST va produire chaque nuit de l’ordre de 15To de données brutes qui seront traitées pour moitié au National Center for Supercomputing Application (NCSA) dans l’Illinois et pour moitié au CC-IN2P3 afin de constituer un catalogue d’objets cosmiques. Chaque portion du ciel étant imagée environ 1000 fois au cours des 10 ans d’existence du projet, les logiciels de traitement permettront de co-additionner les images se recouvrant, révélant ainsi des objets de plus en plus faibles et donc de plus en plus éloignés. Cette particularité fait que chaque année, il sera nécessaire de reprendre l’intégralité du traitement des images afin de procéder à cette co-addition. Après 10 ans, la limite de détection atteindra la magnitude 27 correspondant à des objets une centaine de milliards de fois moins lumineux que les principales étoiles du ciel nocturne (Sirius, Bételgeuse …). Les catalogues ainsi enrichis chaque année comprendront finalement de l’ordre d’un milliard d’objets, soit une quarantaine de galaxies par minute d’arc.

Ces catalogues seront disponibles sous la forme d’un système de base de données interrogeable via des commandes SQL. À la fin du projet, le système de base de données atteindra une volumétrie de 34 Po et certaines tables compteront 9000 milliards d’entrées. Cette volumétrie et la contrainte de pouvoir interroger la base en un temps raisonnable a conduit la collaboration à développer Qserv, un système original de bases de données distribuées sur un grand nombre de nœuds, chaque nœud étant associé à une région du ciel selon un pavage sphérique.

La complexité du système de traitement et de gestion des données découle essentiellement du volume de celles-ci et nécessite un programme de tests intensifs et réguliers afin de s’assurer que le système sera capable de faire face au flot de données le moment venu. Cette année, le CC-IN2P3 est intervenu dans ces tests à deux niveaux : Un « data challenge » ou « mise en situation » mettant à l’épreuve le partage du traitement des données entre le NCSA et le CC-IN2P3 et la mise à disposition d’une plateforme matérielle afin de tester la capacité de passage à l’échelle du système Qserv.

Le « data challenge »

En physique des particules, la spécificité des détecteurs fait que les « data challenges » portent la plupart du temps sur un lot de données simulées. La situation est différente pour LSST, car bien que le télescope et la caméra soient tout à fait innovants et sans comparaison en terme de sensibilité et de rapidité par rapport aux précédentes générations d’instruments (SDSS, CFHTLS, DES), des images de relevés photométriques profonds du ciel sont disponibles. La collaboration LSST a donc choisi de tester ses algorithmes et son système de gestion de données sur un lot d’images acquises par le Sloan Digital Sky Survey (SDSS) entre 2005 et 2007 (Stripe 82). En plus de tester la capacité opérationnelle des deux centres de calcul, ce choix permet également de comparer la qualité des algorithmes de LSST avec ceux de SDSS. Les données produites lors du « Data Challenge » ont donc une valeur scientifique en tant que telle.

Les données du Stripe 82 ont été affectées au NCSA et au CC-IN2P3 suivant deux lots de tailles identiques et se recouvrant partiellement afin de s’assurer de la cohérence des résultats entre les deux sites. Le lot de données alloué au CC-IN2P3 représentait 4.8 To pour 4.4 millions de fichiers. Ceux-ci ont été traités durant l’été sur la ferme Univa Grid Engine (UGE) du centre de calcul, l’ensemble du traitement nécessitant 40 000 jobs accédant à un espace disque GPFS, 100 000 heures de calcul (1 millions d’heures HS06) et produisant 19 millions de fichiers pour un total de 85 To. La mise à disposition par le CC-IN2P3 d’un serveur dédié MySQL s’est révélée être un élément crucial pour le succès de ce « Data Challenge », c’est également lui qui permettra de mettre à disposition les données produites en France et aux USA pour une validation scientifique des algorithmes de traitement d’image de LSST. Le transfert des fichiers entre les deux sites est assuré par iRODS par l’intermédiaire d’une instance unique gérée par le CC-IN2P3.

La plateforme Qserv

Comme indiqué plus haut, le système de très grandes bases de données distribuées Qserv est particulièrement innovant. Développé principalement au SLAC et à CALTECH, Qserv bénéficie d’une forte contribution de trois ingénieurs du LPC Clermont en liaison avec le projet interdisciplinaire du CNRS PetaSky qui réunit des scientifiques et des ingénieurs sur le thème du traitement de grandes masses de données. Dans ce cadre, le CC-IN2P3 a fourni une plateforme dédiée de 309 nœuds quad-core Intel Xeon L5430@2.66GHz disposant chacun de 120 Go d’espace disque. Cette configuration a notamment permis de mettre en évidence des problèmes de passages à l’échelle qui étaient passés inaperçus lors de tests précédents sur une plateforme plus restreinte. Ce type de banc de test permet également de tester en vraie grandeur les performances de requêtes complexes correspondant à des cas d’utilisation réalistes. L’implication du CC-IN2P3 a été très forte pour la mise en œuvre matérielle de la plateforme ainsi que pour l’automatisation du déploiement du logiciel Qserv.

Le « Data Challenge » et la plateforme Qserv sont des contributions majeures de l’IN2P3 au projet LSST et sont aussi les premiers jalons d’une contribution française de premier plan pour le traitement et la gestion des données du télescope lorsque celui-ci entrera en fonctionnement à la fin de la décennie.

Dominique BOUTIGNY