Infrastructure
Contexte
Le projet COLOSS, visant à moderniser la plateforme de gestion de journaux [1] du CC-IN2P3, est entré progressivement en production depuis le début de l’année 2016. La plateforme gère tous les jours plus d’un milliard d’événements, dont 10% sont stockés sur disque pendant un an. La provenance des informations est très variée :
Journaux du système d’exploitation Messages applicatifs Événements d’appareillages d’infrastructure (climatiseurs, onduleurs, etc.) Mesures de performance des serveurs (cpu, mémoire, réseau, etc.) Comptabilité des "jobs" exécutés sur la ferme de calcul
Le système permet aux administrateurs et exploitants de services du CC-IN2P3 d’injecter leurs données d’exploitation et de les consulter par la suite. Deux interfaces utilisateur sont mises à disposition à cet effet. La première permet l’analyse instantanée du flux d’événements via un système d’abonnement synchrone. Elle est utilisée notamment pour la remontée d’alertes et le suivi en temps réel des conséquences d’une intervention. Sa faible latence (au plus (...) lire la suite
|
Développement
Il n’y a plus de ”Free Lunch” possible : la loi de Moore [1] n’est plus aussi aisée à mettre en œuvre que par le passé. Les développeurs de logiciels, ainsi que les scientifiques, doivent maintenant se familiariser avec la loi d’Amdahl [2]. En effet, la fréquence d’horloge des processeurs n’augmente plus avec chaque nouvelle génération : les processeurs gagnent de plus en plus de cœurs, mais sans changer la fréquence par rapport à la génération précédente.
L’augmentation du nombre de cœurs appelle à une utilisation plus répandue du parallélisme dans les logiciels développés par les communautés HEP et Astro. Traditionnellement, le parallélisme a été exploité au niveau du traitement des événements dans les logiciels de reconstruction et de simulation des expériences de physique des particules : il suffit de lancer N jobs sur les fermes de calcul, la Grille ou un cloud. Plusieurs événements peuvent être traités en parallèle, même si les algorithmes de reconstruction sont toujours appliqués de manière séquentielle à chacun de ces événements.
Cependant, chaque nœud de calcul (...) lire la suite
|
Gestion de données
ATLAS et CMS, expériences phare au CERN, ont lancé un projet commun pour le développement d’une infrastructure de gestion de données de type Conditions de nouvelle génération. Au cœur de cette infrastructure, la « Conditions DB » est une base de données qui enregistre en continu l’état du détecteur et de tous les appareillages de l’expérience (déclenchement, alignement…) pendant la prise de données. Ces Conditions Data doivent ensuite pouvoir être lues de façon très efficace et en parallèle par les dizaines de milliers de jobs simultanés de la phase de reconstruction des évènements, puis des programmes d’analyse un peu partout dans le monde.
Les expériences LHC ont terminé en 2013 la première phase de prise de données (Run1). Celle-ci a permis entre autres la découverte du boson de Higgs. Pour obtenir ce résultat, les expériences ATLAS et CMS ont analysé dans un environnement de calcul distribué des centaines de Pétaoctets de données de Physique (ou Event Data). En complément, d’autres données, que nous appelons Conditions Data (faute de trouver un terme adéquat en français), (...) lire la suite
|
Infrastructure
Les infrastructures de « cloud » de type « Infrastructure as a Service » (IaaS) s’adressent aux développeurs et aux applications métiers. Elles connaissent un grand succès grâce à leur flexibilité permettant l’utilisation de ressources à la demande. Mais les utilisateurs, et les développeurs eux-mêmes, peuvent parfois avoir du mal à maîtriser la gestion d’applications et de services sur une telle infrastructure, dont les outils sont traditionnellement entre les mains des administrateurs « système et réseau ».
Ce problème devient d’autant plus ardu que les applications et leurs déploiements se complexifient, se diversifient, en nécessitant, aujourd’hui, l’utilisation non plus d’un seul cloud, mais plusieurs clouds simultanément. Ce choix du « multi cloud » est motivé par un souci de proposer une meilleure résilience, de meilleurs temps de réponse, des politiques spécifiques de placement ou d’ordonnancement de calcul ou de données, ou encore, de réduire les coûts.
Le projet européen CYCLONE, démarré en (...) lire la suite
|