n°6
Mai
2009
La préservation des données dans la physique des hautes énergies.

Au cours des dernières décennies, les expériences des hautes énergies, expériences sondant la structure de la matière à de très courtes distances, sont devenues de plus en plus complexes. La durée de vie d’une expérience récente, en incluant la conception, le développement, la construction, la prise de données et l’analyse, s’étend sur plus de 20 ans. Répéter de telles expériences pour, par exemple, améliorer la précision est devenu quasiment impossible. Une partie très importante des expériences actuelles, notamment celles associées aux collisionneurs, seront en fait les dernières de ce type. Les lots de données accumulées par ces expériences sont par conséquent uniques. Ces données sont utilisées pour obtenir des résultats de physique, qui seront par la suite publiés dans des revues scientifiques. Mais que deviennent les données brutes à la fin de la collaboration ? Est-ce que l’analyse de ces données reste toujours possible, ou souhaitable, après quelques années ?

En effet, il est déjà arrivé que des améliorations dans la compréhension des fondements théoriques, la simulation ou l’avènement de nouvelles techniques d’analyse permettent de mieux analyser les "anciennes" données brutes. Récemment, un exemple très convaincant a été produit avec une nouvelle analyse des données de l’expérience JADE. La ré-analyse des données de production de jets dans des collisions électron-positron dans un domaine qui est considéré maintenant comme "basses énergies" (10-20 GeV) a conduit à la mise en évidence de la variation du couplage de la force forte et à l’amélioration de la précision de la mesure de cette constante fondamentale. Mise à part la démonstration cinglante de ce que l’amélioration de l’analyse et des fondements théoriques peuvent apporter, un autre aspect apparait clairement : les données à plus basse énergie fournissent une information précieuse, à ne pas sous-estimer. "Bigger" n’est pas "better" en absolu, mais plutôt "complementary". (Figure 1)

Etant donnée la myriade de données accumulées dans la physique des particules, a-t’on la capacité de réanalyser ces données, en supposant que l’exemple de JADE pourrait s’appliquer à d’autres cas ? La réponse est effrayante : la plupart des données anciennes sont purement et simplement perdues. Effacées, anéanties ou, dans les meilleurs des cas, enfouies dans des caves sur des cassettes préhistoriques qui ne sont plus identifiables et/ou pour lesquelles la technique de lecture a été perdue. Cela devient encore plus impressionnant quand on réalise que des expériences relativement récentes (comme par exemple celles du LEP au CERN) n’ont pas de stratégie clairement identifiée quand à la sauvegarde des données. Et en effet, certains lots de données sont perdus, ou en train de devenir inaccessibles ou impossible à interpréter pour cause de perte d’expertise dans le software.

Pourtant, l’attente des physiciens est contraire à cette situation. Dans un sondage récent mené par le groupe PARSE (http://www.parse-insight.eu/), plus de 90% des physiciens répondent que la préservation des données est importante, voir cruciale (Figure 2). Cette différence entre l’attente et la situation sur le terrain est le reflet de la non-inclusion, dans le programme scientifique des expériences, du problème de la préservation des données. La prise de conscience du rôle de la préservation n’apparaît qu’en urgence, à la fin de l’expérience, lorsque les ressources pour mettre en place un programme cohérent de préservation ne sont plus disponibles.

Si on veut avoir une chance de réussir dans cette entreprise, il convient en effet de définir précisément ce qu’on entend par préservation des données dans le domaine de la physique des hautes énergies. Il apparaît comme évident que la notion de "donnée" comprend plus que la simple suite de fichiers collectés par un détecteur. Au moins trois composantes essentielles doivent être prises en compte : la stratégie de stockage, le logiciel de lecture et d’analyse et l’ensemble des connaissances nécessaires à une interprétation correcte de ces données. Si pour le stockage et le logiciel le problème relève de l’organisation et de la cohérence du projet - problème toujours non résolu d’ailleurs- en ce qui concerne le "know how" le problème apparaît comme infiniment plus compliqué. Il y a en effet à conserver la documentation, mais aussi les méta-connaissances, c’est à dire cette partie de connaissance qui existe dans un ensemble de chercheurs sans en être pour autant formalisées ou documentées.

Il est donc grand temps de réfléchir au problème. Non seulement parce que le domaine de la physique des hautes énergies est en retard par rapport à d’autres domaines, comme la biologie ou l’astrophysique, où des centres de données existent depuis longtemps. Mais aussi parce que, pour plusieurs expériences cruciales, les analyses des données collectées auprès d’accélérateurs de particules uniques (Tevatron, PEP, HERA etc.) arrivent à terme.

Pour affiner la réflexion sur la préservation des données dans la physique des hautes énergies, un groupe d’études international a été mis en place fin 2008. Il est formé par des représentants des expériences de physique de particules : BaBar, Belle, BES-III, Cleo, CDF, DØ, H1 and ZEUS. Les centres de calcul des laboratoires associés SLAC (USA), KEK (Japan), IHEP (China), Fermilab (USA), DESY (Germany) et CERN sont également représentés. Un premier Workshop du groupe a eu lieu en janvier 2009 à DESY (Hambourg, Allemagne).

Les axes de réflexions ont été raffinés. Il s’agit tout d’abord d’identifier des cas de physique qui pourrait justifier une telle entreprise. Des exemples existent, mais il faut aller au delà et documenter une palette complète d’utilisations possibles des données préservées. Il faut ensuite proposer des modèles de préservation qui prennent en compte la collecte des informations nécessaires et leur structuration adéquate en fonction du but d’utilisation. La technologie est sans doute un facteur clé dans la préservation et des solutions techniques peuvent interférer très fortement et éventuellement définir la durée de vies des lots de données. Le modèle de migration des données doit être viable dans le contexte de l’évolution permanente du calcul : alors que le calcul sur grille semble à présent la tendance dictée par le démarrage du LHC, d’autres solutions peuvent se montrer également intéressantes, comme par exemple l’utilisation massive de la virtualisation dans le modèle de "cloud" qui offre la possibilité de s’affranchir ou au moins de réduire les difficultés liées au changement de hardware.

Il y a surtout l’organisation des expériences a très long terme, car préserver les données sans avoir une structure de supervision est vouée à l’échec, comme nous le montre les exemples du passé. C’est donc le problème de la gouvernance d’une collaboration à long terme qui doit être aussi réglé, en même temps que les aspects techniques. Au delà de la fin de vie d’une expérience, l’utilisation libre des données ("open access") n’a jamais été mise en pratique dans notre domaine, contrairement a d’autres domaines comme l’astrophysique, ou les données rejoignent très vite le domaine public. Une telle révolution dans la physique des particules ne semble pas facile à mettre en pratique, c’est pourquoi une forme de supervision adéquate, incluant un transfert d’expertise et une capacité de vérification doivent être mises en œuvre.

Le travail de réflexion ne fait que commencer. En effet un deuxième Workshop est programmé à la fin mai au SLAC. Il semble plausible que cette réflexion doit se poursuivre et que l’activité de préservation de données doit prendre une place officielle et pérenne dans les activités des centres de calcul des grands laboratoires. Cela implique aussi, en l’occurrence, des ressources supplémentaires, et plusieurs laboratoires ont déjà inclus ce projet dans leur plan de R&D. Ceci conduira à un nouveau métier "HEP Data Custodian", à la frontière entre la physique et les technologies de l’information, qui participera à l’effort de préservation digitale des connaissances.

Pour plus d’information : http://www.dphep.org

Cristinel Diaconu, CPPM