Le document « Scientific Data Preservation 2014 » disponible sur http://predon.org (version papier sur demande, dans la limite des stocks).
Les données scientifiques, dont la croissance quantitative est illustrée en figure 1, sont produites avec des investissements humain et financier importants et sont de plus en plus complexes, souvent uniques et avec un potentiel qui dépasse le périmètre de recherche initial. Par conséquent, la préservation de ces données à long terme peut conduire à une augmentation significative du retour sur l’investissement ainsi qu’à la mise en place de nouvelles opportunités scientifiques à bas coût à travers la réutilisation de ces données.
Du point de vue technologique, la conservation des données scientifiques pose un problème nouveau car il n’existe pas de système standardisé capable de pérenniser un ensemble complexe de données, logiciels et métadonnées. En plus, la démarche ne se résume pas à son coté technologique : une méthodologie cohérente doit accompagner tout le processus depuis l’acquisition jusqu’au stockage à long terme, en passant par l’exploitation intensive et par la mise à disposition adéquate aux buts scientifiques.
Les aspects technologique et organisationnel de la préservation de données sont très similaires dans plusieurs domaines scientifiques. En effet, la croissance des données scientifiques n’est qu’un aspect de l’explosion des données digitales, un phénomène connu sous le nom de « big data ». L’augmentation de la quantité des données est assortie de la capacité croissante à effectuer des croisements, à sonder et à reclasser les données pour extraire des connaissances nouvelles. Les « observatoires de données » conduisent à une méthode de recherche basée sur l’utilisation massive des données, appelée aussi le « quatrième paradigme scientifique » (après les méthodes empirique, théorique et computationelle), un concept introduit par Jim Gray (Microsoft).
Afin de répondre à ce nouveau défi scientifique, la Mission Interdisciplinarité du CNRS a lancé en 2012 le programme MASTODONS, afin de stimuler la coopération des différentes disciplines autour du concept « big data ». Suivant l’initiative d’un petit groupe constitué de chercheurs de l’IN2P3, le projet PREDON a été inclus dans le plan de travail du défi MASTODONS avec la mission de fédérer les initiatives au niveau national dans le domaine de la préservation des données scientifiques. Le projet propose une approche nouvelle basée sur les capacités scientifique, technique et organisationnelle d’unités de recherche, collaborations internationales et grands centres de calcul. Le groupe PREDON est en liaison étroite avec des initiatives similaires au niveau national et international, notamment avec le panel de l’ICFA pour la préservation des données dans la physique des hautes énergies (DPHEP).
Le groupe de travail PREDON a produit récemment un document de synthèse (« Scientific Data Preservation 2014 ») qui résume les contributions des participants aux ateliers de travail. Le document est structuré en trois parties qui reflètent les aspects complémentaires de la préservation des données scientifiques : potentiel scientifique, méthodologie et technologies.
Pour en savoir plus :
Préservation des donnés scientifiques PREDON
Data Preservation in High Energy Physics DPHEP
Défi « big data » de la mission interdisciplinarité du CNRS, MASTODONS

Figure 1. Illustration de l’augmentation exponentielle du volume des données correspondant aux programmes de physique des hautes énergies : un facteur 100 environ tous les 10 ans.
Cristinel DIACONU (CPPM)