n°35
Novembre
2016
Plan de gestion de données, contraintes supplémentaires ou réelle opportunité ? Quels enjeux ?

L’ouverture et l’accès aux données de la recherche font l’objet d’attention croissante depuis le début des années 2000 de la part de toutes les parties prenantes : l’OCDE, l’UNESCO, les agences de financement, les universités, les organismes de recherches et même certains éditeurs.

Corollaire de ce mouvement, le Plan de Gestion de Données (PGD), ou « Data Management Plan » en anglais, est l’outil proposé dans la cadre de différents programmes (Horizon 2020 de la commission européenne, NSF, NASA aux USA par exemple) et par les agences de financement de différents pays tels que les Pays-Bas ou le Royaume Uni, pour formaliser la gestion des données d’un projet, pendant et après le projet, et par conséquent établir formellement la façon dont les données sont ou seront accessibles et par qui. Le Plan de Gestion de Données est un document formalisé dont l’ébauche ou la première version, est à fournir lors du dépôt de la proposition de projet et qui est pris en compte dans l’évaluation de cette dernière. Livrable du projet, il devra également être mis à jour à des dates précises au cours du déroulement du projet. Ces caractéristiques, ajoutées au fait que l’exercice est nouveau, mettent l’accent sur l’aspect formel et sur les conséquences potentiellement néfastes d’un document inadéquat. Ceci explique le foisonnement, et le succès, des formations au PGD qu’elles soient organisées par nos organismes et réseaux métiers sous forme de guides, tutoriaux, journées de sensibilisation ou au niveau européen, par certains projets comme EUDAT et OpenAIre par exemple. Certaines d’entre elles, aujourd’hui consultables en ligne, sont citées plus bas [1] [2] [3] [4] [5] [6] [7].

L’enjeu est important pour le succès des projets. Il est donc nécessaire de bien comprendre, ce qu’est un PGD et comment bien le rédiger, en utilisant les modèles appropriés au contexte du projet et en suivant les recommandations. Dans le cadre du programme Horizon 2020, par exemple, la commission européenne préconise l’utilisation de l’outil développé par le Digital Curation Centre au Royaume Uni.

Mais le PGD est bien plus qu’un document nécessaire au financement d’un projet. Ni « technique », ni informatique, c’est avant tout une feuille de route, en ajustement constant qui explicite concrètement sous forme d’objectifs et d’actions la politique d’ouverture des données du projet. Au cours du temps, plusieurs projets associés à des sources de financements différentes peuvent se succéder pour un même programme de recherche ou expérience. Le Plan de Gestion de Données de chaque projet est alors une brique dans la politique de données de ce programme. Au fil des financements et des plans successifs, l’équipe va concrétiser la politique des données, en procédant à des choix stratégiques, planifiant et optimisant les ressources en vue des objectifs du programme de recherche. Le chercheur ou l’équipe responsable des données pourra s‘appuyer sur des experts de différents métiers : des informaticiens pour les aspects infrastructures (stockage, sécurisation et coûts associés…), des spécialistes de l’IST pour les standards, les alignements avec les référentiels existants ou encore des archivistes pour le choix des données à conserver. Un autre point important est que certains programmes comme Horizon 2020 permettent le financement des actions du PGD du projet pendant le projet.

Certaines communautés scientifiques, de la physique ou du spatial par exemple, organisées de longue date, souvent en large collaborations internationales adressent ces questions depuis longtemps. Leur pratique de la gestion des données accompagne tout le cycle de vie des données, intègre l’ouverture des données en fonction des publics ciblés par les différents objectifs (recherche complémentaire, reproductibilité, enseignement, vulgarisation…) et s’étend aujourd’hui à la préservation à long terme. Ces communautés ont adopté des politiques de données ; elles ont acquis une grande expérience pratique dans le domaine et sont à l’avant-garde dans la réflexion sur les étapes suivantes. Les travaux de CMS sur le sujet et sa politique de données sont un bon exemple de ce qui peut être fait [8]. Leurs préoccupations actuelles portent sur la préservation de la connaissance, du logiciel, de l’utilisabilité et le long terme. On peut citer aussi l’exemple de la collaboration Zeus qui a fonctionné dans les années 1990 auprès de l’accélérateur Hera à Desy et qui a mis en place un Plan de Gestion des Données incluant la préservation et l’accès aux données après la fin du fonctionnement de l’expérience [9]. Grâce à cela, la collaboration continue à utiliser les données préservées et le bénéfice scientifique est loin d’être négligeable.

Dans d’autres disciplines, le travail est organisé bien différemment : les équipes sont composées de quelques personnes, les données sont stockées localement, sur le poste de travail, un disque dur ou le serveur du laboratoire ; bien connues du chercheur, ces données sont de fait peu documentées, peu organisées et rarement diffusées au-delà de l’équipe qui les a collectées ou produites. Après publication des résultats, elles peuvent même être « oubliées ». De nombreuses équipes sont maintenant confrontées à un bouleversement de leurs pratiques pour s’adapter aux conditions actuelles de financement des projets et leurs questionnements sont nombreux pour bien comprendre ce que peut apporter l’ouverture des données poussée par les organismes publics de financement et le mouvement « Open Data ».

Pour aller plus loin, le Groupe d’Intérêt « Active Data Management Plans » [10] de la Research Data Alliance [11] travaille au perfectionnement des Plans de Gestion de Données. Il regroupe des personnes de profils très différents et complémentaires : des spécialistes de l’IST, de la préservation des données, de l’Open Data, des bibliothécaires, des scientifiques de communautés larges (physique, Elixir, sciences sociales), des représentant de financeurs, des informaticiens, des spécialistes de la gestion des données. Les discussions lors du workshop organisé au CERN en juin dernier [12] ont été très riches et de nombreuses idées émises et discutées.

Le groupe cherche à rendre plus évolutifs les PGD et à permettre leur suivi. En effet, on constate qu’en pratique, il y a peu de suivi des plans (au sens suivi de la réalisation des actions décrites dans les plans) et que les PGD ne sont pas toujours réalisés dans l’objectif de vraiment permettre l’exploitation des données à court et long terme. Les financeurs ne s’en servent pas pour évaluer les projets. Pourtant, il est important de mettre en œuvre les plans, de les suivre, d’adapter continuellement cette feuille de route : l’objectif de l’Open Data ne sera atteint que si les actions décrites dans les plans sont effectivement réalisées. Par ailleurs, la reproductibilité fait partie des objectifs des PGD mais on ne peut pas tout rendre reproductible et il y a des problématiques de coûts (non financés actuellement) pour cette reproductibilité. Enfin, à la fin du projet, les financements manquent aussi souvent pour poursuivre ces actions, il faut trouver des solutions.

Certains ont donc émis l’idée de "cloud coins" qui permettraient d’attribuer des budgets (les « coins ») aux projets dont les PGD auraient été validés par les financeurs pour payer des services de "cloud providers" et de "data centers" de façon à assurer la pérennité des données du projet et la reproductibilité des résultats.

D’autres ont identifié des limitations et des manques dans les PGD actuels. Par exemple, il serait intéressant de permettre plus facilement l’utilisation des données ouvertes et des réflexions sont en cours sur des plans utilisables de façon automatique (« actionable DMP »).

Beaucoup d’autres sujets ont été abordés lors de ce workshop comme les politiques de données (qui ne sont pas des PGD à proprement parler) que doivent mettre en place les grands instruments, les fournisseurs de service du type d’un synchrotron par exemple ; la difficulté de se conformer à certaines préconisations du « FAIR » ; le fait que personne ne peut prédire l’avenir et savoir vraiment où est la valeur des données ou encore le constat que l’Open Data est un bon moteur pour la pérennité des données parce qu’il aide à bien conserver tous les paramètres de la capture des données y compris ceux qui sont évidents et implicites à ce moment-là.

A l’IN2P3, des initiatives et travaux existent. Le Centre de Calcul met en place un questionnaire à destination de ses utilisateurs pour les aider à planifier la gestion de leurs données au centre. Volker Beckmann, le DAS calcul & données mène une campagne de sensibilisation à la gestion des données.

Le chemin est encore long mais que de perspectives nouvelles !

Geneviève ROMIER (IDGC)

[1] Réaliser un plan de gestion de données de la recherche - Data management Plan (DMP), guide de rédaction de l’université Diderot

[2] Deboin, M.C. 2014. Découvrir des plans de gestion de données de la recherche, en 4 points. Montpellier (FRA) : CIRAD, 6 p.

[3] Tutoriaux de l’INIST

[4] Journées de sensibilisation : RBDD, Humanités numériques et données ouvertes.

[5] Actions Nationales de Formation : rBDD, RENATIS

[6] Webinars EUDAT-OpenAire

[7] Guidelines on FAIR Data Management in Horizon 2020 - Europa.eu

[8] Présentation CMS en juin 2016 au workshop du groupe de travail ADMP de la RDA

[9] Présentation Zeus en juin 2016 au workshop du groupe de travail ADMP de la RDA

[10] Groupe ADMP de la RDA

[11] La RDA, Françoise Genova aux JDEV 2015

[12] Workshop du groupe de travail ADMP de la RDA au CERN