Gestion des données

Introduction

La gestion de la donnée du RZA repose sur la Politique des données du CNRS E&E définissant les principes généraux d’utilisation, de stockage, de diffusion et de réutilisation des données.

Cette gestion prend en compte le cycle de vie complets des données depuis leur création jusqu’à leur réutilisation.

Cycle de vie de la donnée, source : inist.fr

Elle s’inscrit également dans la feuille de route nationale des Infrastructures de recherche et européenne (eLTER) et relève du Groupe de travail « Données et Science ouverte ».

Ce groupe de travail créé en 2021, prend la suite du projet inter-ZA BED « Bancariser Ensemble des Données » lancé en 2017. Il vise à accompagner les Zones ateliers dans la production de données FAIR (Findable, Accessible, Interoperable, Reusable) dans :

l’acquisition et la production de données tant pour les sciences de l’environnement que pour les sciences humaines et sociales
le développement de solutions techniques originales pour la gestion des échantillons et des données
la mise en accessibilité des données
l’interopérabilité
la réutilisation des données produites par le réseau.

Aujourd’hui, une dizaine de personnes chercheurs et data scientist réparties dans toutes les Zones Ateliers contribuent à ce projet. N’hésitez pas à prendre part à ce projet en vous abonnant à la liste de diffusion!

Interactions du GT Données et Science ouverte :

Le RZA intéragit avec:

les différentes Zones Ateliers : pour traduire les approches nationales et européennes (outils, partage de bonnes pratiques, guides utilisateurs, actions fédératrices et formation)
DoNhEE: pour des aspects de formation et des actions de maintenance des serveurs à l’IN2P3
le Pôle National des Données de la Biodiversité (PNDB), l’IR Ozcar (OZCAR), le Pôle THEIA, le Pôle “DataTerra” et le projet Terra Forma
le CNRS E&E : pour assurer la veille sur les expériences de gestion de données et la mise en cohérence des outils et pratiques
les réseaux sur les données du monde académique (RBDD, RDA-France, SIST,) : action de veille et partage d’expérience

Recommandations aux producteurs de données

Le RZA conseille aux producteurs de donnés :

d’élaborer à l‘échelle de leur projet et dès le lancement un Plan de Gestion de la Donnée. L’outil DMP-OPIDOR assiste dans cette démarche, avec des indications à chaque étape.
de produire des fiches de métadonnées et à procéder à la DOI-isation des jeux de données en attribuant un identifiant unique aux jeux de données, via le dépôt des jeux de données dans des entrepôts sécurisés. L’outil Geoflow (open source, développé par E. Blondel) et data2geo (open source, dévéloppés par I. Charpentier) sont recommandés pour faciliter la réactualisation des informations sur certains jeux de données (séries longues).
de structurer les données en conformité avec les principes FAIR.
de publier leurs données dans un entrepôt de données préférentiellement institutionnel sécurisé, voire certifié, tel que InDoRES (CNRS E&E), et Nakala (TGIR Huma-Num) pour les données spécifiques Sciences Humaines et Sociales
d’anticiper les conditions juridiques d’utilisation des données après la fin du projet de recherche en choisissant des licences explicitant les droits attachés aux données (Etalab ou CC BY par exemple).
de discuter de toute question légale ou éthique particulière avec le Délégué à la Protection des Données (DPD) de l’établissement employeur.

InDoRES :

Pour déposer des données dans un autre entrepôt, l’entrepôt à privilégier pour les données du RZA est DataInDoRES : Inventaire des Données de la recherche en Environnement et Sociétés. Ce service est mis à disposition par le CNRS E&E et géré par DoHNEE.

Un sous-espace dédié aux données du RZA y a été créé : https://data.indores.fr/dataverse/RZA. Ce portail permet de découvrir les bases et jeux de données par projets, de déposer les données dans un entrepôt sécurisé. Vous y trouverez également des ressources sur les pratiques qui facilitent le partage et la réutilisation des données.

Formulaire de contact pour la création de compte et codes d’accès d’InDoRES

Nakala :

Nakala est un service de l’IR Huma-Num permettant de partager, publier et valoriser tous types de données numériques documentées (fichiers textes, sons, images, vidéos, objets 3D, etc.) dans un entrepôt sécurisé afin de les publier en accord avec les principes du FAIR

Il propose également un dispositif d’exposition des métadonnées qui permet leur référencement par des moteurs de recherche spécialisés comme ISIDORE.

Nakala s’inscrit dans un dispositif cohérent de services mis en place par Huma-Num pour faciliter l’accès, le signalement, la conservation et l’archivage à long terme des données de la recherche en SHS.

Vocabulaire contrôlé :

Lors de la production des fiches de métadonnées et du choix des noms des variables (dictionnaire de données), nous invitons à privilégier le thésaurus EnvThes du réseau eLTER. Les autres thésaurus à privilégier sont : LOTERRE Biodiversité, THEIA/OZCAR, GEMET et AGROVOC

Personnes contacts :

Isabelle Charpentier, Cécile Pignol