Pour toute aide concernant le choix d’un outil de gestion de vos données, n’hésitez pas à contacter l’atelier de la donnée ADOC Lorraine : donnees-recherche@univ-lorraine.fr 

Rédiger un plan de gestion de données pour un projet ou une structure

L’ensemble des tutelles du site universitaire lorrain conseille l’utilisation de DMP OPIDoR.

Produire des données

L’ensemble des tutelles conseille LimeSurvey (LimeSurvey UL, LimeSurvey Inria, LimeSurvey AgroParisTech, LimeSurvey INRAE) pour la mise en œuvre de questionnaires et le centre EXPLOR pour le calcul intensif.

Toutes les tutelles proposent en outre des plateformes scientifiques dont vous pouvez retrouver les présentations ici :

Gérer ses données

L’ensemble des tutelles conseille FileSender pour l’envoi de données volumineuses et la forge logicielle Gitlab pour la gestion des codes sources (Gitlab UL, Gitlab Inria, Gitlab INRAE).

D’autres services spécifiques sont proposés :

  • Université de Lorraine : cahier de laboratoire électronique avec eLabFTW / gestion des échantillons avec GRR / gestion des accès pour des membres extérieurs à l’Université de Lorraine avec Invités Numériques
  • INRAE : hébergement de bases de données postgresql ou mysql (https://cat.opidor.fr/index.php/BD_PostgreSQL) opéré par la DSI INRAE / hébergement de bases de données Postgresql opéré par l’unité SILVA. De nombreux autres services sont disponibles sur demande (ils nécessitent un compte INRAE), leur description étant fournie sur le portail Ariane INRAE ; notamment dans la catégorie ‘Infrastructures Informatiques Collectives’. INRAE soutient également un outil développé en interne pour la gestion d’échantillons lui aussi décrit et mobilisable depuis le portail Ariane.

Stocker ses données

  • Université de Lorraine : B’UL pour le travail collaboratif et les données de moins de 20 Go (OTELo cloud pour le pôle OTELo) / PETA pour les données de forte volumétrie.
  • Inria : MyBox pour le travail collaboratif et les données de moins de 10 Go (volume pouvant être étendu sur demande).
  • AgroParisTech : SeaFile pour le travail collaboratif et les données de moins de 100 Go.
  • CNRS : sDrive pour le travail collaboratif et les données de moins de 100 Go / ShareDocs (IR* Huma-Num ; pour le stockage et partage, travail quotidien des données ; volume jusqu’à environ 1 téraoctet de données) / Huma-Num Box (IR* Huma-Num ; pour volume important de données froides ou tièdes).
  • INRAE : des solutions de stockage de fichiers performant, de stockage capacitif, Sharepoint, Nextcloud et des Nas locaux sont proposés par la DSI INRAE.  Pour solliciter ces services ou accéder à un descriptif, il suffit d’accéder au portail Ariane, catégories ‘Espaces de données’ ou ‘Services collaboratifs’.

Publier ses données

L’ensemble des tutelles recommande le dépôt des données finalisées dans un entrepôt disciplinaire de confiance (demander conseil à l’atelier de la donnée ADOC Lorraine pour trouver l’entrepôt adapté) ; à défaut, il est recommandé de déposer dans Recherche Data Gouv (espaces institutionnels Université de Lorraine, Inria, INRAE, CNRS).

Valoriser ses données

  • Université de Lorraine : plateforme numérique CENHTOR à destination des projets de recherche en SHS. Périmètre : projets  interdisciplinaires, données de recherche, exploitation (plateforme  outillée) et valorisation des corpus et bases de données, services  d’accompagnement au dépôt et à l’éditorialisation des données, curation  des données / bases thématiques pour les autres disciplines avec le logiciel libre OMEKA S / hébergement de serveurs virtuels.
  • CNRS : l’entrepôt de données NAKALA embarque un système de publication NAKALA-PRESS permettant d’éditorialiser un site web personnalisable à partir d’une collection de données déposées dans l’entrepôt.
  • INRAE : divers services (applicatifs web, R Server …) s’appuyant sur le service de fournitures de machines virtuelles de la DSI INRAE. Par exemple l’application de modèle de bilan hydrique forestier BILJOU.

Les données de la recherche représentent l’ensemble des données (brutes ou élaborées) qui constituent le matériel primaire des activités ou d’un projet de recherche scientifique. Le caractère multiforme (sons, vidéos, lignes de code, relevés thermiques…) du matériel justifie la complexité à en donner une définition unique.

 

Néanmoins, on s’accorde généralement sur la définition la plus communément admise, celle de l’OCDE, qui décrit les données de recherche comme « des enregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider des résultats de recherche ».

 

Consultez notre vidéo et notre fiche dédiées à la définition des données.

Les données sont les fondations de la recherche scientifique et la base à l’élaboration de nouvelles hypothèses.

Ainsi, une bonne gestion permet :

  • de réduire le risque de perte et sécuriser les données avec des recommandations, des choix d’outils et d’hébergement adaptés,
  • de garantir la provenance et la traçabilité de la donnée manipulée en documentant ces étapes,
  • d’optimiser l’organisation de la masse des données produites par des bonnes pratiques.

L’objectif final est d’apporter au chercheur une approche raisonnée de ses données pour en tirer un maximum de bénéfices durant le projet mais également dans les années à venir.

 

Publier plus largement ses données permet :

  • une ré-utilisation des jeux à caractère unique de part les coûts liés à leur production,
  • une reproductibilité des recherches présentées dans les publications associées,
  • une ré-exploitation par les étudiants comme matériel didactique,
  • une émergence de nouvelles pistes de recherche pour booster l’innovation,
  • et un enrichissement du patrimoine scientifique mondial.

 

Source image : Pixabay

On mentionne souvent la gestion des données au moyen de son appellation anglophone (Research Data Management ou RDM). Elle constitue l’ensemble des bonnes pratiques concernant la planification, la collecte, le stockage, le traitement, le partage et l’archivage des données produites dans le cadre d’un projet scientifique.

 

Ces activités sont généralement représentées sous la forme d’un cycle de vie durant lequel le projet et la donnée évoluent en parallèle.

Cycle de vie des données

 

  • Créer : concevoir sa recherche, planifier la gestion des données (formats, stockages, consentement pour le partage…), localiser les données existantes, collecter les données, créer les métadonnées associées
  • Traiter : saisir, transcrire, traduire les données, les vérifier et les nettoyer les données, anonymiser les données si nécessaire, les décrire
  • Analyser : interpréter, dériver, produire des résultats de recherche, publier
  • Conserver : migrer les données vers le meilleur format et le meilleur support, sauvegarder et stocker, documenter, archiver
  • Donner accès : partager les données, contrôler les accès, établir les droits d’auteur, promouvoir les données
  • Réutiliser : évaluer la rechercher, contrôler les résultats, relancer de nouvelles recherches

Source : UK Data Archive

 

Communément, on reconnaîtra une bonne gestion des données à partir du moment où elle respecte au plus près les principes FAIR. La « Fair-isation » des données consiste à les rendre Facile à trouver, Accessibles, Interopérables et Réutilisables. Cette série de bonnes pratiques encourage à décrire les jeux de données avec des standards et des normes, à attribuer un identifiant unique, à déposer dans des entrepôts certifiés…

 

A fortiori, la bonne gestion facilite l’ouverture en interne (restreint au sein du laboratoire) ou en externe (accessibles à tous). Même si toutes les données ne peuvent pas être partagées dans certaines circonstances, leur gestion reste primordiale.

Ouvrir ses données apporte de nombreux avantages :

  • Obtenir plus de citations sur les publications liées aux données (source The citation advantage of linking publications to research data)
  • Associer votre nom aux données que vous avez produites
  • Répondre aux exigences de nombreuses revues et des financeurs
  • Élargir votre réseau professionnel
  • Bien conserver vos données et les sécuriser
  • Gagner du temps et de l’argent en réutilisant les données d’autres chercheurs ; faire gagner du temps à d’autres chercheurs
  • Contribuer à la reproductibilité des résultats de recherche
  • Œuvrer pour la transparence de la démarche scientifique
  • Anticiper les évolutions de l’évaluation, qui portera aussi sur les données de la recherche (voir l’appel de Paris sur l’évaluation de la recherche 2022)

En savoir plus : consultez notre fiche pratique Pourquoi ouvrir ses données ?

L’Université de Lorraine s’implique et participe aux différents groupes nationaux et internationaux sur les données de la recherche : le Groupe de Travail Science Ouverte Données (GTSO), le collège Données du Comité pour la Science Ouverte (CoSo), l’European Open Science Cloud (EOSC) et la Research Data Alliance (RDA).

  • GTSO Données : le groupe travaille sur les modalités d’accompagnement que les services de documentation peuvent proposer aux chercheurs autour de la gestion de leurs données. Ce groupe a une fonction opérationnelle. En 2020, 3 axes de travail prioritaires ont été identifiés : l’accompagnement à la rédaction de plans de gestion des données, les actions de sensibilisation et de formation des doctorants et chercheurs et le partage d’expériences entre établissements.
  • Collège Données du CoSo : lancé en 2018, le Comité pour la science ouverte a pour mission de définir une politique de science ouverte, d’en assurer le développement à l’échelle nationale et internationale et d’en coordonner la mise en œuvre à l’échelle des établissements et des communautés scientifiques. Le Collège Données regroupe des chercheurs et experts, représentatifs de la diversité disciplinaire et de métiers de l’enseignement supérieur et de la recherche. Il suit les actions relevant des données définies annuellement pour le CoSo et peut également se saisir de toute question dans son périmètre (structuration, « fairisation », entrepôts, ouverture des données, juridique etc.).
  • L’initiative European Open Science Cloud de la Commission européenne vise à développer un dispositif fournissant à ses utilisateurs des services d’informatique en nuage pour les pratiques de science ouverte.
  • La RDA a été lancée en 2013 par la Commission européenne, la National Science Foundation et le National Institute of Standards and Technology du gouvernement des États-Unis, ainsi que le ministère de l’innovation du gouvernement australien, dans le but de mettre en place l’infrastructure sociale et technique permettant le partage et la réutilisation des données de la recherche. Le « nœud » national RDA France est développé par le CNRS dans le cadre du projet européen RDA Europe 4.0 avec le soutien du Ministère de l’Enseignement Supérieur, de la Recherche et de l’Innovation (MESRI).

Dans le contexte de la Science Ouverte, les initiatives d’encouragements se multiplient au niveau des organismes de financement, des organismes de recherche ou des éditeurs. Ces encouragements deviennent peu à peu des obligations.

 

Cadenas ouvert

Les organismes de financement

En Europe, le programme de financement H2020 stipule dans ses recommandations que la gestion et l’ouverture des données est obligatoire pour les projets financés à partir de janvier 2017 :

  • données et métadonnées nécessaires à la validation des publications : obligatoire ;
  • autres données et métadonnées que le bénéficiaire a choisi de diffuser en accès ouvert : spécifiées dans le plan de gestion des données ou DMP– « Data Management Plan ».

Si certaines données ne peuvent être rendues accessibles, cela devra être justifié dans le DMP (risque de compromettre le projet, raisons éthiques, règlementation relative aux données personnelles, propriété intellectuelle, sécurité…).

 

Le programme Horizon Europe a les mêmes exigences.

 

En France, l’ANR demande la rédaction d’un Plan de Gestion des Données pour tout projet financé à partir de 2019, selon les modalités précisées ici. Il devra être fourni dans les 6 mois qui suivent le démarrage du projet.

 

Le deuxième axe d’engagement du Plan national pour la science ouverte lancé en juillet 2018 par le Ministère de l’enseignement supérieur, de la recherche et de l’innovation concerne la structuration et l’ouverture des données de la recherche. Les mesures préconisées : rendre obligatoire la diffusion ouverte lorsqu’il s’agit d’un projet financé par moitié par des fonds publics, créer une fonction d’administrateur des données, créer les conditions et promouvoir l’adoption d’une politique des données associées aux articles publiés par les chercheurs.

Le deuxième Plan national pour la science ouverte de 2021 va plus loin en proposant un axe « Structurer, partager et ouvrir les données de la recherche » :

  • Mettre en œuvre l’obligation de diffusion des données de recherche financées sur fonds publics ;
  • Créer Recherche Data Gouv, la plateforme nationale fédérée des données de la recherche ;
  • Promouvoir l’adoption d’une politique de données sur l’ensemble du cycle des données de la recherche, pour les rendre faciles à trouver, accessibles, interopérables et réutilisables (FAIR).

Les éditeurs

Certains éditeurs tels qu’Elsevier, Springer Nature ou PLOS Journals ont déjà ajouté à leur politique éditoriale des revues une section décrivant la diffusion la publication des jeux de données. Elles renvoient vers des entrepôts recommandés. Ainsi, les données servant à valider ou étayer la publication sont directement liées à l’article et sont immédiatement accessibles.

 

Quelques exemples de politiques énoncées par les éditeurs :

Le PGD ou DMP pour Data Management Plan est un document évolutif qui précise la manière dont les données seront produites, traitées, décrites, partagées ou protégées et conservées au cours et à l’issue du projet. Il permet d’anticiper les questions de gestion qui surviennent au cours d’une recherche et les conditions d’une diffusion et d’une conservation futures des données (embargo ? Taille des serveurs à prévoir ?). Le DMP est un livrable pour de plus en plus de financeurs, notamment l’ANR. En fonction du projet, 2 ou 3 versions peuvent être réalisées.

N’hésitez pas à vous inscrire à nos ateliers Plan de gestion de données via donnees-recherche@univ-lorraine.fr !

De nombreuses revues demandent l’accès aux données de recherche pendant le processus de peer-reviewing. DOREL permet de donner accès à des données déposées mais non encore publiées, via la fonction d’URL privée (voir la page dédiée dans le guide complet du déposant). De cette manière, les reviewers peuvent voir les données sans qu’elles ne soient accessibles à tout le monde, et les fichiers peuvent être modifiés autant que nécessaire avant publication (et donc attribution définitive de DOI). Besoin d’aide ? Écrivez à donnees-recherche@univ-lorraine.fr

DOREL permet de faire un lien depuis les données vers les publications associées. HAL permet également de faire le lien depuis les publications vers les données. Pour aller plus loin, consultez notre fiche pratique sur le chemin de la publication article / données de la recherche.

Les données de la recherche sont souvent accompagnées de scripts (écrits en Stata, R, MATLAB, Python…). Afin d’assurer la bonne lisibilité des données, il est recommandé de déposer ses scripts avec ses données dans un entrepôt. Les conseils du guide de Dataverse (ici, en anglais) peuvent être suivies pour DOREL.

 

A noter que les logiciels à part entière peuvent être déposés dans HAL et dans Software Heritage pour garantir leur pérennité. Voir ici le mode d’emploi.

Les données de la recherche générées dans le domaine de la santé sont régies par des réglementations spécifiques qui peuvent sembler foisonnantes. Pour vous y retrouvez, consultez notre fiche pratique sur les données de santé.