Aller au contenu principal

Le cycle de vie des données

Le plus souvent la durée de vie des données va bien au-delà du projet de recherche à l’origine de la donnée. En effet, les chercheurs à l’origine du projet peuvent vouloir continuer à travailler avec les données après la fin du projet ou l’arrêt du financement du projet de recherche. Et d’autres collègues chercheurs peuvent aussi vouloir ré-utiliser ces données.
Par ailleurs, la fonction et la valeur des données ne sont pas les mêmes au début et à la fin d’un projet de recherche et donc changent d’une phase à une autre durant leur cycle de vie. Cette notion de cycle de vie des données de la recherche est importante. Elle permet d’anticiper toutes les étapes essentielles de la gestion de ses données.
Le cycle de vie des données comporte globalement 5 ou 6 étapes1,2. A chaque étape du cycle de vie des données, différentes actions sont nécessaires pour une gestion adéquate et sont représentées sur le schéma du cycle de vie.

Cycle de vie des données

1/ Planifier la recherche

Cette étape permet de définir le projet de recherche et anticiper les prochaines étapes du cycle de vie des données. C’est à cette étape qu’on identifie les besoins et les ressources nécessaires (partenariats, financements, techniques etc.) pour réaliser le projet. Cette étape permet surtout d’anticiper la façon dont les données seront obtenues et stockées pour faciliter la traçabilité en amont afin de permettre la réutilisation des données. Quelles données collectées, où, quand, comment, qui etc. sont les principales interrogations auxquelles répondre dans cette étape.

2/ Collecter/créer des données

Les données utilisées peuvent avoir plusieurs origines : elles peuvent être créées, modifiées, réutilisées. Les données issues d’expérimentation ou d’observation sont récupérées selon le protocole prédéfini dans l’étape 1. Il est également possible de réutiliser des données déjà créées par d’autres en faisant une demande auprès des auteurs ou en les récupérant via différents entrepôts de données en accès libre.

3/ Organiser et analyser les données

Bien organiser ses données pendant le projet est une étape importante car elle facilitera la gestion du cycle de vie. Cela est essentielle pour garantir l’identification, la localisation, la protection et l’accès à ces données, dès maintenant et ultérieurement, pour les propriétaires des données mais également pour d’autres usagers qui le souhaitent. Ensuite, les données sont traitées (vérification, validation et nettoyage), puis analysées selon des méthodes (ou outils) adaptés pour répondre à la question de recherche.

4/ Préserver/conserver les données

Cette étape consiste à la mise en sécurité et sureté des données traitées. Une protection sûre et une sauvegarde régulière sont essentielles tout au long du projet de recherche : Idéalement dans des supports différents selon la règle du « 3.2.1 » : 3 copies dans 2 supports différents et 1 hors site comme un Cloud par exemple. Il serait dommage de perdre le fruit de votre travail.

 

5/ Partager et publier

En général, le partage des données est d’abord interne, entre services différents d’une même structure, ou entre partenaires d’un projet. Une fois que les données d’un projet sont nettoyées et stabilisées, il est important de penser à les publier. Les données de la recherche peuvent être publiées via un dépôt disciplinaire, institutionnel ou plus généraliste tel que l’entrepôt national Recherche Data Gouv. Il est recommandé de publier ces jeux de données dans un entrepôt sécurisé générant automatiquement un DOI (Digital Object Identifier). Certaines restrictions à la diffusion des données peuvent exister, notamment dans le cas de données personnelles ou sensibles. Le plus important est de se poser les bonnes questions telles que : quelles données partager ou publier ? Comment ? Dans quel délai ? Quelle licence sera associée aux données ? etc.
En cas de doute, contactez : donnnees-recherche@universite-paris-saclay.fr

6/ Réutiliser des données

Les données peuvent être réutilisées pour la validation du modèle ou de l’expérience. Elles peuvent également servir à d’autres travaux scientifiques permettant de faire avancer ou tester de nouvelles hypothèses. Dans ce cas, les données rentrent dans un nouveau cycle comme données brutes et le cycle de vie des données reprend son cours.
Le respect de ces différentes étapes du cycle de vie des données participe à l’ouverture des données selon les principes FAIR.