La gestion des données de recherche: pour mieux partager et faire avancer la connaissance
- UdeMNouvelles
Le 3 juin 2024
- Martin LaSalle
La gestion des données de recherche permet d’élaborer de nouvelles connaissances, de reproduire et de valider des résultats de recherche.
Qu’ont en commun Jean-François Lapierre, Simon Dufour, Frédérick Bastien, Chantal Gagnon et Nadia Gosselin? Ces cinq professeurs sont ceux qui, à l’Université de Montréal, ont partagé le plus grand nombre de jeux de données, selon le dernier rapport de Borealis.
Borealis est un dépôt de données multidisciplinaires qui utilise le logiciel Dataverse, conçu par l’Université Harvard. Ce service partagé est soutenu par un partenariat entre des consortiums de bibliothèques universitaires canadiennes, des établissements d'enseignement, des organismes de recherche ainsi que l’Alliance de recherche numérique du Canada et dont les installations sont hébergées par Scholars Portal et les Bibliothèques de l’Université de Toronto.
L’UdeM fait d’ailleurs partie des 15 établissements d’enseignement et des centres de recherche canadiens qui diffusent le plus de jeux de données en vue de leur reproductibilité et de leur réutilisation en contexte d’enseignement et de recherche ou autre.
Le Groupe de recherche interuniversitaire en limnologie et en environnement aquatique (GRIL) est au premier rang des membres de l’UdeM (toutes catégories confondues, individus et groupes de recherche) ayant déposé plus de 30 ensembles de données dans Borealis. L’un d’eux a été partagé plus de 250 fois, après sa diffusion en décembre 2023.
Des données sur 30 000 nuits!
La professeure Nadia Gosselin, du Département de psychologie de l’UdeM, est celle dont les jeux de données constitués au fil des décennies dans le cadre du projet Montreal Archive of Sleep Studies sont les plus imposants. Ils ont été partagés plus de 4300 fois.
En effet, celle qui dirige le Centre d'études avancées en médecine du sommeil (CEAMS) a partagé 10 ensembles de données portant sur 200 nuits de sommeil – chacune des nuits comportant des millions de données obtenues selon un protocole standard et grâce à des appareils qui captent des données toutes les quatre millisecondes.
De sorte que, depuis 24 ans, les équipes de recherche du CEAMS ont collecté et enregistré des données sur le sommeil qui représentent aujourd’hui 30 000 nuits!
«Au CEAMS, nous avons pour philosophie que la recherche financée par des fonds publics doit être accessible à tous, explique Nadia Gosselin. Les données des 200 nuits que nous avons rendues disponibles par le biais de la banque de l’Alliance de recherche numérique du Canada se traduisent par plusieurs centaines de demandes de la part d’équipes de recherche de partout dans le monde qui à leur tour publient leurs études dans des revues scientifiques.»
«La gestion des données de recherche permet de faire avancer les connaissances et de créer de nouveaux outils qui favorisent l’interdisciplinarité parce que ces données sont utilisées dans différents domaines», ajoute celle qui, avec sa collègue Aude Motulsky, fait partie de la liste des 18 championnes et champions de la gestion des données de recherche 2022-2023 dressée par l’Alliance.
D’ailleurs, les jeux de données du projet Montreal Archive of Sleep Studies sont bel et bien réutilisés dans d’autres projets. C'est notamment le cas d'un projet d'informatique en apprentissage profond, qui réemploi les données du projet montréalais.
La «GDR» pour entrer dans une nouvelle ère de la recherche
Mieux connue sous le nom de «GDR» dans les milieux scientifiques, la gestion des données de recherche est désormais un passage obligé pour les équipes de recherche, et ce, tout au long de leur cycle de vie.
En effet, en 2021, les organismes subventionnaires fédéraux ont adopté une politique qui impose aux chercheuses et aux chercheurs l’obligation de déposer un plan de gestion des données dans le cadre de certains concours.
Ce plan oblige les équipes de recherche à préciser, avant même le début de leurs travaux, comment seront effectués la collecte, le stockage et la sauvegarde des données, de même que le mécanisme prévu pour leur partage une fois l’étude terminée. De plus, depuis l’entrée en vigueur de la loi 25 sur la protection des renseignements personnels, les actions à poser doivent être décrites explicitement quant aux enjeux concernant les participants humains, dont les données peuvent être sensibles.
De même, la politique fédérale exige des établissements d’enseignement et de recherche qu’ils adoptent une stratégie publique de GDR. L’UdeM a déposé la sienne au printemps 2023.
«La gestion des données de recherche suscite des réticences et c’est très compréhensible, car elle exige des ressources financières et humaines, convient Nadia Gosselin. Elle implique l’embauche de gens spécialisés, d’où l’idée pour les chercheurs et chercheuses et les établissements de se regrouper afin de créer un écosystème favorable.»
S’inscrivant dans un contexte global de science ouverte et de science responsable, la GDR facilite toutefois le partage et la réutilisation des données, en plus de permettre une meilleure organisation du travail de recherche, d’engendrer une économie de ressources et d’argent, d’assurer la continuité des activités et, enfin, de minimiser les risques de perte des données.
Le rôle pivot des bibliothèques de l’UdeM
Le personnel des bibliothèques de l’UdeM est déjà à l’œuvre auprès des équipes de recherche afin de contribuer à l’implantation graduelle de la «culture GDR».
Outre un webinaire d’introduction offert sur une base régulière, les chercheuses et chercheurs peuvent bénéficier d’un service d’accompagnement pour la rédaction de leur plan de gestion des données, l’organisation et la documentation des données ainsi que le choix d’un dépôt de données, tel que Borealis, pour publier des jeux de données ou en découvrir de nouveaux.
L’espace Dataverse du GRIL illustre bien le service personnalisé de «FAIRification» proposé par les Bibliothèques. En effet, chaque ensemble de données publié dans l'espace Borealis a été enrichi par Teresa Bascik, bibliothécaire en métadonnées, en respectant les quatre principes FAIR, selon lesquels les données doivent être:
- faciles à trouver,
- accessibles,
- interopérables,
- réutilisables.
Par ce service, les Bibliothèques de l’UdeM viennent appuyer la politique fédérale sur la gestion des données de recherche, qui renvoie aux principes FAIR.
«Grâce à un protocole qui répond à ces principes, il est plus facile pour les équipes de recherche de trouver des jeux de données, de les télécharger et de les exploiter, peu importe la plateforme, notamment parce qu’un vocabulaire contrôlé les rend interopérables: ils deviennent réutilisables pour de futures recherches, selon les normes de la communauté de recherche», conclut la bibliothécaire à la direction du soutien à la réussite, à la recherche et à l’enseignement Stéphanie Pham-Dang.