class: center, middle, inverse, title-slide # Réutilisation des données en SHS ## M1 Sciences de l'éducation<br />Cours "Usages de l'open data en SHS" ### Antoine Blanchard ### Octobre 2025 <br /> <br /> .center[ <img src="img/by-sa.png" width="25%"> ] --- class: inverse, mline, center, middle # La recherche gère des données --- class: clear ## Ce qu'il faut éviter .center[ <img src="img/perte-donnees.png" width="70%">] .footnote[Vines et al. (2014). "The Availability of Research Data Declines Rapidly with Article Age". *Current Biology* 24 , 94– 97, https://doi.org/10.1016/j.cub.2013.11.014] ??? *extant* = soit "partagées" soit "existantes mais pas partagées" --- class: clear ## Planifier la gestion de ses données : le PGD (1) .center[ <iframe src="https://view.genial.ly/6167ef6360a1bd0deae6ca66" width="100%" height="580"></iframe>] ??? Source : http://doi.org/10.13143/T3J4-VN03 --- class: clear ## Planifier la gestion de ses données : le PGD (2) <br /> .center[ <img src="img/dmpboxes.png" width="80%">] .footnote[Cocaud, Sylvie, et Dominique l’Hostis (2019). *Pourquoi et comment rédiger un plan de gestion de données ?*. https://hal.inrae.fr/hal-02791507] --- class: inverse, mline, center, middle # La recherche partage ses données --- class: clear ## Enfin, souvent elle ne les partage pas… (1) <br /> .center[ <iframe width="700" height="500" src="https://webtv.univ-rouen.fr/permalink/v125d03a1043cxgjgzvd/iframe/#start=337" allowfullscreen="allowfullscreen" allow="autoplay"></iframe>] ??? Jusqu'à 6'21 : "Marie-Claude Taupin est décédée il y a tout juste un mois et nous avons récupéré à cette occasion-là ses précieux carnets de fouille qu'elle avait à vrai dire du mal à nous donner." Chercheurs, n'attendez pas votre mort pour ouvrir vos données de recherche ! --- class: clear ## Enfin, souvent elle ne les partage pas… (2) <br /> .center[ <iframe width="560" height="315" src="https://www.canal-u.tv/chaines/univ-bordeaux/embed/107697?t=4017" allowfullscreen></iframe> ] .footnote[Lionel Maurel (2021). "Le partage des données de recherche en SHS à l’heure de la Science Ouverte", *Journées annuelles Mate-shs*, 24-25 juin] ??? Jusqu'à "… ont fini par se brouiller sur cette question de l'accès aux données" (1h07'53) Lionel Maurel, Directeur adjoint scientifique à l’InShs en charge de la Science Ouverte et des données de recherche : « Les données revêtent des enjeux de pouvoir, nous avons régulièrement le retour d’unités de recherche où l’accès aux données dégénère en conflit ou fait voler en éclat un partenariat : le paradigme de l’ouverture par défaut des données régule cela. » --- class: clear ## Et c'est un paradoxe ! <br /> <br /> > "L’un des intérêts de l’étude de C. Tenopir (menée auprès de 1329 chercheurs) est aussi d’avoir souligné un paradoxe : **les chercheurs conviennent à 60% que le manque d’accès aux données constitue un obstacle majeur au progrès de la science, mais déclarent pour 46% d’entre eux ne pas mettre leurs données à disposition**." .footnote[Rebouillat, Violaine (2021). Le partage des données vu par les chercheurs : une approche par la valeur. *Les Enjeux de l'information et de la communication*, 22(1), 35-53. https://doi.org/10.3917/enic.030.0035] --- class: clear ## Le chercheur, producteur, propriétaire, n'est pas partageur… <br /> <br /> .center[ <iframe width="560" height="315" src="https://www.youtube.com/embed/xIgVGlb-6Uw?start=1281" frameborder="0" allow="encrypted-media" allowfullscreen></iframe>] ??? Jusqu'à "… c'est très très difficile d'acculturer les chercheurs à cette question du partage et de l'open data." (21'52) Acculturation nécessaire du chercheur qui se sent propriétaire des données. --- class: clear ## Partager ses données de recherche <br /> <br /> .center[ <iframe width="560" height="315" src="https://www.youtube.com/embed/ybLIuTv8_Sg?start=178" frameborder="0" allow="encrypted-media" allowfullscreen></iframe>] ??? Témoigne d'une chercheuse en topographie qui partage ses données de recherche (jusqu'à la fin de l'entretien avec Tania à 4'48). --- class: clear ## Réutiliser les données pour la recherche <br /> > « Ça n’est pas juste partager les données pour partager les données. Il y a toute une mentalité derrière, qui est concomitante. **La modélisation, que j’ai faite durant ma thèse sur les primates, a ensuite été réutilisée par d’autres personnes, qui ont utilisé mes formules chez les humains et qui m’ont posé des questions auxquelles j’ai répondu. Du coup, c’est intéressant**, parce que vous n’êtes pas forcément co-auteur de ces publications mais vous êtes cités. Et ensuite les personnes vous connaissent. Ça veut dire que, quand elles ont besoin d’organiser un symposium, elles vont faire appel à vous. **Donc vous n’êtes pas récompensés tout de suite, mais un peu plus tard.** » .footnote[Rebouillat, Violaine (2021). Le partage des données vu par les chercheurs : une approche par la valeur. *Les Enjeux de l'information et de la communication*, 22(1), 35-53. https://doi.org/10.3917/enic.030.0035] --- class: clear ## Réutiliser les données pour l'enseignement <br /> .center[ <img src="img/Cell_Biology_Education.png" width="65%">] --- class: clear ## Exemple de données ouvertes : la recherche sur Alzheimer .center[ <img src="img/NYT_Alzheimer.jpg" width="95%">] --- class: clear ## Exemple de données ouvertes : le génome des plantes cultivées <br /> .center[ <img src="img/1-s2.0-S2211912420300651-gr2_lrg.jpg" width="100%">] .footnote[Jim Gaffney et al. (2020). "Open access to genetic sequence data maximizes value to scientists, farmers, and society". *Global Food Security*, Vol. 26, 100411. https://doi.org/10.1016/j.gfs.2020.100411.] --- class: clear ## Exemple de données ouvertes : la [base SIRENE](https://www.data.gouv.fr/fr/datasets/base-sirene-des-entreprises-et-de-leurs-etablissements-siren-siret/) .reduite.center[] --- class: clear ## Exemple de données ouvertes : les [valeurs foncières](https://www.data.gouv.fr/fr/datasets/demandes-de-valeurs-foncieres/)  --- class: clear ## Exemple de réutilisation : les valeurs foncières .reduite.center[ [](https://www.meilleursagents.com/prix-immobilier/dvf/aix-en-provence-13100/avenue-saint-jerome-1108044769/) ] --- class: clear ## Exemple de données ouvertes : [Campagnes photographiques des Monuments Historiques](https://data.culture.gouv.fr/explore/dataset/photographies-serie-monuments-historiques-de-1851-a-1914/images/?refine.nom_reg=BRETAGNE&refine.nom_dept=FINISTERE&dataChart=eyJxdWVyaWVzIjpbeyJjaGFydHMiOlt7InR5cGUiOiJjb2x1bW4iLCJmdW5jIjoiQ09VTlQiLCJzY2llbnRpZmljRGlzcGxheSI6dHJ1ZSwiY29sb3IiOiIjNjZjMmE1In1dLCJ4QXhpcyI6Im5vbV9yZWciLCJtYXhwb2ludHMiOjUwLCJzb3J0IjoiIiwiY29uZmlnIjp7ImRhdGFzZXQiOiJwaG90b2dyYXBoaWVzLXNlcmllLW1vbnVtZW50cy1oaXN0b3JpcXVlcy1kZS0xODUxLWEtMTkxNCIsIm9wdGlvbnMiOnt9fX1dLCJ0aW1lc2NhbGUiOiIiLCJkaXNwbGF5TGVnZW5kIjp0cnVlLCJhbGlnbk1vbnRoIjp0cnVlfQ%3D%3D&location=5,46.50652,2.39891)  --- class: clear ## Exemple de données ouvertes : Open Food Facts  ??? Fichier de 4 millions de lignes. --- class: clear ## Exemple de réutilisation : Yuka  --- class: inverse, mline, center, middle # La réalité des entrepôts de données --- class: clear ## Le problème de la qualité des données <br /> <br /> > **Les données des gouvernements sont souvent incomplètes, pas actualisées, de mauvaise qualité et fragmentaires.** > Dans la plupart des cas, les catalogues ou portails de données ouvertes sont alimentés manuellement, conséquence d’une approche informelle de la gestion des données. > De plus, les procédures, les calendriers et les responsabilités des institutions publiques chargées de leur gestion manquent souvent de clarté. Ainsi, de manière générale, la gestion et la publication des données ouvertes sont fragiles et sujettes à des erreurs multiples. .footnote[Source : [Rapport mondial du 4e Open Data Barometer](https://opendatabarometer.org/4thedition/report/?lang=fr) ] --- class: clear ## Des données bien cachées <br /> <br /> > La découvrabilité des données est un défi majeur. Nous avons des portails et des registres de données, mais les organismes gouvernementaux qui relèvent d'un seul gouvernement national publient toujours les données de différentes façons et à différents endroits (...). > **La découvrabilité des données est une condition préalable pour que les données ouvertes réalisent leur potentiel et, actuellement, la plupart des données sont très difficiles à trouver**. .footnote[Source : https://index.okfn.org/insights/] --- class: clear ## Différents types d'entrepôts de données de recherche <br /> <br /> .center[ <iframe width="560" height="315" src="https://www.canal-u.tv/chaines/callisto/embed/134293?t=0" allowfullscreen></iframe>] ??? Toute la vidéo. --- class: clear ## Une multitude de portails territoriaux [](https://airtable.com/shrmZOh5If14Q1PVN/tblwklJPsyayeH5lX?blocks=hide) --- class: clear ## Une multitude de portails nationaux [](https://airtable.com/shr3IYfHZW1cVTS3s/tblVtTOudK5Ygpsmj?blocks=hide) --- class: inverse, mline, center, middle # Devoir sur ordinateur --- class: clear ## Évaluer un jeu de données à réutiliser <br /> Ce devoir (à réaliser en binôme) vous met dans la peau d'un réutilisateur de données qui doit trouver des données publiées répondant à son besoin. <br /> <br /> Vous allez suivre différentes étapes qui vont vous conduire à trouver et évaluer ce jeu de données. .center.inverse.font120[https://moodle.u-bordeaux.fr/enrol/index.php?id=23745] ??? Lien direct vers le devoir : https://moodle.u-bordeaux.fr/course/section.php?id=229581 --- class: inverse, mline, center, middle # Conclusion : cycle de vie des données de recherche --- class: clear .center[ <img src="img/datalifecycle2.png" width="100%">] ou bien https://www.ulb.be/medias/fichier/ulb-gdr-politique_1647421928681-pdf --- class: inverse, mline, center, middle # Bonus --- class: clear .center[ [<img src="img/Padme upon request.jpeg" width="70%">](https://twitter.com/johnborghi/status/1405227318876905472?s=11) ] --- class: clear .center[ [<img src="img/Padme documentation.jpeg" width="70%">](https://twitter.com/JohnBorghi/status/1405228172937887749) ]