En naviguant sur notre site vous acceptez l'installation et l'utilisation des cookies sur votre ordinateur. En savoir +

Menu Logo Principal

Datapartage

Rechercher et évaluer des données

Où trouver des jeux de données et comment évaluer la qualité d'un jeu de données

Où trouver les données ?

Un scientifique peut être amené à rechercher un entrepôt :

- soit pour y déposer ses propres données,

- soit pour rechercher des données déposées par un tiers, et susceptibles d'être réutilisées.

Trouver des données relève encore du parcours du combattant. En effet, les sources bibliographiques classiques : bases de données, archives ouvertes, réseaux sociaux, moteurs de recherche n'intègrent actuellement quasiment pas ou très peu les datasets.

Curieusement les moteurs de recherche comme Google Scholar, ou Google ne permettent pas de rechercher le type de document "données". Google indexe cependant  les datasets et si l'on connait le titre exact on peut retrouver un dataset via Google (test fait sur l'entrepôt Pangea).

Les jeux de données sont déposées par les chercheurs dans des entrepôts de données (data repositories). Des répertoires de données indexent des entrepôts de données mais pas directement les jeux de données. Le DataCitation Index de Thomson Reuters est pour l'instant le seul outil qui permet de rechercher directement dans les descriptions des  jeux de données datasets, mais il est payant.

Les répertoires d'entrepôts de données

Les moteurs de recherche

  • Datasearch. Développé par Elsevier, en version Bêta.

Quelques entrepôts "généralistes"

Quelques entrepôts thématiques

Qualité des données

3 niveaux sont à vérifier pour estimer la qualité des jeux de données (rapport de 2008 du  Research Information Network) : http://www.rin.ac.uk/our-work/data-management-and-curation/share-or-not-share-research-data-outputs) :

  • la  création des données (méthode de collecte des données, outils utilisés, étalonnage des instruments ...)
  • la gestion des données (description fine des données,  garantie d'accès pérenne aux données ...)
  • l'évaluation de la qualité des jeux de données via un processus de Peer Review