Présentation

Présentation du réseau "Intégration de sources/masses de données hétérogènes et ontologies"

L'objectif de ce réseau est de partager des méthodes et outils pour gérer et analyser des masses de données en sciences du vivant, de l'agronomie et de l'agro-alimentaire.

Co-animateurs:

Patrice Buche (UMR IATE - INRAE), Liliana Ibanescu (UMR MIA Paris - INRAE), Danai Symeonidou (UMR MISTEA - INRAE)

La société actuelle doit faire face à des évolutions rapides et à des enjeux aux multiples facettes (environnementaux, sociétaux, économiques). C'est particulièrement vrai pour le monde des sciences du vivant, de l'agronomie et de l’agro-alimentaire, soumis en plus aux aléas naturels. Afin de répondre à ces enjeux et évolutions, il est nécessaire de posséder une vue globalisée et intégrée du domaine d’application étudié (e.g. les filières agricoles), tout en étant capable de préconiser des actions à des niveaux assez fins (e.g., parcelle, opération unitaire) et en tenant compte des différents points de vue impliqués.

Pour cela, il faut développer des outils génériques adéquats, or la plupart des études menées jusqu’à présent soit ont proposé des approches spécifiques à une partie du domaine d’application étudié (e.g., amélioration génétique d’une filière), soit se sont concentrés sur des enjeux bien déterminés (e.g., problèmes sanitaires). Il en a résulté un éparpillement de la connaissance et une séparation des ensembles de données, ce qui s’est traduit par une grande difficulté à faire cohabiter ces connaissances et restituer ces données dans un système unique. Un des facteurs limitant du traitement informatique des données en sciences du vivant, en agronomie et en agro-alimentaire est la difficulté d’appréhender les données disponibles. Cette difficulté s’explique par les raisons suivantes :

  • le stockage des données expérimentales suffisamment décrites (par des méta-données) et sous une forme informatisée homogène est loin d’être systématique dans l’approche analytique classique,
  • les données sont éparses, stockées dans des bases de données de laboratoire, publiées dans des revues scientifiques ou sur des pages de sites Web, mais aussi dans des rapports de projet, des thèses ou des supports de cours,
  • les données sont représentées dans des formats hétérogènes (textes, tableaux, graphiques, spectres, images,…).
  • les évolutions technologiques rapides, qui permettent une observation de plus en plus fine (nature de l'information, fréquence d’acquisition, géolocalisation), nécessitent de s’adapter et de gérer des volumes de données en forte croissante.

La recherche menée à INRAE est aujourd’hui de plus en plus collaborative et requiert un usage intensif des données. La gestion automatisée et l’analyse de données scientifiques nécessitent d’intégrer des connaissances du domaine concerné. De plus, cette intégration doit passer par la confrontation des données et des connaissances disponibles qui est cruciale pour valider la qualité de ces données et de ces connaissances.

Cette proposition de réseau de recherche se situe dans la priorité 1 “Gérer et analyser des masses considérables de données hétérogènes” et plus précisément dans le sous-thème Intégration et ontologies.

Avant de pouvoir combiner/explorer/expliquer les sources de données, il faut être capable de les faire «cohabiter ». Cette cohabitation peut être réalisée à l’aide de méthodes informatiques d’intégration qui consistent à essayer d’établir des correspondances entre les données à l’aide d’une ontologie de domaine qui est une représentation, formalisée et structurée, du vocabulaire spécifique au domaine étudié. Cette ontologie peut en particulier être utilisée pour:

  • organiser et décrire des ensembles de données,
  • exploiter les données structurées des documents comme les tableaux ou les graphiques pour en extraire de l’information pertinente pour le domaine étudié,
  • faire de l’analyse textuelle, extraire de documents textes peu structurés de nouvelles données pertinentes pour le domaine étudié et enrichir de manière incrémentale l'ontologie,
  • modéliser la connaissance nécessaire pour, d’une part détecter des redondances dans les sources de données à intégrer et, d’autre part, associer à ces sources des indicateurs de fiabilité,
  • publier les données intégrées grâce à une ontologie de domaine sur le “Web de données” afin de permettre l’interconnexion de jeux de données.

Par ailleurs, la connaissance modélisée dans l’ontologie étant par nature évolutive, il est indispensable de construire des méthodes qui permettent d’en maintenir sa cohérence.

L’objectif est de partager, de collaborer autour de méthodes et outils pour gérer, analyser et expliquer des masses de données en sciences du vivant, de l'agronomie et de l’agro-alimentaire.

Date de modification : 06 juillet 2023 | Date de création : 10 mars 2014 | Rédaction : Réseau IN-OVIVE