13
Open Mining Infrastructure for TExt and Data Patricia Geretto, INRA-Versailles Forum du GFII, Paris, 8 Décembre 2015 Une infrastructure text-mining au service des scientifiques

OpenMinTeD - Une infrastructure text-mining au service des scientifiques

Embed Size (px)

Citation preview

Page 1: OpenMinTeD - Une infrastructure text-mining au service des scientifiques

Open Mining Infrastructurefor TExt and Data

Patricia Geretto, INRA-Versailles

Forum du GFII, Paris, 8 Décembre 2015

Une infrastructure text-mining au service des scientifiques

Page 2: OpenMinTeD - Une infrastructure text-mining au service des scientifiques

L’INRA

OPENMINTED : LES OBJECTIFS

OPENMINTED : LE PROJET

Forum du GFII, Paris, 8 Décembre 2015

SOMMAIRE

CAS D’USAGE ‘BIOLOGIE VEGETALE’ : ENJEUX - GAINS

Page 3: OpenMinTeD - Une infrastructure text-mining au service des scientifiques

Institut National de la Recherche Agronomique

Forum du GFII - Paris, 8 décembre 2015

Alimentation - Agriculture - Environnement

8290 agents titulaires dont

13 départements scientifiques et 8 métaprogrammes

186 unités de recherche et 49 unités expérimentales

881,71 M€ : Budget exécuté

2552 stagiaires accueillis et 510 doctorants rémunérés

Rapport d’activité INRA, 2014

17 centres de recherche

360 brevets en stock dont 67 nouveaux

1840 chercheurs titulaires

Page 4: OpenMinTeD - Une infrastructure text-mining au service des scientifiques

MaIAGEUnité de recherche

"Mathématiques et Informatique Appliquées 

du Génome à l'Environnement"

L’équipe Bibliome développe des méthodes de linguistique

computationnelle et d’apprentissage automatique appliquées au domaine des

Sciences de la Vie.

Suite Alvis développée par MaIAGE

http://bibliome.jouy.inra.fr

Participation de l’INRA au projet OpenMinTeD

Forum du GFII - Paris, 8 décembre 2015

Cas d’Usage en Agronomie

DISTDélégation à l’Information Scientifique et Technique

La DIST est chargée de construire et mener la politique de l'Information

Scientifique et technique (IST) pour l'INRA.

Page 5: OpenMinTeD - Une infrastructure text-mining au service des scientifiques

Appel à projet H2020-EINFRA-2014-2

(Research and Innovation Actions, Framework Partnership Agreement

with Multiple Beneficiaries)

3 ans (2015-2018)5,4 millions d’euros

16 partenaires

Le Projet OpenMinTeD

Utilisateurs finaux

Forum du GFII - Paris, 8 décembre 2015

Chercheurs, curateurs de bases de données…

Editeurs de littérature et d’outils de text-mining, bibliothèques, PME …

Fournisseurs de contenus et services

Réaliser une plateforme et une infrastructure de Text et Data Mining (TDM), ouverte et pérenne, qui permette aux chercheurs de découvrir, créer, partager et ré-utiliser la

connaissance extraite d’un vaste éventail de sources de la littérature scientifique.

Page 6: OpenMinTeD - Une infrastructure text-mining au service des scientifiques

Text-miningCommunautés scientifiques

Infrastructure

Fournisseurs de contenu OA

OpenAIRE

Open Access Infrastructure for Research in Europe

SSOAR,

Social Science Open Access Repository

Clarin,

European research infrastructure for the humanities and social sciences

AGRIS,

Agricultural Science and Technology Information

Spécialistes du

droit

Partenaires d’OpenMinTeD

Forum du GFII - Paris, 8 décembre 2015

Page 7: OpenMinTeD - Une infrastructure text-mining au service des scientifiques

Forum du GFII - Paris, 8 décembre 2015

Biologie Végétale & Biodiversité

2 cas d’usage à l’INRA

Approche “chercheur centrée”Les spécifications de la plateforme reposent sur des Cas d’Usage

Page 8: OpenMinTeD - Une infrastructure text-mining au service des scientifiques

Constat – Difficultés pour les Chercheurs• Dispersion des sources d’information• Manque d’uniformité des modes de recherche et de

récupération des contenus• Accès restreint, payant ; règles de copyright et licences

OpenMinTeD• Explicite les règles d’accès au contenu/aux sources• Favorise l’utilisation des ressources en open access

(littérature scientifique, données et vocabulaires partagés) • Offre un accès fédéré aux ressources (métadonnées et

protocoles d’échange standards)

Les Sources – Le Contenu

Forum du GFII - Paris, 8 décembre 2015

OpenMinted focuses on interoperability across text mining services and content providers

Page 9: OpenMinTeD - Une infrastructure text-mining au service des scientifiques

Constat – Difficultés pour les Chercheurs• Manque de moyens informatiques (stockage, calcul, compétences…)• Difficultés à identifier des services de text-mining appropriés aux problématiques• Manque de connaissances des capacités/limites des services de text-mining

OpenMinTeD• Met à disposition un environnement accessible à distance pour construire, utiliser et partager des chaînes de traitement de text-mining à façon• Permet le traitement de gros volumes de données• Documente et rend les services de text-mining plus faciles à appréhender

OpenMinted does not build new services, but adopts and adapts existing services for new communities

Le Traitement de Text-Mining

Forum du GFII - Paris, 8 décembre 2015

Page 10: OpenMinTeD - Une infrastructure text-mining au service des scientifiques

Constat – Difficultés pour les Chercheurs• Manque d’uniformité dans les formats de production• Peu de ré-utilisation des ressources produites et des

chaînes de traitement construites• Peu de traçabilité du lien entre les ressources utilisées et

les résultats produits OpenMinTeD

• Garde la trace des versions et des licences des ressources utilisées

• Met à disposition des espaces de partage de corpus annotés, de vocabulaires, des chaînes de traitement…

• Permet la reproductibilité des résultats• Favorise des sorties en format standard

L’Exploitation des Résultats

Forum du GFII - Paris, 8 décembre 2015

Page 11: OpenMinTeD - Une infrastructure text-mining au service des scientifiques

Questionnaire82 participants

66 questionnaires complets

17 sujets abordés15 questions sur le sujet des difficultés

(difficultés à trouver l’information pertinente,

à la collecter et l’exploiter, à la relier à

des données…)17 questions sur le sujet des solutions

(annotations, visualisations,

extractions, liens sémantiques entre

données et textes…)

Cas d’Usage ‘Biologie végétale’

Forum du GFII - Paris, 8 décembre 2015

Personas

Page 12: OpenMinTeD - Une infrastructure text-mining au service des scientifiques

Cas d’Usage ‘Biologie végétale’

Forum du GFII - Paris, 8 décembre 2015

Le Text-Mining permet de

• Remobiliser les connaissances existantes et

dispersées

• Sélectionner des paramètres biologiques d’intérêt

• Réduire le champ des expérimentations possibles

• Diminuer le coût des expériences

Enjeux - Gains

© Christophe MAITRE, INRA

© William BEAUCARDET,INRA

Page 13: OpenMinTeD - Une infrastructure text-mining au service des scientifiques

Contact us

www.openminted.eu

Project Coordinator: Natalia [email protected]

twitter.com/openminted_eufacebook.com/openmintedbit.do/openmintedlinkedinvimeo.com/openmintedbit.do/openmintedplus

http://fr.slideshare.net/openminted_eu

Two OPEN CALLS and two HACKATONS will be organized to develop applications with special

focus on innovative ideas improving the uptake of the OpenMinTeD infrastructure,

promoting the openness and reuse principle

(2017, March & July)

Patricia Geretto, Sophie Aubin (DIST) [email protected]

[email protected]

Claire Nédellec (MaIAGE)[email protected]