Agritrop
Home

Découverte et extraction d'arguments de relations n-aires corrélés dans les textes

Berrahou Soumia Lilia, Buche Patrice, Dibie-Barthélemy Juliette, Roche Mathieu. 2016. Découverte et extraction d'arguments de relations n-aires corrélés dans les textes. Revue des Nouvelles Technologies de l'Information, RNTI-E-31, n.spéc. Fouille de Données Complexes : pp. 37-56.

Journal article ; Article de recherche ; Article de revue sans comité de lecture
[img] Published version - Français
Access restricted to CIRAD agents
Use under authorization by the author or CIRAD.
Berrahou_RNTI2016.pdf

Télécharger (772kB) | Request a copy

Abstract : Dans cet article, nous présentons une méthode hybride combinant des approches de fouille de données et des analyses syntaxiques afin de découvrir et extraire automatiquement des informations dans les textes. Ces informations sont modélisées sous forme de relations n-aires représentées dans une Ressource Termino-Ontologique (RTO). La relation n-aire relie un objet étudié (e.g. un emballage) à ses caractéristiques sous forme d'arguments (e.g. son épaisseur). Dans les textes, les arguments de l'objet étudié sont quantitatifs, associés à leurs attributs, une valeur numérique et une unité de mesure, à extraire pour peupler l'ontologie de nouvelles instances. La méthode proposée repose sur la découverte de relations implicites d'expression des arguments dans les textes en utilisant les motifs et règles séquentiels puis, sur l'intégration de relations syntaxiques d'intérêt dans les motifs découverts afin de construire des patrons linguistiques d'identification d'arguments corrélés. Les expérimentations ont été menées sur un corpus du domaine des emballages et consistent à extraire les résultats expérimentaux de perméabilités des emballages alimentaires. (Résumé d'auteur)

Résumé (autre langue) : In this paper, we present a hybrid method based on datamining approaches and syntactic relations to automatically discover and extract relevant data found in plain text. We use a domain Ontological and Terminological Resource (OTR) which represents relevant data modelled as n-ary relations. N-ary rela- tion links a studied object (e.g. packaging) with its features as several arguments (e.g. its thickness). Our work focuses on extracting those arguments in texts in order to populate the OTR with new instances. The method relies on discovering implicit rules concerning the expression of arguments in texts using sequential pattern mining and sequential rules, and on integrating specific syntactic relations in the dis- covered sequential patterns to construct linguistic sequential patterns of correlated arguments in texts. We have made concluding experiments on a corpus from food packaging domain where relevant data to be extracted are experimental results on packagings. (Résumé d'auteur)

Mots-clés libres : Fouille de textes, TALN, Ressource termino-ontologique, Extraction de relations n-aires, Apprentissage supervisé, Mesures de similarité, Fouille de données, Analyse syntaxique

Classification Agris : C30 - Documentation and information
U30 - Research methods
U10 - Computer science, mathematics and statistics
000 - Other themes

Champ stratégique Cirad : Axe 3 (2014-2018) - Alimentation durable

Auteurs et affiliations

  • Berrahou Soumia Lilia, LIRMM (FRA)
  • Buche Patrice, Montpellier SupAgro (FRA)
  • Dibie-Barthélemy Juliette, INRA (FRA)
  • Roche Mathieu, CIRAD-ES-UMR TETIS (FRA) ORCID: 0000-0003-3272-8568

Source : Cirad-Agritrop (https://agritrop.cirad.fr/581010/)

View Item (staff only) View Item (staff only)

[ Page générée et mise en cache le 2021-01-19 ]