Berrahou Soumia Lilia, Buche Patrice, Dibie-Barthélemy Juliette, Roche Mathieu. 2016. Découverte et extraction d'arguments de relations n-aires corrélés dans les textes. Revue des Nouvelles Technologies de l'Information, RNTI-E-31, n.spéc. Fouille de Données Complexes : 37-56.
Version publiée
- Français
Accès réservé aux personnels Cirad Utilisation soumise à autorisation de l'auteur ou du Cirad. Berrahou_RNTI2016.pdf Télécharger (772kB) | Demander une copie |
Résumé : Dans cet article, nous présentons une méthode hybride combinant des approches de fouille de données et des analyses syntaxiques afin de découvrir et extraire automatiquement des informations dans les textes. Ces informations sont modélisées sous forme de relations n-aires représentées dans une Ressource Termino-Ontologique (RTO). La relation n-aire relie un objet étudié (e.g. un emballage) à ses caractéristiques sous forme d'arguments (e.g. son épaisseur). Dans les textes, les arguments de l'objet étudié sont quantitatifs, associés à leurs attributs, une valeur numérique et une unité de mesure, à extraire pour peupler l'ontologie de nouvelles instances. La méthode proposée repose sur la découverte de relations implicites d'expression des arguments dans les textes en utilisant les motifs et règles séquentiels puis, sur l'intégration de relations syntaxiques d'intérêt dans les motifs découverts afin de construire des patrons linguistiques d'identification d'arguments corrélés. Les expérimentations ont été menées sur un corpus du domaine des emballages et consistent à extraire les résultats expérimentaux de perméabilités des emballages alimentaires.
Résumé (autre langue) : In this paper, we present a hybrid method based on datamining approaches and syntactic relations to automatically discover and extract relevant data found in plain text. We use a domain Ontological and Terminological Resource (OTR) which represents relevant data modelled as n-ary relations. N-ary rela- tion links a studied object (e.g. packaging) with its features as several arguments (e.g. its thickness). Our work focuses on extracting those arguments in texts in order to populate the OTR with new instances. The method relies on discovering implicit rules concerning the expression of arguments in texts using sequential pattern mining and sequential rules, and on integrating specific syntactic relations in the dis- covered sequential patterns to construct linguistic sequential patterns of correlated arguments in texts. We have made concluding experiments on a corpus from food packaging domain where relevant data to be extracted are experimental results on packagings.
Mots-clés Agrovoc : fouille de textes, hybride, analyse de données, méthode, fouille de données, linguistique
Mots-clés libres : Fouille de textes, TALN, Ressource termino-ontologique, Extraction de relations n-aires, Apprentissage supervisé, Mesures de similarité, Fouille de données, Analyse syntaxique
Classification Agris : C30 - Documentation et information
U30 - Méthodes de recherche
U10 - Informatique, mathématiques et statistiques
000 - Autres thèmes
Champ stratégique Cirad : Axe 3 (2014-2018) - Alimentation durable
Auteurs et affiliations
- Berrahou Soumia Lilia, LIRMM (FRA)
- Buche Patrice, Montpellier SupAgro (FRA)
- Dibie-Barthélemy Juliette, INRA (FRA)
- Roche Mathieu, CIRAD-ES-UMR TETIS (FRA) ORCID: 0000-0003-3272-8568
Source : Cirad-Agritrop (https://agritrop.cirad.fr/581010/)
[ Page générée et mise en cache le 2024-01-29 ]