Lentschat Martin. 2021. Instanciation de relations n-Aires dans des articles scientifiques guidée par une Ressource Termino-Ontologique de domaine. Montpellier : Université de Montpellier, 210 p. Thèse de doctorat : Informatique : Université de Montpellier
|
Version publiée
- Français
Utilisation soumise à autorisation de l'auteur ou du Cirad. ID600682.pdf Télécharger (3MB) | Prévisualisation |
Url - jeu de données - Dataverse Cirad : https://doi.org/10.18167/DVN1/1BBJBQ / Url - jeu de données - Dataverse Cirad : https://doi.org/10.18167/DVN1/U7HK8J / Url - jeu de données - Dataverse Cirad : https://doi.org/10.18167/DVN1/GCZBC9
Titre anglais : n-Ary relations instantiation from scientific articles driven by a domain Ontological and Terminological Resource
Encadrement : Buche, Patrice ; Dibie, Juliette ; Roche, Mathieu
Résumé : Cette thèse s'inscrit dans le domaine de recherche des smart data, où nous recherchons des informations spécifiques au sein de documents textuels. Elle consiste à proposer de nouvelles méthodes de représentation et d'extraction de données expérimentales à partir d'articles scientifiques. Ces méthodes ont été évaluées sur un corpus d'articles dans le domaine des emballages alimentaires. Les données expérimentales peuvent être représentées sous forme de relations n-Aires composées d'arguments symboliques et quantitatifs. Ces derniers sont constitués d'une valeur numérique et d'une unité de mesure. L'objectif de cette thèse est de peupler une base de connaissances d'instances de relations N-Aires extraites de documents scientifiques textuels. L'approche proposée s'appuie sur une Ressource Termino-Ontologique (RTO) et se décompose en deux Phases : (1) la reconnaissance et l'extraction des instances d'arguments d'intérêt et (2) la mise en relation de ces instances dans des relations n-Aires. La Phase (1) propose une représentation originale des instances d'arguments extraites, appelée SciPuRe (Scientifique Publication Representation). Celle-ci intègre des descripteurs ontologiques, lexicaux et structurels qui décrivent le contexte d'apparition des instances d'arguments et permet de les trier selon leurs pertinences. La Phase (2) s'appuie sur les informations présentes dans les tableaux des documents, extraits automatiquement, pour guider l'extraction des relations n-Aires à partir de relations partielles, les tableaux contenant une part importante des données expérimentales dans les articles scientifiques. Ces relations partielles sont ensuite complétées par les instances d'arguments reconnues lors de la Phase (1). Trois approches sont proposées et évaluées afin d'identifier les instances d'arguments qui doivent compléter les relations : l'utilisation de la structure des documents, l'analyse des cooccurrences entre les instances d'arguments dans les textes, et enfin l'utilisation de modèles de word-embedding permettant de mesurer les similarités entre les instances d'arguments candidates et les arguments déjà renseignés dans les relations partielles. Nos résultats montrent l'importance du tri des instances pertinentes à l'issue de la reconnaissance des arguments lors de la Phase (1) en s'appuyant sur les descripteurs SciPuRe. Nos expérimentations montrent que les deux critères les plus importants pour déterminer la pertinence d'une instance d'argument symbolique sont la spécificité du concept associé à l'argument dans la RTO et sa fréquence dans le document. Pour les arguments quantitatifs, c'est l'appartenance de l'instance d'argument à des sections des documents qui permet de déterminer sa pertinence. Nos expérimentations sur la Phase (2) confirment l'utilité des scores de pertinence calculés lors de la Phase (1) pour discriminer les instances. L'analyse des résultats avec différents filtrages des instances d'arguments candidates selon leurs pertinences montre un net effet positif lors du filtrage de 20% des instances avec les pertinences les plus faibles. Nous avons également expérimenté la possibilité de sélectionner plusieurs candidats pour chaque instance d'argument manquante dans une relation partielle, dans une approche d'assistance aux experts du domaine qui peuvent ensuite déterminer l'instance valide. Lors de la sélection d'un seul candidat, l'approche fondée sur les analyses des cooccurrences donne les meilleurs résultats pour détecter l'instance d'argument candidate valide. Avec une sélection plus importante, de trois ou cinq candidats, l'analyse des similarités sémantiques permise par des modèles BERT de plongement lexicaux fournit de bons résultats pour la détection d'associations entre les instances d'arguments présentes dans les relations partielles et les instances d'argument candidates à la complétion des relations. Enfin, lors de la sélection de dix candidats, les expérimentations montrent que l'approche fondée sur la structure des documents est efficace pour compléter les relations n-Aires.
Résumé (autre langue) : This thesis belongs to the research field of smart data, where we search for specific information within textual documents. It proposes new methods of representation and extraction of experimental data from scientific articles. These methods were evaluated on a corpus of articles in the food packaging domain. The experimental data can be represented as n-Ary relations composed of symbolic and quantitative arguments. The latter are composed of a numerical value and a unit of measurement. The objective of this thesis is to populate a knowledge base with instances of N-Ary relations extracted from scientific textual documents. The proposed approach is based on an Ontological and Terminological Resource (OTR) and is divided into two Phases: (1) the recognition and extraction of argument instances of interest and (2) the linking of these instances in n-Ary relations. Phase (1) proposes an original representation of the extracted argument instances, called SciPuRe (Scientific Publication Representation). It integrates ontological, lexical and structural descriptors that describe the context of the argument instances and allows to sort them by their relevance. Phase (2) relies on the information present in the tables of the documents, extracted automatically, to guide the extraction of partial n-Arye relations, the tables containing an important part of the experimental data in the scientific articles. These partial relations are then completed with the argument instances recognized in Phase (1). Three approaches are proposed and evaluated in order to identify the argument instances that should complete the relations: the use of document structure, the analysis of cooccurrences between the argument instances in the texts, and finally the use of word-embedding models allowing to measure the similarities between the candidate argument instances and the arguments already filled in the partial relations. Our results show the importance of sorting the relevant instances after argument recognition in Phase (1) using SciPuRe features. Our experiments show that the two most important criteria for determining the relevance of a symbolic argument instance are the specificity of the concept associated with the argument in the OTR and its frequency in the document. For quantitative arguments, it is the apparition of the argument instance in sections of the documents that determines its relevance. Our experiments on Phase (2) confirm the usefulness of the relevance scores computed in Phase (1) to discriminate the instances. The analysis of the results with different filtering of the candidate argument instances according to their relevance shows a clear positive effect when filtering 20%$ of the instances with the lowest relevance. We also experimented with the possibility of selecting multiple candidates for each missing argument instance in a partial relation, in an approach to assist domain experts who can then determine the valid instance. When selecting a single candidate, the approach based on co-occurrence analyses gives the best results in detecting the valid candidate argument instance. With a larger selection of three or five candidates, semantic similarity analysis enabled by BERT word embeddings model provides good results for detecting associations between the argument instances present in partial relations and the candidate argument instances for relation completion. Finally, when selecting ten candidates, the experiments show that the approach based on document structure is effective to complete the n-Ary relations.
Mots-clés Agrovoc : données expérimentales, terminologie, ontologie de domaine, fouille de textes, fouille de données, système de relations
Classification Agris : C30 - Documentation et information
U10 - Informatique, mathématiques et statistiques
Auteurs et affiliations
- Lentschat Martin, CIRAD-ES-UMR TETIS (FRA)
Source : Cirad-Agritrop (https://agritrop.cirad.fr/600682/)
[ Page générée et mise en cache le 2024-01-29 ]