Keip Priscilla. 2021. Conversion automatique de modèles et de jeux de données pour l'exploration conceptuelle : application à une base de connaissances du vivant. Montpellier : Université de Montpellier, 134 p. Thèse de doctorat : Information, structures et systèmes : Université de Montpellier
Version publiée
- Français
Accès réservé aux personnels Cirad Utilisation soumise à autorisation de l'auteur ou du Cirad. ID600224.pdf Télécharger (4MB) | Demander une copie |
Url - jeu de données - Dataverse Cirad : https://doi.org/10.18167/DVN1/HTFE8T / Url - jeu de données - Dataverse Cirad : https://doi.org/10.18167/DVN1/5AASZE / Url - jeu de données - Dataverse Cirad : https://doi.org/10.18167/DVN1/VNCZYA
Encadrement : Huchard, Marianne ; Martin, Pierre ; Silvie, Pierre
Résumé : Les Sciences du vivant et de l'environnement génèrent de nombreuses bases de données et de connaissances. L'exploration conceptuelle est une approche de fouille de données qui permet d'en extraire de nouvelles connaissances. Les méthodes d'exploration conceptuelle considérées dans ce travail relèvent de l'Analyse de Concepts Formels (FCA). Toute méthode issue de FCA imposant en entrée une structuration prédéfinie des données, la question de recherche traitée concerne la conversion automatique d'une base de données ou de connaissances en vue de son exploration avec FCA ou avec l'Analyse de Concepts Relationnels (RCA), une extension aux données multi-relationnelles. Pour asseoir ce travail, nous avons utilisé la base de connaissances Knomana, qui rassemble des descriptions d'usage de plantes. Selon les connaissances considérées, diverses problématiques de conversion doivent être résolues pour permettre une fouille de données pertinente par les utilisateurs finaux. Ces problématiques peuvent se situer au niveau du schéma (modèle de classes) ou au niveau des instances, principalement (1) la conversion des relations de spécialisation en aplatissant la hiérarchie d'héritage; (2) la conversion d'une relation ternaire via la matérialisation ou des relations binaires, et (3) la levée de l'indétermination de la désignation d'organismes vivants par l'usage de l'abréviation spp. dans sa dénomination binominale (linnéenne). La méthodologie adoptée relève de l'ingénierie dirigée par les modèles, de la transformation des bases de données, du refactoring en ingénierie logicielle et de la conversion d'ontologies. Cette thèse présente un algorithme général de conversion d'un jeu de connaissances pour RCA, dont la structure est représentée sous la forme d'un diagramme de classes au format UML. L'algorithme est appliqué à Knomana et diverses modélisations de la relation ternaire en relations binaires et une modélisation de la levée de l'indétermination d'un nom d'espèce sont expérimentées. L'évaluation de cet algorithme est effectuée en regard de son applicabilité, de son aptitude à être utilisé pour des volumes de données importants (i.e. passage à l'échelle), et de sa pertinence. La perspective offerte par ce travail est de permettre l'analyse de tout jeu de données et de connaissances avec FCA et RCA.
Mots-clés Agrovoc : fouille de données, analyse de données, banque de données, système basé sur la connaissance, plante pesticide
Mots-clés libres : Base de connaissances, Base de données, Exploration conceptuelle, Analyse de Concepts Formels, Conversion, Knomana, Relation n-aire, Indétermination, Ingénierie dirigée par les modèles
Classification Agris : C30 - Documentation et information
H01 - Protection des végétaux - Considérations générales
Auteurs et affiliations
- Keip Priscilla, CIRAD-PERSYST-UPR AIDA (FRA) ORCID: 0000-0001-6542-3360
Source : Cirad-Agritrop (https://agritrop.cirad.fr/600224/)
[ Page générée et mise en cache le 2024-01-29 ]