Normalisation automatique des variables issues de bases de données en agroécologie

Mechhour Oussama. 2023. Normalisation automatique des variables issues de bases de données en agroécologie. Villetaneuse : Université Sorbonne-Paris-Nord, 53 p. Mémoire de master 2 : Informatique : Université Sorbonne-Paris-Nord ; Université Sidi Mohamed Ben Abdelah

Mémoire

Prévisualisation

Version publiée - Français
Sous licence

.
Rapport_de_stage_M2(Oussama MECHHOUR).pdf
Télécharger (7MB) | Prévisualisation

Prévisualisation

Version publiée - Français
Sous licence

.
PRESENTATION-4.pdf
Télécharger (718kB) | Prévisualisation

Url - jeu de données - Dataverse Cirad : https://doi.org/10.18167/DVN1/XDHKR8

Matériel d'accompagnement : 1 diaporama (23 vues)

Encadrement : Auzoux, Sandrine ; Roche, Mathieu, Heuclin, Benjamin ; El Batteoui, Ismail

Résumé : Ce rapport de stage présente une étude réalisée au sein de l'UMR TETIS, située à la Maison De la Télédétection sur le campus Agropolis de Montpellier, en collaboration avec l'UR AIDA. Le stage s'est focalisé sur l'importance de la correspondance des variables sources et candidates en agroécologie. L'objectif principal de ce stage était de résoudre la problématique liée à l'hétérogénéité des variables utilisées par les chercheurs en agroécologie. Cependant, chaque chercheur a sa propre méthode de nomination et de description des variables sources, ce qui rend la correspondance complexe et sujette à des erreurs. Pour aborder cette problématique, différentes méthodes de représentation des données textuelles ont été explorées, telles que TF-IDF [1] et des approches basées sur des modèles de langues tels que BERT-base (section 3.3.2), BERT-large (section 3.3.2), RoBERTa (section 3.3.4) et XLNet (section 3.3.3), pour la vectorisation des noms et des descriptions des variables. Des mesures de similarité, telles que la distance de Levenshtein [2] et le cosinus [3], ont été appliquées pour évaluer la proximité entre les variables. Les résultats obtenus ont démontré des améliorations significatives par rapport aux approches précédentes [5]. Cependant, certaines limites ont été identifiées, notamment le nombre limité de variables en anglais, la formulation non canonique des variables, les descriptions courtes et l'absence de prise en compte des ontologies associées. Des recommandations ont été formulées pour surmonter ces limites, telles que la traduction des variables dans la même langue que les ontologies, la canonisation des variables non canoniques, l'extension du corpus avec des Données multilingues et hétérogènes, et l'utilisation de Méthodes de plongement de mots et de mesure de similarité. Ce rapport met en évidence l'importance de la correspondance des variables en agroécologie. Les résultats obtenus offrent de nouvelles perspectives pour une meilleure utilisation et compréhension des données agricoles.

Résumé (autre langue) : This internship report presents a study conducted at the MRU TETIS located at the Maison De la Télédétection on the Agropolis campus in Montpellier, in collaboration with the AIDA research unit. The focus of the internship was on the importance of matching between source and candidate variables in agroecology. The main objective of this internship was to address the issue related to the heterogeneity of variables used by researchers in agroecology. However, each researcher has their own method of naming and describing source variables, which makes the matching complex and prone to errors. To address this issue, various methods of textual data representation were explored, such as TF-IDF [1] and approaches based on language models like BERT-base (section 3.3.2), BERT-large (section 3.3.2), RoBERTa (section 3.3.4), and XLNet (section 3.3.3), for the vectorization of variable names and descriptions. Similarity measures, such as Levenshtein [2] distance and cosine [3], were applied to evaluate the proximity between variables. The results demonstrated significant improvements compared to previous approaches [5]. However, certain limites were identified, including the limited number of variables in English, non-canonical formulation of variables, short descriptions, and the lack of consideration for associated ontologies. Recommendations were made to overcome these limites, such as translating variables into the same language as the ontologies, canonizing non-canonical variables, expanding the corpus with multilingual and heterogeneous data, and utilizing word embedding and similarity measurement methods. This report highlights the importance of variable matching in agroecology. The obtained results offer new perspectives for better utilization and understanding of agricultural data

Mots-clés libres : Apprentissage automatique, Apprentissage profond, Traitement automatique du langage naturel, Base de données, Modèle de langue, Text Mining, Méthodes de plongement de mots, Distance de Levenshtein, Cosinus, Agroecologie, Ontologies, Canonisation, BERT, TF-IDF

Agences de financement hors UE : Centre de Coopération Internationale en Recherche Agronomique pour le Développement, Digital Agriculture Convergence Lab

Auteurs et affiliations