Mechhour Oussama. 2023. Normalisation automatique des variables issues de bases de données en agroécologie. Villetaneuse : Université Sorbonne-Paris-Nord, 53 p. Mémoire de master 2 : Informatique : Université Sorbonne-Paris-Nord ; Université Sidi Mohamed Ben Abdelah
|
Version publiée
- Français
Sous licence . Rapport_de_stage_M2(Oussama MECHHOUR).pdf Télécharger (7MB) | Prévisualisation |
|
|
Version publiée
- Français
Sous licence . PRESENTATION-4.pdf Télécharger (718kB) | Prévisualisation |
Url - jeu de données - Dataverse Cirad : https://doi.org/10.18167/DVN1/XDHKR8
Matériel d'accompagnement : 1 diaporama (23 vues)
Encadrement : Auzoux, Sandrine ; Roche, Mathieu, Heuclin, Benjamin ; El Batteoui, Ismail
Résumé : Ce rapport de stage présente une étude réalisée au sein de l'UMR TETIS, située à la Maison De la Télédétection sur le campus Agropolis de Montpellier, en collaboration avec l'UR AIDA. Le stage s'est focalisé sur l'importance de la correspondance des variables sources et candidates en agroécologie. L'objectif principal de ce stage était de résoudre la problématique liée à l'hétérogénéité des variables utilisées par les chercheurs en agroécologie. Cependant, chaque chercheur a sa propre méthode de nomination et de description des variables sources, ce qui rend la correspondance complexe et sujette à des erreurs. Pour aborder cette problématique, différentes méthodes de représentation des données textuelles ont été explorées, telles que TF-IDF [1] et des approches basées sur des modèles de langues tels que BERT-base (section 3.3.2), BERT-large (section 3.3.2), RoBERTa (section 3.3.4) et XLNet (section 3.3.3), pour la vectorisation des noms et des descriptions des variables. Des mesures de similarité, telles que la distance de Levenshtein [2] et le cosinus [3], ont été appliquées pour évaluer la proximité entre les variables. Les résultats obtenus ont démontré des améliorations significatives par rapport aux approches précédentes [5]. Cependant, certaines limites ont été identifiées, notamment le nombre limité de variables en anglais, la formulation non canonique des variables, les descriptions courtes et l'absence de prise en compte des ontologies associées. Des recommandations ont été formulées pour surmonter ces limites, telles que la traduction des variables dans la même langue que les ontologies, la canonisation des variables non canoniques, l'extension du corpus avec des Données multilingues et hétérogènes, et l'utilisation de Méthodes de plongement de mots et de mesure de similarité. Ce rapport met en évidence l'importance de la correspondance des variables en agroécologie. Les résultats obtenus offrent de nouvelles perspectives pour une meilleure utilisation et compréhension des données agricoles.
Résumé (autre langue) : This internship report presents a study conducted at the MRU TETIS located at the Maison De la Télédétection on the Agropolis campus in Montpellier, in collaboration with the AIDA research unit. The focus of the internship was on the importance of matching between source and candidate variables in agroecology. The main objective of this internship was to address the issue related to the heterogeneity of variables used by researchers in agroecology. However, each researcher has their own method of naming and describing source variables, which makes the matching complex and prone to errors. To address this issue, various methods of textual data representation were explored, such as TF-IDF [1] and approaches based on language models like BERT-base (section 3.3.2), BERT-large (section 3.3.2), RoBERTa (section 3.3.4), and XLNet (section 3.3.3), for the vectorization of variable names and descriptions. Similarity measures, such as Levenshtein [2] distance and cosine [3], were applied to evaluate the proximity between variables. The results demonstrated significant improvements compared to previous approaches [5]. However, certain limites were identified, including the limited number of variables in English, non-canonical formulation of variables, short descriptions, and the lack of consideration for associated ontologies. Recommendations were made to overcome these limites, such as translating variables into the same language as the ontologies, canonizing non-canonical variables, expanding the corpus with multilingual and heterogeneous data, and utilizing word embedding and similarity measurement methods. This report highlights the importance of variable matching in agroecology. The obtained results offer new perspectives for better utilization and understanding of agricultural data
Mots-clés libres : Apprentissage automatique, Apprentissage profond, Traitement automatique du langage naturel, Base de données, Modèle de langue, Text Mining, Méthodes de plongement de mots, Distance de Levenshtein, Cosinus, Agroecologie, Ontologies, Canonisation, BERT, TF-IDF
Agences de financement hors UE : Centre de Coopération Internationale en Recherche Agronomique pour le Développement, Digital Agriculture Convergence Lab
Auteurs et affiliations
- Mechhour Oussama, Université Sidi Mohamed Ben Abdelah (MAR) ORCID: 0009-0004-3007-1229
Source : Cirad-Agritrop (https://agritrop.cirad.fr/606078/)
[ Page générée et mise en cache le 2024-09-02 ]