Agritrop
Accueil

MAEVa : Une approche hybride pour la mise en relation des variables expérimentales agroécologiques

Mechhour Oussama, Auzoux Sandrine, Jonquet Clément, Roche Mathieu. 2025. MAEVa : Une approche hybride pour la mise en relation des variables expérimentales agroécologiques. . AFIA, LIB, Université Bourgogne Europe. s.l. : s.n., 8 p. Rencontres des jeunes chercheurs en intelligence artificielle (RJCIA 2025), Dijon, France, 30 Juin 2025/4 Juillet 2025.

Communication sans actes
[img]
Prévisualisation
Version post-print - Français
Sous licence Licence Creative Commons.
RJCIA 2025.pdf

Télécharger (182kB) | Prévisualisation

Url - jeu de données - Dataverse Cirad : https://doi.org/10.18167/DVN1/9X3IVR

Résumé : Les variables sources ou les propriétés observables utilisées pour décrire les expérimentations agroécologiques sont hétérogènes, non standardisées et multilingues, rendant leur compréhension, explication et utilisation difficiles dans la modélisation des systèmes de culture et les évaluations multicritères de la performance des systèmes agroécologiques. L'annotation des données via un vocabulaire contrôlé, appelé variables candidates de Agroecological Global Information System (AEGIS), constitue une solution. Les mesures de similarité textuelle jouent un rôle clé dans la désambiguïsation du sens des mots, l'appariement de schémas dans les bases de données et l'annotation des données. Les approches courantes incluent (a) la similarité fondée sur les chaînes de caractères, (b) sur le corpus, (c) sur les connaissances et (d) les approches hybrides combinant deux ou plusieurs de ces méthodes. Ce travail propose une approche hybride, Matching Agroecological Experiment Variables (MAEVa), visant à apparier les variables sources et candidates selon (1) l'appariement des noms, (2) celui des descriptions, (3) une combinaison linéaire de (1) et (2), et (4) une méthode de sélection des résultats pour l'évaluation finale. Pour l'appariement des noms, nous étendons BERT-base avec une couche d'attention multi-têtes externe (BERTmha). Pour les descriptions, nous enrichissons celles existantes avec l'API GPT- 3.5 Turbo et utilisons TF-IDF pour la représentation vectorielle. Nos résultats montrent que BERTmha améliore la précision de plus de 11% par rapport à BERT-base seul et que notre corpus améliore celle de TF-IDF de plus de 4%. Notre évaluation (étape 4) montre que MAEVa atteint une précision de plus de 66% de P@1 à P@10.

Résumé (autre langue) : Source variables or observable properties used to describe agroecological experiments are heterogeneous, nonstandardized, and multilingual, making them challenging to understand, explain, and use in cropping system modeling and multicriteria evaluations of agroecological system performance. Data annotation via a controlled vocabulary, known as candidate variables from the Agroecological Global Information System (AEGIS), offers a solution. Text similarity measures play crucial roles in tasks such as word sense disambiguation, schema matching in databases, and data annotation. Commonly used measures include (a) string-based, (b) corpus-based, (c) knowledgebased, and (d) hybrid-based similarity, which combines two or more of these methods. This work introduces a hybrid approach called Matching Agroecological Experiment Variables (MAEVa), designed to match source and candidate variables based on (1) matching variable names, (2) matching variable descriptions, (3) a combination of (1) and (2) via a linear function, and (4) a method for selecting results for the final evaluation. For matching variable names, we propose a novel approach that extends BERT-base with an external multi-head attention layer (BERTmha). For matching variable descriptions, we augment existing descriptions using GPT-3.5 Turbo API to provide richer contextual information and employ TF-IDF to construct the vector space. Our experimental results demonstrate that BERTmha improves the precision of matching variable names by more than 11% compared to BERT-base alone, and that our constructed corpus enhances TF-IDF-based matching by more than 4%. Our evaluation (step 4) shows that MAEVa achieves a precision of over 66% from P@1 to P@10.

Mots-clés libres : Propriétés observables, Similarité fondée sur les chaînes de caractères, Similarité fondée sur les corpus, Similarité hybride, Modèles de langage pré-entraînés (PLMs), Grands modèles de langage (LLMs)

Agences de financement européennes : European Commission, European Regional Development Fund

Agences de financement hors UE : Agence Nationale de la Recherche, Conseil Régional de La Réunion, Ministère français de l'Agriculture et de la l'Alimentation

Programme de financement européen : Horizon Europe

Projets sur financement : (FRA) Institut Convergences en Agriculture Numérique, (EU) Developing Intercropping for agrifood Value chains and Ecosystem Services delivery in Europe and Southern countries, (EU) GURTDI, Non spécifié

Auteurs et affiliations

Source : Cirad-Agritrop (https://agritrop.cirad.fr/614087/)

Voir la notice (accès réservé à Agritrop) Voir la notice (accès réservé à Agritrop)

[ Page générée et mise en cache le 2025-09-09 ]