Agritrop
Accueil

Combinaison d'étiqueteurs morphosyntaxiques, de lexiques flexionnels et de marqueurs de glose pour détecter les néologismes en français du Burkina

Zoumbara Célestin, Roche Mathieu, Diwersy Sascha, Ouedraogo Youssouf, Martin Pierre. 2020. Combinaison d'étiqueteurs morphosyntaxiques, de lexiques flexionnels et de marqueurs de glose pour détecter les néologismes en français du Burkina. In : Lexicometrica - Actes des JADT'2020. LERASS, Université de Toulouse. Toulouse : LERASS, 13 p. Journées Internationales d'Analyse statistique des Données Textuelles (JADT 2020). 15, Toulouse, France, 16 Juin 2020/19 Juin 2020.

Communication avec actes
[img]
Prévisualisation
Version publiée - Français
Utilisation soumise à autorisation de l'auteur ou du Cirad.
ZOUMBARA_ROCHE_DIWERSY_OUEDRAOGO_MARTIN_JADT2020.pdf

Télécharger (155kB) | Prévisualisation

Résumé : Le français du Burkina est marqué par le multilinguisme national. Dans l'objectif d'extraire automatiquement des néologismes sur des données textuelles, nous avons développé l'approche Extranéo. Celle-ci intègre des outils de Traitement automatique du langage naturel (TALN) pour détecter les néologismes formels et leurs contextes d'utilisation. Extranéo combine un étiqueteur morphosyntaxique et un lexique flexionnel pour identifier les néologismes candidats, validés ensuite manuellement. L'usage de patrons de glose permet enfin d'accéder aux contextes des néologismes validés. Dans cet article, quatre étiqueteurs morphosyntaxiques, cinq lexiques flexionnels et des marqueurs de glose sont évalués afin de détecter les plus performants. Les résultats montrent que sur les articles de journaux, l'étiqueteur TreeTagger obtient la plus forte F-mesure, 0.86 en matière d'étiquetage. Sur l'identification des néologismes candidats, les lexiques DELA et Morphalou obtiennent la Fmesure la plus élevée, 0.52. La mise en relief des contextes des néologismes validés révèle que le contexte définitoire détient la précision la plus élevée, à savoir 0.49, devant les contextes de dénomination (0.22) et d'équivalence (0.24).

Résumé (autre langue) : The French language of Burkina is marked by national multilingualism. In order to extract automatically neologisms from textual data, we have developed the Extranéo approach. This approach integrates Automatic Natural Language Processing (NLP) tools to detect formal neologisms and their contexts of use. Extranéo combines a morphosyntactic labeler and an inflectional lexicon to identify candidate neologisms, which are then validated manually. The use of gloss patterns finally allows access to the contexts of validated neologisms. In this paper, four morphosyntactic labelers, five inflectional lexicons, and gloss markers are evaluated in order to detect the most efficient ones. The results show that on newspaper articles, TreeTagger obtains the highest F-measure, i.e. 0.86, for labelling. To identify candidate neologisms, the DELA and Morphalou lexicons obtain the highest F-measure, i.e. 0,52. Highlighting the context of the validated neologisms reveals that the defining context has the highest accuracy, i.e. 0.49, ahead of the naming (0.22) and equivalence (0.24) contexts.

Mots-clés libres : Traitement automatique du langage naturel, Néologisme, Gloses, Burkina Faso

Auteurs et affiliations

  • Zoumbara Célestin, CIRAD-PERSYST-UPR AIDA (FRA)
  • Roche Mathieu, CIRAD-ES-UMR TETIS (FRA) ORCID: 0000-0003-3272-8568
  • Diwersy Sascha, Université Paul Valéry Montpellier 3 (FRA)
  • Ouedraogo Youssouf, Université de Ouagadougou (BFA)
  • Martin Pierre, CIRAD-PERSYST-UPR AIDA (FRA) ORCID: 0000-0002-4874-5795

Source : Cirad-Agritrop (https://agritrop.cirad.fr/597679/)

Voir la notice (accès réservé à la Dist) Voir la notice (accès réservé à la Dist)

[ Page générée et mise en cache le 2022-01-27 ]