GENDESC : vers une nouvelle représentation des données textuelles

Tisserant Guillaume, Prince Violaine, Roche Mathieu. 2014. GENDESC : vers une nouvelle représentation des données textuelles. Revue des Nouvelles Technologies de l'Information, RNTI-E-27 : 127-146.

Article de revue ; Article de revue à comité de lecture

Version publiée - Français
Accès réservé aux agents Cirad
Utilisation soumise à autorisation de l'auteur ou du Cirad.
document_574603.pdf
Télécharger (352kB)

Résumé : Dans cet article nous nous intéressons à la classification automatique de données textuelles par des algorithmes d'apprentissage supervisé. L'objectif est de montrer comment l'amélioration de la représentation des données textuelles influe sur les performances des algorithmes d'apprentissage. Partant du postulat qu'un mot n'a pas un sens bien établi sans son contexte, nous proposerons des descripteurs donnant le plus d'information possible sur le contexte des mots. Pour cela, nous avons mis au point une méthode, nommée GENDESC, qui consiste à "généraliser" les mots les moins pertinents pour la classification, c'est-à-dire, à éviter le bruit sémantique (souvent dû à la polysémie) provoqué par ces termes non ou peu pertinents. Cette généralisation s'appuie sur des informations grammaticales, telles que la catégorie et la position dans la structure. La méthode GENDESC a été évaluée et adaptée à la problématique de classification de textes selon une opinion ou une thématique.

Classification Agris : C30 - Documentation et information
U30 - Méthodes de recherche

Champ stratégique Cirad : Hors axes (2014-2018)

Auteurs et affiliations

Tisserant Guillaume, LIRMM (FRA)
Prince Violaine, LIRMM (FRA)
Roche Mathieu, CIRAD-ES-UMR TETIS (FRA) ORCID: 0000-0003-3272-8568

Source : Cirad - Agritrop (https://agritrop.cirad.fr/574603/)

Voir la notice (accès réservé à la Dist)

[ Page générée et mise en cache le 2022-04-16 ]

GENDESC : vers une nouvelle représentation des données textuelles

Téléchargements Agritrop