Découverte de nouvelles entités et relations spatiales à partir d'un corpus de SMS

Zenasni Sarah, Kergosien Eric, Roche Mathieu, Teisseire Maguelonne. 2016. Découverte de nouvelles entités et relations spatiales à partir d'un corpus de SMS. In : Actes de la conférence TALN'16. Paris : AFCP-ATALA, 403-410. Conférence sur le Traitement Automatique des Langues Naturelles (TALN'2016). 23, Paris, France, 4 Juillet 2016/8 Juillet 2016.

https://jep-taln2016.limsi.fr/actes/index.php?lang=fr

Communication avec actes

Prévisualisation

Version publiée - Français
Utilisation soumise à autorisation de l'auteur ou du Cirad.
Zenasni_TALN2016.pdf
Télécharger (2MB) | Prévisualisation

Url - jeu de données - Dataverse Cirad : https://doi.org/10.18167/DVN1/LPY080

Titre anglais : Discovering of new spatial entities and relations from SMS

Résumé : Dans le contexte des masses de données aujourd'hui disponibles, de nombreux travaux liés à l'analyse de l'information spatiale s'appuient sur l'exploitation des données textuelles. La communication médiée (SMS, tweets, etc.) véhiculant des informations spatiales prend une place prépondérante. L'objectif du travail présenté dans cet article consiste à extraire ces informations spatiales à partir d'un corpus authentique de SMS en français. Nous proposons un processus dans lequel, dans un premier temps, nous extrayons de nouvelles entités spatiales (par exemple, motpellier, montpeul à associer au toponyme Montpellier). Dans un second temps, nous identifions de nouvelles relations spatiales qui précèdent les entités spatiales (par exemple, sur, par, pres, etc.). La tâche est difficile et complexe en raison de la spécificité du langage SMS qui repose sur une écriture peu standardisée (apparition de nombreux lexiques, utilisation massive d'abréviations, variation par rapport à l'écrit classique, etc.). Les expérimentations qui ont été réalisées à partir du corpus 88milSMS mettent en relief la robustesse de notre système pour identifier de nouvelles entités et relations spatiales.

Résumé (autre langue) : Within the context of the currently available data masses, many works related to the analysis of spatial information are based on the exploitation of textual data. Mediated communication (SMS, tweets, etc.) conveying spatial information takes a prominent place. The objective of the work presented in this paper is to extract the spatial information from an authentic corpus of SMS in French. We propose a process in which, firstly, we extract new spatial entities (e.g. motpellier, montpeul associate with the place names Montpellier). Secondly, we identify new spatial relations that precede spatial entities (e.g. sur, par, pres, etc.). The task is very challenging and complex due of the specificity of SMS language which is based on weakly standardized writing (lexical creation, massive use of abbreviations, textual variants, etc.). The experiments that were carried out from the corpus 88milSMS highlight the robustness of our system in identifying new spatial entities and relations.

Mots-clés libres : Fouille de textes, Entités spatiales, Relations spatiales, Mesure de similarité, Corpus de SMS

Classification Agris : C30 - Documentation et information
000 - Autres thèmes
U10 - Informatique, mathématiques et statistiques
U30 - Méthodes de recherche

Auteurs et affiliations

Zenasni Sarah, CIRAD-ES-UMR TETIS (FRA)
Kergosien Eric, Université de Lille (FRA)
Roche Mathieu, CIRAD-ES-UMR TETIS (FRA) ORCID: 0000-0003-3272-8568
Teisseire Maguelonne, IRSTEA (FRA)

Source : Cirad-Agritrop (https://agritrop.cirad.fr/581011/)

Voir la notice (accès réservé à la Dist)

[ Page générée et mise en cache le 2022-09-01 ]

Découverte de nouvelles entités et relations spatiales à partir d'un corpus de SMS

Téléchargements Agritrop