Agritrop
Home

A French text-message corpus: 88milSMS. Synthesis and usage

Panckhurst Rachel, Lopez Cédric, Roche Mathieu. 2020. A French text-message corpus: 88milSMS. Synthesis and usage. Corpus, 20, 23 p.

Journal article ; Article de recherche ; Article de revue à comité de lecture
[img]
Preview
Published version - Anglais
Use under authorization by the author or CIRAD.
Panckhurst_et_al._Corpus_2020.pdf

Télécharger (2MB) | Preview

Url - jeu de données : http://88milsms.huma-num.fr / Url - jeu de données : https://repository.ortolang.fr/api/content/comere/v3.2/cmr-88milsms.html

Titre français : Un corpus de SMS français : 88milSMS. Synthèse et usages

Abstract : In this article, firstly we briefly summarise the sud4science project and data collection (http://sud4science.org), ensuing processing/analysing stages, and the resulting corpus, 88milSMS (http://88milsms.huma-num.fr), through a synthesis of quotes and references to previous articles (§ 1). Secondly, we provide a state of the art on some research initiatives that use88milSMS in various domains and frameworks, which will enable future cross-disciplinary insight (§ 2). Then, we present other usages of the 88milSMS corpus we identified through surveys (§ 3). Finally, we suggest future paths for textual data collection and analysis.

Résumé (autre langue) : Dans cet article, nous décrivons synthétiquement le projet sud4science et la collecte de données associée (http://sud4science.org), les étapes de traitement/analyse qui en découlent et le corpus en résultant, 88milSMS (http://88milsms.huma-num.fr). Nous donnons d'abord un aperçu des travaux réalisés dans le cadre de ce projet à travers quelques citations et références (§ 1). Ensuite, nous fournissons un état de l'art sur des initiatives de recherche s'appuyant sur 88milSMS qui s'inscrivent dans des domaines et cadres de travail variés, ce qui ouvre la voie à de nouvelles perspectives interdisciplinaires (§ 2). Puis, nous présentons d'autres usages du corpus88milSMS que nous avons identifiés via un sondage (§ 3). Enfin, nous faisons quelques propositions pour la collecte et l'analyse de données textuelles.

Mots-clés Agrovoc : fouille de données, Analyse de données, Traitement des données, Collecte de données, Application des ordinateurs

Mots-clés complémentaires : fouille de texte

Mots-clés libres : Natural language processing, Text Mining

Classification Agris : C30 - Documentation and information
U10 - Mathematical and statistical methods

Champ stratégique Cirad : CTS 7 (2019-) - Hors champs stratégiques

Auteurs et affiliations

  • Panckhurst Rachel, Université Paul Valéry Montpellier 3 (FRA)
  • Lopez Cédric, Emvista (FRA)
  • Roche Mathieu, CIRAD-ES-UMR TETIS (FRA) ORCID: 0000-0003-3272-8568

Source : Cirad-Agritrop (https://agritrop.cirad.fr/594953/)

View Item (staff only) View Item (staff only)

[ Page générée et mise en cache le 2020-12-06 ]