Agritrop
Accueil

A French text-message corpus: 88milSMS. Synthesis and usage

Panckhurst Rachel, Lopez Cédric, Roche Mathieu. 2020. A French text-message corpus: 88milSMS. Synthesis and usage. Corpus, 20, 23 p.

Article de revue ; Article de recherche ; Article de revue à comité de lecture
[img]
Prévisualisation
Version publiée - Anglais
Utilisation soumise à autorisation de l'auteur ou du Cirad.
Panckhurst_et_al._Corpus_2020.pdf

Télécharger (2MB) | Prévisualisation

Url - jeu de données - Entrepôt autre : http://88milsms.huma-num.fr / Url - jeu de données - Entrepôt autre : https://repository.ortolang.fr/api/content/comere/v3.2/cmr-88milsms.html

Titre français : Un corpus de SMS français : 88milSMS. Synthèse et usages

Résumé : In this article, firstly we briefly summarise the sud4science project and data collection (http://sud4science.org), ensuing processing/analysing stages, and the resulting corpus, 88milSMS (http://88milsms.huma-num.fr), through a synthesis of quotes and references to previous articles (§ 1). Secondly, we provide a state of the art on some research initiatives that use88milSMS in various domains and frameworks, which will enable future cross-disciplinary insight (§ 2). Then, we present other usages of the 88milSMS corpus we identified through surveys (§ 3). Finally, we suggest future paths for textual data collection and analysis.

Résumé (autre langue) : Dans cet article, nous décrivons synthétiquement le projet sud4science et la collecte de données associée (http://sud4science.org), les étapes de traitement/analyse qui en découlent et le corpus en résultant, 88milSMS (http://88milsms.huma-num.fr). Nous donnons d'abord un aperçu des travaux réalisés dans le cadre de ce projet à travers quelques citations et références (§ 1). Ensuite, nous fournissons un état de l'art sur des initiatives de recherche s'appuyant sur 88milSMS qui s'inscrivent dans des domaines et cadres de travail variés, ce qui ouvre la voie à de nouvelles perspectives interdisciplinaires (§ 2). Puis, nous présentons d'autres usages du corpus88milSMS que nous avons identifiés via un sondage (§ 3). Enfin, nous faisons quelques propositions pour la collecte et l'analyse de données textuelles.

Mots-clés Agrovoc : fouille de données, analyse de données, traitement des données, collecte de données, application des ordinateurs, fouille de textes

Mots-clés libres : Natural language processing, Text Mining

Classification Agris : C30 - Documentation et information
U10 - Informatique, mathématiques et statistiques

Champ stratégique Cirad : CTS 7 (2019-) - Hors champs stratégiques

Auteurs et affiliations

  • Panckhurst Rachel, Université Paul Valéry Montpellier 3 (FRA)
  • Lopez Cédric, Emvista (FRA)
  • Roche Mathieu, CIRAD-ES-UMR TETIS (FRA) ORCID: 0000-0003-3272-8568

Source : Cirad-Agritrop (https://agritrop.cirad.fr/594953/)

Voir la notice (accès réservé à Agritrop) Voir la notice (accès réservé à Agritrop)

[ Page générée et mise en cache le 2024-01-29 ]