Syed Mehtab Alam. 2023. Definition and integration of new insights for improving disease surveillance systems. Montpellier : Université de Montpellier, 131 p. Thèse de doctorat : Informatique : Université de Montpellier
Version publiée
- Anglais
Accès réservé aux personnels Cirad jusqu'au 8 Décembre 2030. Utilisation soumise à autorisation de l'auteur ou du Cirad. Manuscript_Definition_and_integration_of_new_insights_for_improving_disease_surveillance_systems (2).pdf Télécharger (9MB) | Demander une copie |
Encadrement : Roche, Mathieu ; Teisseire, Maguelonne ; Arsevska, Elena
Résumé : Une recrudescence des maladies infectieuses a conduit à une augmentation significative des menaces sanitaires signalées à partir de diverses sources en ligne. Les systèmes de surveillance basés sur les événements (EBS) détectent les menaces sanitaires ou les événements en utilisant des approches automatisées pour aider les parties prenantes à prendre des mesures préventives en temps opportun. Il existe un important potentiel d'amélioration dans l'extraction d'événements pour renforcer l'efficacité des EBS. Dans cette thèse, nous proposons d'améliorer l'extraction automatique de données pour les événements et fournir des informations plus précises. Et tout particulièrement, nous nous intéressons à la qualité des données, l'amélioration de la précision géographique et l'analyse de sentiment. Ce travail est soutenu par le projet MOOD qui vise à améliorer la surveillance en épidémiologie des systèmes de type EBS. Pour surveiller efficacement les maladies infectieuses à partir de sources de données en ligne, il est impératif de mettre en oeuvre des mesures d'évaluation de la qualité des données afin d'obtenir des informations fiables et dignes de confiance. Dans notre travail visant à améliorer la qualité des données, nous introduisons une approche basée sur les données pour classer les articles de presse comme pertinents ou non pertinents en enrichissant le contexte épidémiologique. Nous explorons également les caractéristiques des métadonnées des actualités en appliquant une approche d'apprentissage automatique pour identifier les métadonnées importantes. De plus, nous explorons également l'amélioration des attributs de qualité de la source d'actualités en proposant l'identification de la spécialisation de la source et l'identification de la couverture géographique. Pour extraire des informations sur les événements l'exactitude géographique joue un rôle essentiel en épidémiologie. Nous proposons une approche de reconnaissance d'entités nommées (NER) basée sur des règles pour extraire les relations spatiales liées aux emplacements mentionnés dans les données textuelles, qui est évaluée à l'aide d'un ensemble d'articles de presse couvrant diverses maladies. De plus, nous présentons un algorithme pour calculer les coordonnées géographiques sous forme de polygones pour les emplacements de relations spatiales identifiées, avec des évaluations qualitatives impliquant les utilisateurs finaux. Extraire des sentiments des médias sociaux, par exemple des tweets géolocalisés offre des aperçus en temps réel pour évaluer la gravité d'un événement. Nous avons effectué une analyse de sentiment en utilisant des mesures basées sur la hiérarchie spatiale pour l'analyse des tweets (H-TFIDF) afin de comprendre les sentiments locaux pendant l'épidémie de COVID-19. Cette analyse a été évaluée sur un jeu de données liés au COVID-19 catégorisé en groupes spatiaux. De plus, diverses fonctionnalités, y compris celles basées sur le modèle de langue Bidirectional Encoder Representations from Transformers (BERT), H-TFIDF, la fréquence des termes-inverse de la fréquence du document (TF-IDF) et le sac de mots (BOW), ont été évaluées pour mesurer leur importance dans la classification des sentiments.
Résumé (autre langue) : An escalation in infectious diseases has led to a significant increase in health threats reported across diverse online sources. Event-based surveillance (EBS) systems detect health threats or events by utilizing automated approaches to assist stakeholders in taking timely preventive measures. There is significant room for improvement across various aspects of the event to enhance the effectiveness of EBS. In this thesis, we improve several aspects of the event to provide more precise information by ensuring prior data quality assessment, geographical accuracy enhancement, and post-situational awareness. This work is supported by the MOOD 1 project, which aims to enhance the utility of EBS. To effectively monitor infectious diseases reported from online sources, it is imperative to implement data quality assessment measures in order to obtain trustworthy and reliable information. In our work to improve data quality, we introduce a data-driven approach to classify news articles as relevant or irrelevant by enriching the epidemiological context. We also explore metadata features of online news by applying a machine learning approach to identify important metadata features. Moreover, we also explore enhancing news source quality attributes, proposing the identification of source specialization and geographical coverage identification for improved classification performance. To extract event information, the geographical accuracy of events plays a pivotal role in epidemiology allows precise tracking, containment thereby significantly impacting public health outcomes. Secondly, in our work to improve geographical accuracy, we propose a rule-based Named Entity Recognition (NER) approach to extract spatial relations related to locations mentioned in text data, evaluated using a diverse news article dataset covering various diseases. Additionally, we present an algorithm to compute geographical coordinates in the form of polygons for identified spatial relation locations, with qualitative assessments involving end-users to ensure their quality and utility. Extracting situational awareness from social media e.g. geotagged tweets of geographically accurate event region are offering real-time insights to gauge severity of event. Finally, for situational awareness, we performed sentiment analysis using Hierarchy-based measures for tweet analysis (HTFIDF) to understand local sentiments during the COVID-19 epidemic, evaluated with early COVID- 19-related tweets from the E.Chen dataset categorized into spatial groups. Furthermore, various features including Bidirectional Encoder Representations from Transformers (BERT), H-TFIDF, term frequency-inverse document frequency (TF-IDF), and bag-of-words (BOW), were employed in spatial opinion mining to assess their significance in sentiment classification.
Mots-clés libres : Text Mining, Event extraction, One Health, NLP
Projets sur financement : (EU) MOnitoring Outbreak events for Disease surveillance in a data science context
Auteurs et affiliations
- Syed Mehtab Alam, CIRAD-ES-UMR TETIS (FRA)
Source : Cirad-Agritrop (https://agritrop.cirad.fr/610378/)
[ Page générée et mise en cache le 2024-09-23 ]