El Bahdja Boudoua. 2024. Integrating epidemiological and environmental data for enhanced event-based Surveillance Systems. Montpellier : Université de Montpellier, 131 p. Thèse de doctorat : Informatique : Université de Montpellier
Version publiée
- Anglais
Accès réservé aux personnels Cirad Utilisation soumise à autorisation de l'auteur ou du Cirad. Integrating_Epidemiological_and_Environmental_Data_for_enhanced_Event_Based_Surveillance_Systems.pdf Télécharger (6MB) | Demander une copie |
Url - jeu de données - Entrepôt autre : https://doi.org/10.57745/99SNOZ / Url - jeu de données - Dataverse Cirad : https://doi.org/10.18167/DVN1/FYWDOJ / Url - jeu de données - Entrepôt autre : https://doi.org/10.57745/99SNOZ / Url - jeu de données - Entrepôt autre : https://doi.org/10.57745/MPNSPH / Url - jeu de données - Entrepôt autre : https://zenodo.org/record/7828530
Encadrement : Teisseire, Maguelonne ; Tran, Annelise ; Roche, Mathieu
Résumé : Les systèmes de surveillance basée sur les événements (SBE) tels que HealthMap, ProMED et PADI-web sont utilisés quotidiennement afin de détecter des événements épidémiologiques signalés dans les médias en ligne (articles). Une fois les articles collectés, ces systèmes s'appuient sur des algorithmes de classification supervisée et/ou une modération humaine pour classer les articles selon leur pertinence. L'application de telles méthodes peut être difficile, car les jeux de données épidémiologiques ne sont pas équilibrés. D'autre part, l'annotation d'articles, qui sert à l'apprentissage des méthodes supervisées, est coûteuse et chronophage. De plus, les facteurs de risque liés à l'apparition et transmission des maladies (facteurs de risque environnementaux et épidémiologiques) ne se trouvent pas toujours dans les données textuelles et ne sont donc pas pris en compte par les systèmes de SBE. Dans ce contexte, nous proposons une approche non-supervisée qui s'appuie sur les informations spatio-temporelles des événements épidémiologiques détectés, pour classer les articles en tenant compte des facteurs environnementaux par le biais de cartes de risques. Cette méthode, appelée EpiDCA, est une adaptation de l'algorithme des cellules dendritiques (DCA), inspirée par la théorie du danger. EpiDCA se caractérise par des paramètres définis par des experts, ce qui le rend applicable à différentes maladies et contextes environnementaux. La méthode proposée a été testée sur un premier jeu de données relatif à l'influenza aviaire en Asie entre 2018 et 2019, ainsi qu'une carte de risque produite pour la même région. Pour l'évaluer, nous avons calculé la précision, le rappel et le F-score. EpiDCA a obtenu une très bonne performance avec un F-score de 0,82 pour un jeu de données déséquilibré et de 0,90 pour un ensemble de données équilibré. Les résultats ont également confirmé que la prise en compte des facteurs de risque des maladies est une bonne approche pour la classification des événements. EpiDCA a ensuite été comparé aux méthodes d'apprentissage supervisé et s'est avéré compétitif. Après cette application initiale, l'objectif était d'évaluer la robustesse et la généricité de la méthode dans différents contextes géographiques et à travers divers systèmes épidémiologiques, notamment une maladie animale transfrontalière (la peste porcine africaine) et une maladie zoonotique vectorielle (la fièvre du Nil occidental) en Europe. Nous avons construit un jeu de données original à partir des articles détectés par PADI-web. Nous avons également développé une méthode d'annotation pour labelliser les articles. Nous avons ensuite proposé une extension de la méthode qui permet d'intégrer des covariables supplémentaires pour l'améliorer en termes de réactivité et de précision. Les perspectives avec EpiDCA incluent la réduction du nombre de paramètres et l'application du modèle à d'autres contextes de surveillance qui s'appuient sur les mêmes types de sources, tels que les maladies végétales et la sécurité alimentaire.
Résumé (autre langue) : Event Based Surveillance (EBS) systems such as HealthMap, Promed and PADI-web are used daily to timely detect outbreak events reported in web articles. Once the articles are collected, these systems rely on human moderation and supervised classification algorithms to classify articles according to their relevance. Applying such methods can be challenging, as epidemiological datasets have an imbalanced class distribution, and because the annotation task, which is critical to the success of these models, can be expensive and time consuming. Another important limitation of EBS systems is that the drivers of disease transmission (e.g. disease characteristics, environmental and epidemiological risk factors) are not always found in textual data and are therefore not taken into account by EBS systems. In this context, we propose an unsupervised approach that relies on the spatio-temporal information of the reported epidemiological events, to classify articles while taking into account the environmental factors associated with disease onset through risk mapping. This method, called EpiDCA, is an adaptation of the Dendritic Cells Algorithm (DCA), inspired by the danger theory. EpiDCA is characterized by expert-defined parameters, making it applicable to different diseases and environmental contexts. The proposed method was first tested and evaluated using a dataset related to avian influenza (AI) in Asia between 2018 and 2019, and a suitability map for AI produced for the same area. To measure the accuracy of the model, we calculated the precision, recall and F-score. EpiDCA achieved a very good performance with an F-score of 0.82 and 0.90 for an imbalanced and a balanced dataset respectively. The results confirmed that considering disease risk factors is a good approach in event classification. EpiDCA was then compared with state-of-the-art supervised machine learning methods and appeared to be competitive. After this initial application, we aimed to evaluate the robustness and genericity of the method in different geographical contexts and across various epidemiological systems, specifically; a transboundary animal disease (African Swine Fever) and a vector-borne zoonotic disease (West-Nile Virus Disease) in Europe. For this purpose, we constructed an original dataset from articles detected by PADI-web. We also developed a method and guidelines to annotate the articles. The consistent results confirmed the robustness of EpiDCA. Then we extended the method by integrating additional covariates to further enhance its reactivity and accuracy. Future perspectives with EpiDCA include the reduction of the number of parameters and the application of the model to other surveillance contexts that rely on the same sources, such as plant disease surveillance, and food security surveillance.
Mots-clés libres : Event-based surveillance, Danger theory, Dendritic Cells Algorithm, Avian influenza, African swine fever, West-Nile Disease
Agences de financement européennes : European Commission
Programme de financement européen : H2020
Projets sur financement : (EU) MOnitoring Outbreak events for Disease surveillance in a data science context
Auteurs et affiliations
- El Bahdja Boudoua, Université de Montpellier (FRA)
Source : Cirad-Agritrop (https://agritrop.cirad.fr/611416/)
[ Page générée et mise en cache le 2024-12-19 ]