Heuclin Benjamin. 2021. Sélection bayésienne de variables pour données longitudinales avec effets différentiels dans le temps : application à l'amélioration génétique. Montpellier : Université de Montpellier, 138 p. Thèse de doctorat : Biostatistique : Université de Montpellier
|
Version publiée
- Français
Utilisation soumise à autorisation de l'auteur ou du Cirad. ID600717.pdf Télécharger (2MB) | Prévisualisation |
Titre anglais : Bayesian variables selection for longitudinal data with differential effects through time : application to genetic improvement
Encadrement : Trottier, Catherine ; Mortier, Frédéric ; Denis, Marie
Résumé : En agronomie et plus spécifiquement en amélioration génétique, le génotypage haut débit a été largement mis à profit, depuis maintenant plus de 20 ans, pour accéder à une information génétique toujours plus riche et abondante. Celle-ci a permis d'identifier les positions le long du génome impliquées dans la variabilité de caractères d'intérêt. Plus récemment, les méthodes de phénotypage haut débit ont fait leur apparition. Elles donnent accès au suivi de l'évolution de plusieurs caractères phénotypiques au cours du temps. Ces données, longitudinales, permettent d'étudier finement la dynamique évolutive de ces caractères tout en identifiant les facteurs environnementaux qui influencent leur variabilité selon les stades de développement. Cependant, l'analyse de telles données soulève plusieurs défis statistiques. Cette thèse propose des développements méthodologiques afin de prendre en compte les dépendances entre observations et entre variables, de sélectionner les variables génétiques ou environnementales pertinentes, ou encore d'estimer des effets qui évoluent au cours du temps. Le cadre bayésien est un formalisme statistique élégant pour répondre à ces différentes problématiques notamment au travers de la construction de lois a priori. Nous étudions et comparons différentes lois a priori pour simultanément inférer et sélectionner les effets fixes et/ou aléatoires quand ceux-ci peuvent être nombreux. Nous considérons différents cadres de modélisation statistique classiquement utilisés pour l'analyse de données longitudinales. En particulier, nous nous focaliserons sur les modèles à coefficients variants, les modèles linéaires mixtes ou encore la régression sur signal. Ce travail a été motivé par différentes applications pratiques portant sur l'évolution temporelle de l'architecture génétique, la détection de QTL ou l'impact des variations climatiques sur la variabilité phénotypique. Trois jeux de données, issus de contextes agronomiques variés, sont utilisés pour illustrer ces nouvelles approches.
Résumé (autre langue) : In agronomy, and more specifically in genetic breeding, high throughput genotyping has been widely used for more than 20 years to access increasingly rich and abundant genetic information. This has allowed the identification of positions along the genome involved in the variability of traits of interest. More recently, high throughput phenotyping methods have been developed. They give access to the monitoring of the evolution of several phenotypic traits over time. These longitudinal data allow a fine study of the dynamics of these traits, while identifying the environmental factors that influence their variability according to developmental stages. However, the analysis of such data raises several statistical challenges. This thesis proposes methodological developments in order to take into account the dependencies between observations and between variables, to select relevant genetic or environmental variables, or to estimate effects that evolve over time. The Bayesian framework is an elegant statistical formalism to address these different issues, especially through the construction of priors.We study and compare different priors to simultaneously infer and select fixed and/or random effects when they can be numerous. We consider different statistical modeling frameworks classically used for longitudinal data analysis. In particular, we focus on linear mixed models, varying coefficient models or signal regression. This work was motivated by various practical applications concerning the QTL detection, the temporal evolution of genetic architecture or the impact of climatic variations on phenotypic variability. Three datasets, from various agronomical contexts, are used to illustrate these new approaches.
Mots-clés Agrovoc : amélioration génétique, théorie Bayésienne, phénotype, génotype, génomique, modèle linéaire, étude longitudinale
Classification Agris : F30 - Génétique et amélioration des plantes
U10 - Informatique, mathématiques et statistiques
Auteurs et affiliations
- Heuclin Benjamin, CIRAD-BIOS-UMR AGAP (FRA) ORCID: 0000-0002-0488-032X
Source : Cirad-Agritrop (https://agritrop.cirad.fr/600717/)
[ Page générée et mise en cache le 2024-11-15 ]