Gottin Celine. 2021. Outils et concepts pour l'annotation de familles de gènes complexes : le cas des récepteurs à LRR chez le riz. Montpellier : Montpellier SupAgro, 190 p. Thèse de doctorat : Génétique et génomique : Montpellier SupAgro
|
Version publiée
- Français
Utilisation soumise à autorisation de l'auteur ou du Cirad. 608443.pdf Télécharger (22MB) | Prévisualisation |
Titre anglais : Tools and concepts for the annotation of complex gene families: the case of LRR-containing receptors in rice
Encadrement : Ranwez, Vincent ; Chantret, Nathalie ; Dievart, Anne
Résumé : Les maladies des plantes causées par des agents pathogènes constituent une menace pour la sécurité alimentaire mondiale. Les gènes impliqués dans les mécanismes de résistance aux pathogènes sont des éléments clés permettant un contrôle efficace des maladies tout en limitant l'utilisation d'intrants chimiques. Les réactions immunitaires chez les plantes peuvent être initiées par des récepteurs portant un domaine répété riche en leucine (Leucine-rich repeats, LRR). Les gènes codant pour ces récepteurs appartiennent à différentes familles, dont les trois principales sont les LRR-Receptor-Like Kinase (LRR-RLK), les LRR-Receptor-Like Protein (LRR-RLP) et les Nucleotide binding site LRR Receptor (NLR). Etudier ces gènes et leur évolution est essentiel non seulement pour comprendre comment les résistances émergent, disparaissent ou se maintiennent chez les plantes, mais aussi pour mettre en place de nouvelles stratégies de sélection variétale. Malgré l'abondance des données génomiques, l'étude de ces récepteurs à LRR reste difficile car ces familles de gènes sont complexes. Premièrement, une grande partie des gènes de ces familles se dupliquent fréquemment et sont donc présents en de multiples copies dans les génomes. Ces copies accumulent des mutations dont certaines peuvent être non-sens, i.e. impacter la structure et/ou la fonction initiale du gène. Deuxièmement, les protéines de ces trois familles partagent un domaine composé de motifs LRR répétés jusqu'à plus de 30 fois, essentiel pour la spécificité du récepteur. Dans ce contexte particulier, les annotations structurales des gènes et celles des motifs LRR dans les séquences protéiques obtenues par les outils génériques contiennent beaucoup d'erreurs. Au cours de cette thèse, je me suis intéressée tout d'abord à la détection et l'annotation des motifs LRR dans les protéomes de plantes en développant un outil dédié, LRRprofiler. En se basant sur un ensemble de profils HMM : LRRprofiler fournit une annotation complète, reproductible et comparable des protéines LRR pour les trois familles d'intérêt (LRR-RLK, LRR-RLP et NLR). Ensuite, je me suis intéressée aux biais des méthodes automatiques pour l'annotation structurale (intron-exon) des récepteurs LRR en comparant trois annotations publiques disponibles pour le riz (Oryza sativa) Nipponbare. L'identification d'erreurs récurrentes pour ces trois familles (fusion de gènes, gènes tronqués, gènes non-identifiés, etc.) m'a amenée à proposer une annotation expertisée manuellement pour les trois familles. La stratégie d'annotation proposée consiste à identifier tous les gènes, même ceux dont la structure est impactée par des mutations non-sens. Les modèles sont alors qualifiés de 'canoniques' ou 'non-canoniques' en fonction de la présence ou non de ces mutations non-sens. Afin de limiter l'intervention manuelle pour l'annotation d'autres génomes, un pipeline de transfert des annotations a été développé : LRRtransfer. Ce pipeline a permis d'annoter les récepteurs à LRR d'un autre cultivar de riz, KitaakeX, et de comparer les répertoires entre ces deux génotypes proches. L'ensemble des outils développés et des données générées au cours de cette thèse sont disponibles librement sous des formats standards et facilement réutilisables. Enfin, le site web 'Geloc' (https://rice-genome-hub.southgreen.fr/content/geloc) a été développé pour permettre la visualisation, l'exploration et la comparaison des annotations des récepteurs LRR chez le riz.
Résumé (autre langue) : Plant diseases caused by pathogens are a threat to global food security. Genes involved in pathogen resistance mechanisms are key elements for effective disease control while limiting the use of chemical inputs. Plant immune responses can be initiated by receptors carrying a leucine-rich repeat (LRR) domain. The genes encoding these receptors belong to different families, the three main ones being LRR-Receptor-Like Kinase (LRR-RLK), LRR-Receptor-Like Protein (LRR-RLP) and Nucleotide binding site LRR Receptor (NLR). Studying LRR-containing genes and their evolution is essential to understand how new resistances emerge, disappear or are maintained in plants, as well as to develop new breeding strategies. Despite the abundance of genomic data, the study of these receptors remains difficult because these gene families are particularly complex. First, many of these genes are frequently duplicated and are therefore present in multiple copies. These copies can accumulate mutations, some of which may be nonsense, i.e. they can impact the initial structure and/or function of the gene. Secondly, the proteins of these three families share a domain composed of up to 30 repeated LRR motifs, essential for receptor specificity. In this particular context, the structural annotations of the genes and of the LRR motifs in the protein sequences obtained by generic tools contain many errors. During this thesis, I first focused on the detection and annotation of LRR motifs in plant proteomes by developing a dedicated tool named LRRprofiler. Based on a set of HMM profiles, the LRRprofiler pipeline provides a complete, reproducible and similar annotation of LRR proteins for the three families of interest (LRR-RLK, LRR-RLP and NLR). Next, I addressed the biases of automatic methods for structural (intron-exon) annotation of LRR containing receptors by comparing three publicly available annotations for rice (Oryza sativa) Nipponbare. The identification of recurrent errors for these three families (gene fusion, truncated genes, unidentified genes, etc.) led me to propose a manually expert annotation for these three families. The proposed annotation strategy consists in identifying all genes, even those whose structure contain nonsense mutations. The gene models are then qualified as 'canonical' or 'non-canonical' depending on the presence or absence of these nonsense mutations. In order to limit the manual intervention for the annotation of other genomes, an annotation transfer pipeline named LRRtransfer has been developed. This pipeline was used to annotate LRR receptors for another rice cultivar, KitaakeX, and to compare the gene repertoires between these two closely related genotypes. All the tools developed and the data generated during this thesis are freely available in standard and easily reusable formats. Finally, the 'Geloc' website (https://rice-genome-hub.southgreen.fr/content/geloc) has been developed to allow visualization, exploration and comparison of these LRR annotations in rice.
Auteurs et affiliations
- Gottin Celine, CIRAD-BIOS-UMR AGAP (FRA)
Source : Cirad-Agritrop (https://agritrop.cirad.fr/608443/)
[ Page générée et mise en cache le 2024-02-16 ]