Application de la pangénomique aux arbres forestiers : optimisation de la construction des graphes de pangénome et du génotypage de variants structuraux.
PINOSIO, Sara
Istituto di Bioscienze e BioRisorse = Institute of Biosciences and Bioresources [IBBR CNR]
< Réduire
Istituto di Bioscienze e BioRisorse = Institute of Biosciences and Bioresources [IBBR CNR]
Langue
en
Autre communication scientifique (congrès sans actes - poster - séminaire...)
Ce document a été publié dans
Doctorales de la forêt, 2025-02-18, Poitiers.
Résumé
Le dérèglement climatique est une source de stress importante pour les forêts. Les contraintes biotiques et abiotiques qu’il génère conduisent à des dépérissements de peuplements tout autour du globe. En France métropolitaine, ...Lire la suite >
Le dérèglement climatique est une source de stress importante pour les forêts. Les contraintes biotiques et abiotiques qu’il génère conduisent à des dépérissements de peuplements tout autour du globe. En France métropolitaine, plus d’un million d’hectares sont concernés, dont des essences majeures comme le hêtre, le frêne, les chênes et les sapins. Évaluer si les forêts sont en mesure de s’adapter est donc devenu un enjeu primordial.Un des facteurs clés de l’adaptation biologique est la quantité de diversité génétique disponible au sein d’un peuplement. Plus la diversité génétique est importante, plus la diversité phénotypique sera forte et la sélection naturelle pourra s’opérer avec d’autant plus d'efficacité. La diversité génétique correspond aux variations de séquence de l’ADN, qu’elles ne concernent qu’un seul nucléotide (SNP) ou de grandes séquences variables d’un seul tenant (variants structuraux). Si les SNP sont aujourd’hui les marqueurs de choix pour étudier la diversité génétique aux échelles omiques, les variants structuraux demeurent, principalement pour des raisons techniques, toujours difficiles à étudier aux échelles génomique et/ou populationnelle. Pour combler ce manque, de nouveaux outils ont récemment émergé dans le cadre de la pangénomique eucaryote. Un pangénome est l’union des gènes - ou plus généralement des séquences - présents chez l’ensemble des individus d'un clade donné, il inclut donc naturellement l’ensemble des variants structuraux de ce clade. Néanmoins, ces outils ont principalement été développés pour caractériser le pangénome humain qui est peu variable. Il n’est donc pas sûr qu’ils soient directement applicables aux espèces qui ont des compositions génomiques très différentes, une diversité génétique (beaucoup) plus forte et/ou des assemblages de génome de moindre qualité - comme c’est régulièrement le cas chez les arbres forestiers.Parmi les arbres forestiers, les chênes blancs constituent d’excellents candidats à l’analyse pangénomique. Ces chênes sont souvent des espèces clé de voûte des écosystèmes forestiers européens et représentent notamment ¼ des forêts françaises, leurs conférant une importance écologique et économique considérable. De plus, ils forment un complexe d’une quinzaine d’espèces qui est caractérisé par de nombreux échanges génétiques (i.e. flux de gène interspécifique). Ces échanges sont en partie responsables de la très grande diversité observée chez ces espèces. Par exemple, le chêne sessile (Quercus petraea) présente une diversité génétique 2.5 supérieure à celle du pin maritime (Pinus pinaster) et 1.5 fois supérieure au hêtre (Fagus sylvatica). Un grand nombre des variants génétiques est également partagé entre espèces, rendant une approche de pangénomique à l’échelle du complexe tout à fait pertinente. Il n’est cependant pas clair si les outils de construction de pangénomes sont adaptés pour cela. En pangénomique eucaryote, les pangénomes sont souvent représentés sous la forme d’un graphe de variation. Deux outils principaux existent pour les reconstruire : Minigraph-Cactus (MC) et the PanGenome Graph Builder (PGGB). Cependant, ils n’ont pas le même fonctionnement et les graphes obtenus ne sont pas identiques. Le premier objectif de notre étude est d’étudier les biais, les limites et l’applicabilité de ces outils aux arbres forestiers. Pour cela, nous explorons par simulations les paramètres qui impactent leurs résultats (i.e. taille des génomes, diversité génétique, nombre et qualité des assemblages). Les premières simulations montrent que MC génère des graphes trois fois plus complexes que le graphe attendu et les variants structuraux sont fragmentés. Le graphe reconstruit peut ensuite être utilisé pour génotyper un grand nombre d’individus (i.e. caractériser à moindre coût les variants du graphe chez ces individus). Le second objectif de notre étude est donc d’évaluer la robustesse du génotypage en fonction des variables les plus couramment rencontrées par les utilisateurs (e.g. divergence des individus génotypés, qualité du graphe, quantité de données, nature du jeu de données de lectures). Les premiers résultats issus d’un graphe MC indiquent que le génotypage reste robuste tant que la divergence entre les génomes est inférieure à 3%.< Réduire
Mots clés
génotypage
simulations
graphe de variation génétique
pangénome
diversité génétique
Chênes blancs européens
Origine
Importé de halUnités de recherche