Inférence des acteurs de la régulation des expressions géniques
Language
fr
Thèses de doctorat
Date
2015-01-30Speciality
Informatique
Doctoral school
École doctorale de mathématiques et informatique (Talence, Gironde)Abstract
La quantité croissante de données générées est à l’origine de nombreuses problématiques en bioinformatique telles que le développement de nouvelles méthodes de traitement et d’analyse efficaces de ces données. Plus ...Read more >
La quantité croissante de données générées est à l’origine de nombreuses problématiques en bioinformatique telles que le développement de nouvelles méthodes de traitement et d’analyse efficaces de ces données. Plus particulièrement, les réseaux de régulation des fonctions cellulaires sont au coeur de nombreux projets aujourd’hui. Il est donc nécessaire, afin d’appréhender correctement ces systèmes de régulation, de comprendre l’origine et de caractériser les acteurs de ces systèmes tels que les ARN et les pseudogènes.Nous avons établi une nouvelle méthode de comparaison d’une séquence ARN requête avec un jeu de séquences ARN cibles. Notre méthode se base sur (i) l’indexation préalable des graines en séquence/structure des ARN du jeu cible, (ii) la recherche des ARN cibles par détection des graines de la séquence requête présentes également dans le jeu de données cible et le chainage de ces graines, puis (iii) la complétion de l’alignement obtenu à l’aide d’un algorithme d’alignement exact incorporant des contraintes d’alignement. Cette méthode a été appliquée sur le jeu de données de BraliBase2.1. L’exactitude des résultats obtenus et l’efficacité de la méthode ont alors été comparés à la méthode d’alignement exact LocARNA et à son filtre basé sur un algorithme de chainage de graines récemment développé, ExpLocP. Notre méthode RNA-unchained permet d’améliorer significativement les temps de calcul de LocARNA et présente des temps de calcul similaires à ExpLocP, tout en améliorant l’exactitude des alignements finaux.De plus, nous avons développé une méthode, PseudOE, de détection et de caractérisation du pseudome au sein d’un génome et d’analyse comparative de ce pseudome entre plusieurs génomes. Cette méthode a ainsi permis de réaliser l’analyse du panpseudome de deux souches relativement distantes de l’espèce Oenococcus oeni et qui présentent des propriétés oenologiques opposées. On observe dans ces génomes compacts, de 1,8Mb, 8,5% de pseudogènes. Par comparaison aux autres génomes bactériens, les génomes d’O. oeni semblent sensibles à la pseudogénisation. La majorité des pseudogènes détectés ont pour origine des mutations de leur séquence et sont présents uniquement dans l’un des génomes, ce qui soutient l’hypothèse d’une origine récente de ces séquences et qui illustre la tendance des O. oeni à l’hypermutabilité. De plus, l’analyse des données fournies par PseudOE a permis la mise en évidence d’une organisation spatiale des pseudogènes au sein de territoires spécifiques du chromosome. L’ensemble de ces analyses illustre les particularités des pseudogènes chez O. oeni et apporte des informations supplémentaires concernant l’évolution des gènes/génomes dont les annotations de génomes pourraient retirer des bénéfices.Read less <
English Abstract
The increasing amount of available data is a source of many issues in bioinformatics such that the development of new methods of treatments and efficient analysis of data. Especially, regulatory networks are at the heart ...Read more >
The increasing amount of available data is a source of many issues in bioinformatics such that the development of new methods of treatments and efficient analysis of data. Especially, regulatory networks are at the heart of many projects. Also, in order to understand regulatory systems, it appears to be necessary to characterize and to understand actors of these systems such as RNA and pseudogenes. We develop a new method to compare a query RNA with a static set of target RNAs. Our method is based on (i) a preliminary indexing of the sequence/structure seeds of the target RNAs, (ii) searching the potentially homolog RNAs by detecting seeds of the query present in targets, chaining these seeds, then (iii) completing the alignment using an anchor-based exact alignment algorithm. We apply our method on the benchmark Bralibase2.1. We compare our method accuracy and efficiency with the exact method LocARNA and its recent seeds-based speed-up ExpLocP. Our pipeline RNA-unchained greatly improves computation time of LocARNA and is comparable to the one of ExpLocP, while improving the overall accuracy of the final alignments.Moreover, we develop a new method, PseudOE, to detect and to characterize the pseudome of one genome, and to analyse by comparison two genomes at least. This method allows to analyse the pan-pseudome of two distantly related Oenococcus oeni strains with opposite oenological properties. Quite interestingly, with 8.5% of pseudogenes for a compact 1.8Mb genome, O. oeni appeared to be prone to pseudogenization compared to other bacteria. A great proportion of pseudogenes were found to come from mutational degradation suggesting a relatively recent origin that could illustrate the natural propensity of O. oeni for hypermutability. In addition, we identify a spatial organization of pseudogenes into dedicated chromosomal territories. These analysis illustrate peculiar properties of O. oeni pseudogenes, providing additional insights of gene/genome evolution from which future genome annotation will benefit.Read less <
Keywords
ARN
Oenococcus oeni
Adaptation
Plasticité
Évolutions génomiques
Comparaisons génomiques
Pseudome
Pseudogènes
Similarité
Comparaison (un vs. plusieurs)
Chaînage
Graines
Filtrage,
Alignement
Indexation
Stucture secondaire
English Keywords
RNA
Oenococcus oeni
Niche adaptation
Gene plasticity
Genome evolution
Comparative genomics
Pseudome
Pseudogenes
Similarity
One vs. all comparisons
Chaining
Seeds
Alignment
Filtering
Indexing
Secondary stucture
Origin
STAR imported