Afficher la notice abrégée

dc.contributor.advisorThiebaut, Rodolphe
dc.contributor.advisorGenuer, Robin
dc.contributor.authorCAPITAINE, Louis
dc.contributor.otherThiebaut, Rodolphe
dc.contributor.otherGenuer, Robin
dc.contributor.otherProust-Lima, Cécile
dc.contributor.otherGaïffas, Stéphane
dc.contributor.otherVert, Jean-Philippe
dc.contributor.otherBigot, Jérémie
dc.contributor.otherJosse, Julie
dc.date2020-12-17
dc.identifier.urihttp://www.theses.fr/2020BORD0306/abes
dc.identifier.urihttps://tel.archives-ouvertes.fr/tel-03525122
dc.identifier.nnt2020BORD0306
dc.description.abstractIntroduites par Leo Breiman en 2001, les forêts aléatoires sont une méthode d’apprentissage statistique largement utilisée dans de nombreux domaines de recherche scientifiques tant pour sa capacité à décrire des relations complexes entre des variables explicatives et une variable réponse que pour sa faculté à traiter des données de grande dimension. Dans de nombreuses applications en santé, on dispose de mesures répétées au cours du temps. On parle alors de données longitudinales. Les corrélations induites entre les mesures d’un même individu à différents temps doivent être prises en compte, ce qui n’est pas le cas dans la méthode classique des forêts aléatoires. L’objectif de cette thèse est d’adapter cette méthode à l’analyse des données longitudinales dans un contexte de grande dimension. Pour ce faire, deux approches sont proposées. La première s’appuie sur l’utilisation d’un modèle semi-paramétrique à effets mixtes qui permet de prendre en compte la structure de covariance intra-individuelle dans la construction de la forêt aléatoire. Cette méthode a été appliquée à un essai vaccinal contre le VIH et a permis de sélectionner 21 transcrits de gènes pour lesquels l’association avec la charge virale du VIH était en adéquation avec les résultats observés lors de l’infection primaire. La seconde se place dans le cadre plus général de la régression sur des espaces métriques. Dans ce contexte, les données répétées sont traitées comme des courbes. Nous introduisons alors le concept de forêts aléatoires de Fréchet qui permet d’apprendre des relations entre des variables de natures diverses, comme des courbes, des images ou des formes, dans des espaces métriques non ordonnés. Nous décrivons une nouvelle manière de découper les nœuds des arbres constituant la forêt de Fréchet puis nous détaillons la procédure de prédiction pour une variable de sortie à valeurs dans un espace non euclidien. Les notions classiques d’erreur OOB ainsi que d’importance des variables sont adaptées aux forêts aléatoires de Fréchet. Un théorème de consistance pour les régressogrammes de Fréchet utilisant des partitions données-dépendantes est énoncé puis appliqué aux arbres de Fréchet purement uniformément aléatoires. Une étude de simulations est ensuite menée pour étudier le comportement de cette nouvelle méthode dans le cadre de la régression sur courbes, images et scalaires. Enfin, la méthode des forêts aléatoires de Fréchet est appliquée à l’analyse de deux essais vaccinaux de grande dimension sur le VIH.
dc.description.abstractEnIntroduced by Leo Breiman in 2001, random forests are a statistical learning method that is widely used in many fields of scientific research both for its ability to describe complex relationships between explanatory variables and a response variable as well as for its ability to handle high dimensional data. In many health applications, repeated measurements over time are available. These are referred to as longitudinal data. The correlations induced by the measurements of the same individual at different times must be taken into account, which is not the case in the classical random forests method. The aim of this thesis is to adapt this method to the analysis of longitudinal data in a high dimensional context. To do so, two approaches are proposed. The first one is based on a semi-parametric mixed-effects model which allows the intra-individual covariance structure to be taken into account in the construction of the random forest. This method was applied to an HIV vaccine trial and enabled to select 21 gene transcripts for which the association with the HIV viral load was in line with the results observed during the primary infection. The second method takes place in the more general framework of regression on metric spaces. In this context, repeated data are treated as curves. We then introduce the concept of Fréchet random forests, which allows to learn relationships between heterogeneous variables, such as curves, images or shapes, in unordered metric spaces. We describe a new way of splitting the nodes of the trees composing the Fréchet random forest and then we detail the prediction procedure for a non-Euclidean output vari. The classical notions of OOB error as well as the variable importance are adapted to the Fréchet random forest. A consistency theorem for Fréchet regressogram predictor using data-dependent partitions is stated and then applied to Fréchet purely uniformly random trees. A simulation study is then carried out to study the behaviour of this new method within the framework of regression on curves, images and scalars. Finally, Fréchet random forest is applied to the analysis of two high dimensional HIV vaccine trials.
dc.language.isofr
dc.language.isoen
dc.subjectGrande dimension
dc.subjectForêts aléatoires
dc.subjectDonnées Longitudinales
dc.subjectArbres de régression
dc.subjectEssais vaccinaux
dc.subjectVIH
dc.subjectGénomique
dc.subjectModèle semi-paramétrique à effets mixtes
dc.subjectDonnées hétérogènes
dc.subjectDonnées complexes
dc.subjectRégression non-paramétrique
dc.subject.enHigh dimension
dc.subject.enRandom forests
dc.subject.enLongitudinal data
dc.subject.enRegression trees
dc.subject.enVaccine trials
dc.subject.enHIV
dc.subject.enGenomics
dc.subject.enSemi-parametric mixed-effects model
dc.subject.enHeterogeneous data
dc.subject.enComplex data analysis
dc.subject.enNon-parametric regression
dc.titleForêts aléatoires pour données longitudinales de grande dimension
dc.title.enRandom forests for high dimensional and longitudinal data
dc.typeThèses de doctorat
dc.contributor.jurypresidentProust-Lima, Cécile
bordeaux.hal.laboratoriesBordeaux population Health
bordeaux.type.institutionBordeaux
bordeaux.thesis.disciplineSanté publique Biostatistique
bordeaux.ecole.doctoraleÉcole doctorale Sociétés, politique, santé publique (Bordeaux)
star.origin.linkhttps://www.theses.fr/2020BORD0306
dc.contributor.rapporteurGaïffas, Stéphane
dc.contributor.rapporteurVert, Jean-Philippe
bordeaux.COinSctx_ver=Z39.88-2004&rft_val_fmt=info:ofi/fmt:kev:mtx:journal&rft.title=For%C3%AAts%20al%C3%A9atoires%20pour%20donn%C3%A9es%20longitudinales%20de%20grande%20dimension&rft.atitle=For%C3%AAts%20al%C3%A9atoires%20pour%20donn%C3%A9es%20longitudinales%20de%20grande%20dimension&rft.au=CAPITAINE,%20Louis&rft.genre=unknown


Fichier(s) constituant ce document

FichiersTailleFormatVue

Il n'y a pas de fichiers associés à ce document.

Ce document figure dans la(les) collection(s) suivante(s)

Afficher la notice abrégée