Contribution à la sélection de modèle via pénalisation Lasso en Épidémiologie
AVALOS FERNANDEZ, Marta
Statistics In System biology and Translational Medicine [SISTM]
Bordeaux population health [BPH]
Statistics In System biology and Translational Medicine [SISTM]
Bordeaux population health [BPH]
AVALOS FERNANDEZ, Marta
Statistics In System biology and Translational Medicine [SISTM]
Bordeaux population health [BPH]
< Réduire
Statistics In System biology and Translational Medicine [SISTM]
Bordeaux population health [BPH]
Langue
EN
HDR
Date de soutenance
2018-12-11Résumé
Mes travaux portent principalement sur le développement, l’adaptation, l’implémentation et l’application de méthodes statistiques de sélection de modèle. Ma principale contribution consiste à adapter des méthodes de ...Lire la suite >
Mes travaux portent principalement sur le développement, l’adaptation, l’implémentation et l’application de méthodes statistiques de sélection de modèle. Ma principale contribution consiste à adapter des méthodes de l'apprentissage statistique supervisé qui sont devenues très populaires lors de la dernière décennie, les régressions pénalisées de type Lasso, à l'analyse de données issues d'études épidémiologiques. L'enjeu est de s'attaquer aux problèmes des données volumineuses (\textit{Big Data}) tout en respectant les objectifs et spécificités de la discipline. Le volume important se réfère ici au fait que le nombre d'observations et/ou le nombre de variables est bien plus important que celui qui était classique dans le domaine, sans exclure le cas où le nombre de variables est supérieur au nombre d'observations (données de grande dimension). Le contexte de la pratique épidémiologique est en plein changement avec les évolutions technologiques et la conséquente disponibilité croissante des Big Data. Le Système National des Données de Santé (SNDS), regroupant les principales bases de données de santé publique existantes en France, constitue un exemple de Big Data en santé. Le données ``omiques'' (génomiques, transcriptomiques, protéomiques, métabolomiques, microbiomiques, mycobiomiques, viromiques,$\ldots$) issues des avancées des techniques de séquençage à haut débit constituent un autre exemple de Big Data en santé. Enfin, les mesures de l'\textit{exposome} (par opposition aux facteurs génétiques), qui désigne en épidémiologie l’ensemble des expositions environnementales que subit un individu au long de sa vie peut également constituer une source de Big Data.Ce document s'articule autour de trois chapitres. Il résume mon activité de recherche depuis 2005, soit depuis mon recrutement à l’Université de Bordeaux après ma thèse. Le premier chapitre est une introduction générale dans laquelle je contextualise, motive et énonce la problématique abordée tout au long de mes recherches. Le deuxième chapitre est consacré à mes travaux en lien avec les études sur les traumatismes accidentels et expositions médicamenteuses à partir des données du SNDS. Le troisième chapitre est consacré à mes travaux en lien avec des études biomédicales: la prédiction de la charge virale censurée par un seuil de détection à partir des mutations du VIH, d'une part, et l'automatisation de la détection des seuils d'anomalie des hémogrammes en population générale, d'autre part.< Réduire
Mots clés
Sélection de modèle
sélection de variables
Lasso
épidémiologie
Mots clés en anglais
Model selection
variable selection
epidemiology
Unités de recherche