Modélisation et prédiction dynamique individuelle d'événements de santé à partir de données longitudinales multivariées
Langue
fr
Thèses de doctorat
Date de soutenance
2022-11-29Spécialité
Santé publique Option Biostatistiques
École doctorale
École doctorale Sociétés, politique, santé publique (Bordeaux)Résumé
En santé publique, la prédiction d’un évènement de santé est un enjeu crucial pour le devenir du patient. A partir de méthodes statistiques, cette prédiction peut être estimée de manière individuelle en utilisant les données ...Lire la suite >
En santé publique, la prédiction d’un évènement de santé est un enjeu crucial pour le devenir du patient. A partir de méthodes statistiques, cette prédiction peut être estimée de manière individuelle en utilisant les données propres à chaque patient. Cependant, la plupart des modèles actuels ne permettent pas de prendre en compte un grand nombre d’informations répétées. L’objectif de ce travail de thèse est de développer de nouvelles méthodes statistiques pouvant intégrer un ensemble de prédicteurs collectés au cours du temps pour prédire au mieux un évènement de santé. Dans la première partie, nous proposons une approche landmark où des résumés de données longitudinales, calculés au temps landmark, sont utilisés pour estimer le risque de survenue de l’évènement à travers plusieurs méthodes adaptées à la grande dimension. Cette méthode a également été étendue dans le cadre de risques compétitifs pour prédire la survenue de la démence pour les individus de la cohorte des trois-cités. Dans la deuxième partie, nous proposons d’intégrer les données répétées de variables dans les forêts aléatoires en survie pour prendre en compte la possible sortie d’étude informative des patients. Cette nouvelle méthodologie a été développée dans un package R DynForest disponible pour les utilisateurs. Elle a été appliquée pour (i) prédire la probabilité de survenue de démence à partir des trajectoires de multiples variables mesurant notamment la dépendance fonctionnelle, la cognition, l’atrophie cérébrale et les lésions vasculaires cérébrales (ii) prédire la survenue du vasospasme cérébral chez les patients ayant subi une hémorragie sous-arachnoïdienne. Par ces travaux, nous ouvrons la voie à l’intégration d’un grand nombre de données longitudinales pour prédire le risque de survenue d’évènements.< Réduire
Résumé en anglais
In public health, the prediction of health events is a crucial issue for the patient’s future. Using statistical methods, predictions can be individually estimated using patient-specific data. However, most of existing ...Lire la suite >
In public health, the prediction of health events is a crucial issue for the patient’s future. Using statistical methods, predictions can be individually estimated using patient-specific data. However, most of existing models are not able to take into account large number of repeated information. The objective of this thesis is to develop new statistical methods that can include many predictors collected over the time to improve the ability to predict a health event. In the first part, we propose a landmark approach where features of longitudinal data, computed at landmark time, are included as predictors through various methods adapted to high dimension to predict the risk of event. This method was also extended to competing risk to predict the risk of dementia on patients in the three-city cohort. In the second part, we include the longitudinal information through random survival forests to consider the possible dropout information of patients. This novel methodology has been developed in the DynForest R package available to users. It was applied to (i) predict the risk of dementia from multiple longitudinal data measuring functional dependency, cognition, cerebral atrophy and cerebrovascular lesions (ii) predict the risk of cerebral vasospasm in patients suffering from subarachnoid hemorrhage. With this work, we pave the way for the integration of a large number of longitudinal information to predict the risk of various health events.< Réduire
Mots clés
Prédictions dynamiques
Données longitudinales
Données de survie
Grande dimension
Forêts aléatoires
Mots clés en anglais
Dynamic predictions
Longitudinal data
Survival data
High dimension
Random forests
Origine
Importé de STAR