Modélisation et prédiction dynamique individuelle d'événements de santé à partir de données longitudinales multivariées
Language
fr
Thèses de doctorat
Date
2022-11-29Speciality
Santé publique Option Biostatistiques
Doctoral school
École doctorale Sociétés, politique, santé publique (Bordeaux)Abstract
En santé publique, la prédiction d’un évènement de santé est un enjeu crucial pour le devenir du patient. A partir de méthodes statistiques, cette prédiction peut être estimée de manière individuelle en utilisant les données ...Read more >
En santé publique, la prédiction d’un évènement de santé est un enjeu crucial pour le devenir du patient. A partir de méthodes statistiques, cette prédiction peut être estimée de manière individuelle en utilisant les données propres à chaque patient. Cependant, la plupart des modèles actuels ne permettent pas de prendre en compte un grand nombre d’informations répétées. L’objectif de ce travail de thèse est de développer de nouvelles méthodes statistiques pouvant intégrer un ensemble de prédicteurs collectés au cours du temps pour prédire au mieux un évènement de santé. Dans la première partie, nous proposons une approche landmark où des résumés de données longitudinales, calculés au temps landmark, sont utilisés pour estimer le risque de survenue de l’évènement à travers plusieurs méthodes adaptées à la grande dimension. Cette méthode a également été étendue dans le cadre de risques compétitifs pour prédire la survenue de la démence pour les individus de la cohorte des trois-cités. Dans la deuxième partie, nous proposons d’intégrer les données répétées de variables dans les forêts aléatoires en survie pour prendre en compte la possible sortie d’étude informative des patients. Cette nouvelle méthodologie a été développée dans un package R DynForest disponible pour les utilisateurs. Elle a été appliquée pour (i) prédire la probabilité de survenue de démence à partir des trajectoires de multiples variables mesurant notamment la dépendance fonctionnelle, la cognition, l’atrophie cérébrale et les lésions vasculaires cérébrales (ii) prédire la survenue du vasospasme cérébral chez les patients ayant subi une hémorragie sous-arachnoïdienne. Par ces travaux, nous ouvrons la voie à l’intégration d’un grand nombre de données longitudinales pour prédire le risque de survenue d’évènements.Read less <
English Abstract
In public health, the prediction of health events is a crucial issue for the patient’s future. Using statistical methods, predictions can be individually estimated using patient-specific data. However, most of existing ...Read more >
In public health, the prediction of health events is a crucial issue for the patient’s future. Using statistical methods, predictions can be individually estimated using patient-specific data. However, most of existing models are not able to take into account large number of repeated information. The objective of this thesis is to develop new statistical methods that can include many predictors collected over the time to improve the ability to predict a health event. In the first part, we propose a landmark approach where features of longitudinal data, computed at landmark time, are included as predictors through various methods adapted to high dimension to predict the risk of event. This method was also extended to competing risk to predict the risk of dementia on patients in the three-city cohort. In the second part, we include the longitudinal information through random survival forests to consider the possible dropout information of patients. This novel methodology has been developed in the DynForest R package available to users. It was applied to (i) predict the risk of dementia from multiple longitudinal data measuring functional dependency, cognition, cerebral atrophy and cerebrovascular lesions (ii) predict the risk of cerebral vasospasm in patients suffering from subarachnoid hemorrhage. With this work, we pave the way for the integration of a large number of longitudinal information to predict the risk of various health events.Read less <
Keywords
Prédictions dynamiques
Données longitudinales
Données de survie
Grande dimension
Forêts aléatoires
English Keywords
Dynamic predictions
Longitudinal data
Survival data
High dimension
Random forests
Origin
STAR imported