Analyse supervisée multibloc en grande dimension
Langue
fr
Thèses de doctorat
Date de soutenance
2019-11-27Spécialité
Santé publique Biostatistique
École doctorale
École doctorale Sociétés, politique, santé publique (Bordeaux)Résumé
L’apprentissage statistique consiste à apprendre à partir de données mesurées dans un échantillon d’individus et cherche à prédire la grandeur d’intérêt chez un nouvel individu. Dans le cas de la vaccination, ou dans ...Lire la suite >
L’apprentissage statistique consiste à apprendre à partir de données mesurées dans un échantillon d’individus et cherche à prédire la grandeur d’intérêt chez un nouvel individu. Dans le cas de la vaccination, ou dans d’autres cas dont certains présentés dans ce manuscrit, le nombre de variables mesurées dépasse le nombre d’individus observés, c’est un cas dégénéré d’analyse statistique qui nécessite l’utilisation de méthodes spécifiques. Les propriétés des algorithmes de régularisation permettent de gérer ces cas. Il en existe plusieurs types en fonction de la structure des données considérées et du problème qui sont étudiés. Dans le cas de ce travail, l’objectif principal a été d’utiliser l’information disponible à l’issue de décompositions en éléments propres des matrices de covariances transformées via un opérateur de seuillage doux. Cette solution est particulièrement peu coûteuse en termes de temps de calcul et permet la sélection des variables d’intérêt. Nous nous sommes centrés sur les données qualifiées d’hétérogènes, c’est à dire issues de jeux de données qui sont provenant de sources ou de technologies distinctes. On parle aussi de données multiblocs. Les coûts d’utilisation de certaines technologies pouvant être prohibitifs, il est souvent choisi de ne pas acquérir certaines données sur l’ensemble d’un échantillon, mais seulement sur un sous-échantillon d’étude. Dans ce cas, le jeu de données se retrouve amputé d’une partie non négligeable de l’information. La structure des données associée à ces défauts d’acquisition induit une répartition elle-même multibloc de ces données manquantes, on parle alors de données manquantes par blocs. Le second objectif de notre méthode est de gérer ces données manquantes par blocs en s’appuyant sur l’information à prédire, ceci dans le but de créer un modèle prédictif qui puisse gérer les données manquantes aussi bien pour les données d’entraînement que pour celles de test. Cette méthode emprunte au seuillage doux afin de sélectionner les variables d’intérêt et ne nécessite que deux paramètres à régler qui sont le nombre de composantes et le nombre de variables à sélectionner parmi les covariables. Ce paramétrage est classiquement réalisé par validation croisée. La méthode développée a fait l’objet de simulations la comparant aux principales méthodes existantes. Elle montre d’excellents résultats en prédiction et en termes de temps de calcul. Elle a aussi été appliquée à plusieurs jeux de données< Réduire
Résumé en anglais
Statistical learning objective is to learn from observed data in order to predict the response for a new sample. In the context of vaccination, the number of features is higher than the number of individuals. This is a ...Lire la suite >
Statistical learning objective is to learn from observed data in order to predict the response for a new sample. In the context of vaccination, the number of features is higher than the number of individuals. This is a degenerate case of statistical analysis which needs specific tools. The regularization algorithms can deal with those drawbacks. Different types of regularization methods can be used which depends on the data set structure but also upon the question. In this work, the main objective was to use the available information with soft-thresholded empirical covariance matrix estimations through SVD decompositions. This solution is particularly efficient in terms of variable selection and computation time. Heterogeneous typed data sets (coming from different sources and also called multiblock data) were at the core of our methodology. Since some data set generations are expensive, it is common to down sample the population acquiring some types of data. This leads to multi-block missing data patterns. The second objective of our methodology is to deal with those missing values using the response values. But the response values are not present in the test data sets and so we have designed a methodology which permits to consider both the cases of missing values in the train or in the test data sets. Thanks to soft-thresholding, our methodology can regularize and select features. This estimator needs only two parameters to be fixed which are the number of components and the maximum number of features to be selected. The corresponding tuning is performed by cross-validation. According to simulations, the proposed method shows very good results comparing to benchmark methods, especially in terms of prediction and computation time. This method has also been applied to several real data sets associated with vaccine, thomboembolic and food researches.< Réduire
Mots clés
Apprentissage statistique
Grande dimension
Multibloc
Données manquantes
Sélection de variable
Science des données
Mots clés en anglais
Statistical learning
High dimension
Multiblock
Missing values
Variable selection
Data science
Origine
Importé de STAR