Show simple item record

dc.rights.licenseopenen_US
dc.contributor.advisorJérôme Saracco
dc.contributor.advisorRodolphe Thiébaut
hal.structure.identifierStatistics In System biology and Translational Medicine [SISTM]
hal.structure.identifierUniversité de Bordeaux [UB]
hal.structure.identifierBordeaux population health [BPH]
dc.contributor.authorLORENZO, Hadrien
dc.contributor.otherAnne Ruiz-Gazen [Présidente du jury]en_US
dc.contributor.otherAnne-Laure Boulesteix [Rapporteure]en_US
dc.contributor.otherFrançois Husson [Rapporteur]en_US
dc.contributor.otherMarie Chavent [Examinatrice]en_US
dc.contributor.otherArthur Tenenhaus [Examinateur]en_US
dc.contributor.otherJérôme Saracco [Co-directeur]en_US
dc.contributor.otherRodolphe Thiébaut [Directeur]en_US
dc.date2019-11-27
dc.date.accessioned2021-04-30T08:29:11Z
dc.date.available2021-04-30T08:29:11Z
dc.identifier.urihttps://oskar-bordeaux.fr/handle/20.500.12278/27132
dc.description.abstractL’apprentissage statistique consiste à apprendre à partir de données mesurées dans un échantillon d’individus et cherche à prédire la grandeur d’intérêt chez un nouvel individu. Dans le cas de la vaccination, ou dans d’autres cas dont certains présentés dans ce manuscrit, le nombre de variables mesurées dépasse le nombre d’individus observés, c’est un cas dégénéré d’analyse statistique qui nécessite l’utilisation de méthodes spécifiques. Les propriétés des algorithmes de régularisation permettent de gérer ces cas. Il en existe plusieurs types en fonction de la structure des données considérées et du problème qui sont étudiés. Dans le cas de ce travail, l’objectif principal a été d’utiliser l’information disponible à l’issue de décompositions en éléments propres des matrices de covariances transformées via un opérateur de seuillage doux. Cette solution est particulièrement peu coûteuse en termes de temps de calcul et permet la sélection des variables d’intérêt. Nous nous sommes centrés sur les données qualifiées d’hétérogènes, c’est à dire issues de jeux de données qui sont provenant de sources ou de technologies distinctes. On parle aussi de données multiblocs. Les coûts d’utilisation de certaines technologies pouvant être prohibitifs, il est souvent choisi de ne pas acquérircertaines données sur l’ensemble d’un échantillon, mais seulement sur un sous-échantillon d’étude. Dans ce cas, le jeu de données se retrouve amputé d’une partie non négligeable de l’information. La structure des données associée à ces défauts d’acquisition induit une répartition elle-même multibloc de ces données manquantes, on parle alors de données manquantes par blocs. Le second objectif de notre méthode est de gérer ces données manquantes par blocs en s’appuyant sur l’information à prédire, ceci dans le but de créer un modèle prédictif qui puisse gérer les données manquantes aussi bien pour les données d’entraînement que pour celles de test. Cette méthode emprunte au seuillage doux afin de sélectionnerles variables d’intérêt et ne nécessite que deux paramètres à régler qui sont le nombre de composantes et le nombre de variables à sélectionner parmi les covariables. Ce paramétrage est classiquement réalisé par validation croisée. La méthode développée a fait l’objet de simulationsla comparant aux principales méthodes existantes. Elle montre d’excellents résultats en prédiction et en termes de temps de calcul. Elle a aussi été appliquée à plusieurs jeux de données.
dc.description.abstractEnStatistical learning objective is to learn from observed data in order to predict the response for a new sample. In the context of vaccination, the number of features is higher than the number of individuals. This is a degenerate case of statistical analysis which needs specific tools. The regularization algorithms can deal with those drawbacks. Different types of regularization methods can be used which depends on the data set structure but also upon the question. In this work, the main objective was to use the available information with soft-thresholded empirical covariancematrix estimations through SVD decompositions. This solution is particularly efficient in terms of variable selection and computation time. Heterogeneous typed data sets (coming from different sources and also called multiblock data) were at the core of our methodology. Since some data set generations are expensive, it is common to down sample the population acquiring some types of data. This leads to multi-block missing data patterns. The second objective of our methodology is to deal with those missing values using the response values. But the response values are not present in the test data sets and so we have designed a methodology which permits to consider both the cases of missing values in the train or in the test data sets. Thanks to soft-thresholding, our methodology can regularize and select features. This estimator needs only two parameters to be fixed which are the number of components and the maximum number of features to be selected. The corresponding tuning is performed bycross-validation. According to simulations, the proposed method shows very good results comparing to benchmark methods, especially in terms of prediction and computation time. This method has also been applied to several real data sets associated with vaccine, thomboembolic andfood researches.
dc.language.isoENen_US
dc.subjectGrande dimension
dc.subjectApprentissage statistique
dc.subjectMultibloc
dc.subjectDonnées manquantes
dc.subjectSélection de variable
dc.subjectScience des données
dc.subject.enData science
dc.subject.enVariable selection
dc.subject.enStatistical learning
dc.subject.enHigh dimension
dc.subject.enMultiblock
dc.subject.enMissing values
dc.titleAnalyse supervisée multibloc en grande dimension
dc.title.enSupervised analysis of high dimensional multiblock data
dc.typeThèses de doctoraten_US
dc.subject.halStatistiques [stat]/Machine Learning [stat.ML]en_US
dc.subject.halStatistiques [stat]/Méthodologie [stat.ME]en_US
dc.subject.halStatistiques [stat]/Applications [stat.AP]en_US
dc.subject.halInformatique [cs]/Apprentissage [cs.LG]en_US
dc.subject.halSciences du Vivant [q-bio]/Santé publique et épidémiologieen_US
bordeaux.hal.laboratoriesBordeaux Population Health Research Center (BPH) - U1219en_US
bordeaux.institutionUniversité de Bordeauxen_US
bordeaux.institutionINSERMen_US
bordeaux.type.institutionUniversité de bordeauxen_US
bordeaux.teamSISTMen_US
bordeaux.teamSISTM_BPH
bordeaux.import.sourcehal
hal.identifiertel-02433612
hal.version1
hal.exportfalse
workflow.import.sourcehal
bordeaux.COinSctx_ver=Z39.88-2004&rft_val_fmt=info:ofi/fmt:kev:mtx:journal&rft.title=Analyse%20supervis%C3%A9e%20multibloc%20en%20grande%20dimension&rft.atitle=Analyse%20supervis%C3%A9e%20multibloc%20en%20grande%20dimension&rft.au=LORENZO,%20Hadrien&rft.genre=unknown


Files in this item

FilesSizeFormatView

There are no files associated with this item.

This item appears in the following Collection(s)

Show simple item record