Geodesic PCA in the Wasserstein space by convex PCA
GOUET, Raul
Centre de modélisation mathématique / Centro de Modelamiento Matemático [Santiago] [CMM]
Centre de modélisation mathématique / Centro de Modelamiento Matemático [Santiago] [CMM]
KLEIN, Thierry
Ecole Nationale de l'Aviation Civile [ENAC]
Institut de Mathématiques de Toulouse UMR5219 [IMT]
Voir plus >
Ecole Nationale de l'Aviation Civile [ENAC]
Institut de Mathématiques de Toulouse UMR5219 [IMT]
GOUET, Raul
Centre de modélisation mathématique / Centro de Modelamiento Matemático [Santiago] [CMM]
Centre de modélisation mathématique / Centro de Modelamiento Matemático [Santiago] [CMM]
KLEIN, Thierry
Ecole Nationale de l'Aviation Civile [ENAC]
Institut de Mathématiques de Toulouse UMR5219 [IMT]
< Réduire
Ecole Nationale de l'Aviation Civile [ENAC]
Institut de Mathématiques de Toulouse UMR5219 [IMT]
Langue
en
Article de revue
Ce document a été publié dans
Annales de l'Institut Henri Poincaré (B) Probabilités et Statistiques. 2017-02, vol. 53, n° 1, p. 1-26
Institut Henri Poincaré (IHP)
Résumé
Nous introduisons la méthode d'Analyse en Composantes Principales Géodésiques (GPCA) dans l'espace des mesures de probabilités à support sur la droite réelle, admettant un moment d'ordre deux, et muni de la métrique de ...Lire la suite >
Nous introduisons la méthode d'Analyse en Composantes Principales Géodésiques (GPCA) dans l'espace des mesures de probabilités à support sur la droite réelle, admettant un moment d'ordre deux, et muni de la métrique de Wasserstein. Nous discutons des avantages de cette approche par rapport à une ACP fonctionnelle standard de densités de probabilités dans l'espace de Hilbert des fonctions de carrés intégrable. Nous établissons la consistence de cette méthode en montrant que la GPCA empirique converge vers sa version population lorsque la taille de l'échantillon tend vers l'infini. Une propriété clé dans l'étude de la GPCA est l'isométrie entre l'espace de Wasserstein et un sous-espace convexe fermé de l'ensemble des fonctions de carrés intégrable, par rapport à une mesure de référence appropriée. De ce fait, nous considérons le problème général de l'ACP dans un sous-ensemble convexe fermé d'un espace de Hilbert séparable, qui sert de base à l'analyse de la GPCA. Nous proposons différents exemples illustratifs à partir de modèles statistiques simples pour montrer les bénéfices de cette approche pour l'analyse de données. La méthode est également appliquée à un exemple réel sur les pyramides des âges.< Réduire
Résumé en anglais
We introduce the method of Geodesic Principal Component Analysis (GPCA) on the space of probability measures on the line, with finite second moment, endowed with the Wasserstein metric. We discuss the advantages of this ...Lire la suite >
We introduce the method of Geodesic Principal Component Analysis (GPCA) on the space of probability measures on the line, with finite second moment, endowed with the Wasserstein metric. We discuss the advantages of this approach, over a standard functional PCA of probability densities in the Hilbert space of square-integrable functions. We establish the consistency of the method by showing that the empirical GPCA converges to its population counterpart, as the sample size tends to infinity. A key property in the study of GPCA is the isometry between the Wasserstein space and a closed convex subset of the space of square-integrable functions, with respect to an appropriate measure. Therefore, we consider the general problem of PCA in a closed convex subset of a separable Hilbert space, which serves as basis for the analysis of GPCA and also has interest in its own right. We provide illustrative examples on simple statistical models, to show the benefits of this approach for data analysis. The method is also applied to a real dataset of population pyramids.< Réduire
Mots clés en anglais
Wasserstein space
Geodesic and Convex Principal Component Analysis
Fréchet mean
Functional data analysis
Geodesic space
Inference for family of densities
Origine
Importé de halUnités de recherche