Afficher la notice abrégée

dc.contributor.advisorJérémie Bigot
dc.contributor.advisorNicolas Papadakis
hal.structure.identifierInstitut de Mathématiques de Bordeaux [IMB]
dc.contributor.authorCAZELLES, Elsa
dc.contributor.otherGérard Biau [Président]
dc.contributor.otherEustasio Del Barrio Tellado [Rapporteur]
dc.contributor.otherGabriel Peyré [Rapporteur]
dc.contributor.otherMarco Cuturi
dc.contributor.otherClaire Lacour
dc.date.accessioned2024-04-04T03:04:08Z
dc.date.available2024-04-04T03:04:08Z
dc.identifier.urihttps://oskar-bordeaux.fr/handle/20.500.12278/193125
dc.identifier.nnt2018BORD0125
dc.description.abstractCette thèse se concentre sur l'analyse de données présentées sous forme de mesures de probabilité sur R^d. L'objectif est alors de fournir une meilleure compréhension des outils statistiques usuels sur cet espace muni de la distance de Wasserstein. Une première notion naturelle est l'analyse statistique d'ordre un, consistant en l'étude de la moyenne de Fréchet (ou barycentre). En particulier, nous nous concentrons sur le cas de données (ou observations) discrètes échantillonnées à partir de mesures de probabilité absolument continues (a.c.) par rapport à la mesure de Lebesgue. Nous introduisons ainsi un estimateur du barycentre de mesures aléatoires, pénalisé par une fonction convexe, permettant ainsi d'imposer son a.c. Un autre estimateur est régularisé par l'ajout d'entropie lors du calcul de la distance de Wasserstein. Nous nous intéressons notamment au contrôle de la variance de ces estimateurs. Grâce à ces résultats, le principe de Goldenshluger et Lepski nous permet d'obtenir une calibration automatique des paramètres de régularisation. Nous appliquons ensuite ce travail au recalage de densités multivariées, notamment pour des données de cytométrie de flux. Nous proposons également un test d'adéquation de lois capable de comparer deux distributions multivariées, efficacement en terme de temps de calcul. Enfin, nous exécutons une analyse statistique d'ordre deux dans le but d'extraire les tendances géométriques globales d'un jeu de donnée, c'est-à-dire les principaux modes de variations. Pour cela nous proposons un algorithme permettant d'effectuer une analyse en composantes principales géodésiques dans l'espace de Wasserstein.
dc.description.abstractEnThis thesis focuses on the analysis of data in the form of probability measures on R^d. The aim is to provide a better understanding of the usual statistical tools on this space endowed with the Wasserstein distance. The first order statistical analysis is a natural notion to consider, consisting of the study of the Fréchet mean (or barycentre). In particular, we focus on the case of discrete data (or observations) sampled from absolutely continuous probability measures (a.c.) with respect to the Lebesgue measure. We thus introduce an estimator of the barycenter of random measures, penalized by a convex function, making it possible to enforce its a.c. Another estimator is regularized by adding entropy when computing the Wasserstein distance. We are particularly interested in controlling the variance of these estimators. Thanks to these results, the principle of Goldenshluger and Lepski allows us to obtain an automatic calibration of the regularization parameters. We then apply this work to the registration of multivariate densities, especially for flow cytometry data. We also propose a test statistic that can compare two multivariate distributions, efficiently in terms of computational time. Finally, we perform a second-order statistical analysis to extract the global geometric tendency of a dataset, also called the main modes of variation. For that purpose, we propose algorithms allowing to carry out a geodesic principal components analysis in the space of Wasserstein.
dc.language.isofr
dc.subjectEspace de Wasserstein
dc.subjectBarycentre
dc.subjectAcp
dc.subjectTransport optimal régularisé
dc.subjectTest d'hypothèse
dc.subjectAnalyse statistique
dc.subject.enWasserstein space
dc.subject.enBarycenter
dc.subject.enPca
dc.subject.enRegularized optimal transport
dc.subject.enHypothesis testing
dc.subject.enStatistical analysis
dc.titlePropriétés statistiques du barycentre dans l’espace de Wasserstein
dc.title.enStatistical properties of barycenters in the Wasserstein space and fast algorithms for optimal transport of measures
dc.typeThèses de doctorat
dc.subject.halMathématiques [math]/Mathématiques générales [math.GM]
bordeaux.hal.laboratoriesInstitut de Mathématiques de Bordeaux (IMB) - UMR 5251*
bordeaux.institutionUniversité de Bordeaux
bordeaux.institutionBordeaux INP
bordeaux.institutionCNRS
bordeaux.type.institutionUniversité de Bordeaux
bordeaux.ecole.doctoraleÉcole doctorale de mathématiques et informatique (Talence, Gironde ; 1991-....)
hal.identifiertel-01928219
hal.version1
hal.origin.linkhttps://hal.archives-ouvertes.fr//tel-01928219v1
bordeaux.COinSctx_ver=Z39.88-2004&rft_val_fmt=info:ofi/fmt:kev:mtx:journal&rft.title=Propri%C3%A9t%C3%A9s%20statistiques%20du%20barycentre%20dans%20l%E2%80%99espace%20de%20Wasserstein&rft.atitle=Propri%C3%A9t%C3%A9s%20statistiques%20du%20barycentre%20dans%20l%E2%80%99espace%20de%20Wasserstein&rft.au=CAZELLES,%20Elsa&rft.genre=unknown


Fichier(s) constituant ce document

FichiersTailleFormatVue

Il n'y a pas de fichiers associés à ce document.

Ce document figure dans la(les) collection(s) suivante(s)

Afficher la notice abrégée