Afficher la notice abrégée

hal.structure.identifierBiodiversité, Gènes & Communautés [BioGeCo]
hal.structure.identifierPleiade, from patterns to models in computational biodiversity and biotechnology [PLEIADE]
dc.contributor.authorFRANC, Alain
dc.date.created2022-09-23
dc.date.issued2023-05-23
dc.description.abstractCe document brosse un panorama des méthodes linéaires de l'Analyse de données multivariées. Il s'agit d'un domaine ancien et classique, bien établi depuis les années 60, et redevenu d'actualité en tant qu'étape clé dans l'apprentissage statistique. On peut considérer ces méthodes comme faisant partie d'une approche algébrique de l'apprentissage statistique ou bien comme une réduction de dimension avec une tonalité plus géométrique. Ces deux approches sont étroitement liées : il est plus facile d'apprendre des patterns des données dans des espaces à faible dimension que dans des espaces à grande dimension. Nous montrons comment une apparente diversité de méthodes et outils se réduit en fait pour un tableau à une seule méthode : l'Analyse en Composantes Principales, avec la SVD (Singular Value Decomposition), de telle sorte que les efforts d'optimisation des codes pour l'analyse de jeux de données massives pourraient eut se focaliser sur cette méthode centrale partagée, au bénéfice de toutes les méthodes. Une extension à l'étude de plusieurs tableaux est présentée (Analyse canonique).
dc.description.abstractEnThese notes are an overview of some classical linear methods in Multivariate Data Analysis. This is a good old domain, well established since the 60's, and refreshed timely as a key step in statistical learning. It can be presented as part of statistical learning, or as dimensionality reduction with a geometric flavor. Both approaches are tightly linked: it is easier to learn patterns from data in low dimensional spaces than in high-dimensional spaces. It is shown how a diversity of methods and tools boil down to a single core methods, PCA with SVD, such that the efforts to optimize codes for analyzing massive data sets like distributed memory and task-based programming or to improve the efficiency of the algorithms like Randomised SVD can focus on this shared core method, and benefit to all methods.
dc.language.isoen
dc.subjectRéduction de dimension
dc.subjectAnalyse de données multivariées
dc.subjectApprentissage statistique
dc.subjectAnalyse en Composantes Principales
dc.subjectAnalyse Factorielle des Correspondances
dc.subjectAnalyse avec variables instrumentales
dc.subjectAnalyse canonique
dc.subject.enDimensionality reduction
dc.subject.enMultivariate Data Analysis
dc.subject.enStatistical Learning
dc.subject.enPrincipal Components Analysis
dc.subject.enCorrespondence Analysis
dc.subject.enAnalysis with Instrumental Variables
dc.subject.enCanonical Analysis
dc.titleMéthodes linéaires de Réduction de Dimension
dc.title.enLinear Dimensionality Reduction
dc.typeRapport
dc.subject.halMathématiques [math]/Analyse numérique [math.NA]
dc.subject.halMathématiques [math]/Statistiques [math.ST]
dc.identifier.arxiv2209.13597
bordeaux.page99
bordeaux.type.institutionInria Bordeaux Sud-Ouest
bordeaux.type.reportrr
hal.identifierhal-03784623
hal.version1
hal.origin.linkhttps://hal.archives-ouvertes.fr//hal-03784623v1
bordeaux.COinSctx_ver=Z39.88-2004&rft_val_fmt=info:ofi/fmt:kev:mtx:journal&rft.title=M%C3%A9thodes%20lin%C3%A9aires%20de%20R%C3%A9duction%20de%20Dimension&rft.atitle=M%C3%A9thodes%20lin%C3%A9aires%20de%20R%C3%A9duction%20de%20Dimension&rft.date=2023-05-23&rft.spage=99&rft.epage=99&rft.au=FRANC,%20Alain&rft.genre=unknown


Fichier(s) constituant ce document

FichiersTailleFormatVue

Il n'y a pas de fichiers associés à ce document.

Ce document figure dans la(les) collection(s) suivante(s)

Afficher la notice abrégée