Afficher la notice abrégée

hal.structure.identifierfrom patterns to models in computational biodiversity and biotechnology [PLEIADE]
hal.structure.identifierHigh-End Parallel Algorithms for Challenging Numerical Simulations [HiePACS]
dc.contributor.authorBLANCHARD, Pierre
hal.structure.identifierBiodiversité, Gènes & Communautés [BioGeCo]
hal.structure.identifierfrom patterns to models in computational biodiversity and biotechnology [PLEIADE]
dc.contributor.authorCHAUMEIL, Philippe
hal.structure.identifierBiodiversité, Gènes & Communautés [BioGeCo]
hal.structure.identifierfrom patterns to models in computational biodiversity and biotechnology [PLEIADE]
dc.contributor.authorFRIGERIO, Jean-Marc
hal.structure.identifierCentre Alpin de Recherche sur les Réseaux Trophiques et Ecosystèmes Limniques [CARRTEL]
dc.contributor.authorRIMET, Frédéric
hal.structure.identifierBiodiversité, Gènes & Communautés [BioGeCo]
hal.structure.identifierfrom patterns to models in computational biodiversity and biotechnology [PLEIADE]
dc.contributor.authorSALIN, Franck
hal.structure.identifierInstitut du développement et des ressources en informatique scientifique [IDRIS]
dc.contributor.authorTHÉROND, Sylvie
hal.structure.identifierHigh-End Parallel Algorithms for Challenging Numerical Simulations [HiePACS]
dc.contributor.authorCOULAUD, Olivier
hal.structure.identifierfrom patterns to models in computational biodiversity and biotechnology [PLEIADE]
hal.structure.identifierBiodiversité, Gènes & Communautés [BioGeCo]
dc.contributor.authorFRANC, Alain
dc.date.created2018-01
dc.date.issued2018-01
dc.description.abstractNous avons conçu un algorithme de réduction de la dimension pour explorer de nouvellesvoies pour une caractérisation précise de la biodiversité, ici par une approche géométrique,qui satisfait aux critères de passage à l'échelle pour les jeux de données produits par NGS(actuellement $\sim 10^5$ reads). Cette aproche est basée sur la technique dite "Multidimensional Scaling",qui permet de projeter les éléments à étudier sur un ensemble de n points dans un espaceeuclidien de faible dimension, connaissant leurs distances respectives. Nous avons calculé toutesles distances deux à deux entre reads d'un échantillon environnemental, réalisé une MDS dutableau de distances, et analysé les projections sur les premiers axes par des techniques de visualisation.Nous avons abordé la question de la complexité quadratique du calcul des distances deux à deux en réalisant les calculs dans un Centre National disposant d'une machine hyperparallèle (Turing, une IBM BLue Gene Q), et la complexité cubique de la décomposition spectrale dans la MDS en utilisant un algorithme de projection aléatoire dense. Nous avons appliqué cette procédure à un jeu de $\sim 10^5$ reads d'un échantillon environnemental de diatomées du lac Léman.L'analyse de la forme du nuage de points obtenu ouvre la voie vers une analyse géométrique de la biodiversité, et une construction rigoureuse d'OTUs (Operational Taxonomic Units) lorsque le jeu de données est trop grand pour mettre en oeuvre les méthodes de classiffcation ascendante hiérarchique, non supervisée.
dc.description.abstractEnWe have designed a new efficient dimensionality reduction algorithm in order to investigate new ways of accurately characterizing the biodiversity, namely from a geometric point of view, scaling with large environmental sets produced by NGS ($\sim 10^5$ sequences). The approach is based on Multidimensional Scaling (MDS) that allows for mapping items on a set of $n$ points into a low dimensional euclidean space given the set of pairwise distances. We compute all pairwise distances between reads in a given sample, run MDS on the distance matrix, and analyze the projection on first axis, by visualization tools. We have circumvented the quadratic complexity of computing pairwise distances by implementing it on a hyperparallel computer (Turing, a Blue Gene Q), and the cubic complexity of the spectral decomposition by implementing a dense random projection based algorithm. We have applied this data analysis scheme on a set of $10^5$ reads, which are amplicons of a diatom environmental sample from Lake Geneva. Analyzing the shape of the point cloud paves the way for a geometric analysis of biodiversity, and for accurately building OTUs (Operational Taxonomic Units), when the data set is too large for implementing unsupervised, hierarchical, high-dimensional clustering.
dc.language.isoen
dc.subjectDécomposition en Valeurs Singulières
dc.subjectProjection aléatoire
dc.subjectBiodiversité
dc.subject.enRandom Projection
dc.subject.enSingular Value Decomposition
dc.subject.enmetabarcoding
dc.subject.enMultidimensional Scaling
dc.subject.enBiodiversity
dc.title.enA geometric view of Biodiversity: scaling to metagenomics
dc.typeRapport
dc.subject.halStatistiques [stat]/Calcul [stat.CO]
dc.subject.halStatistiques [stat]/Machine Learning [stat.ML]
dc.subject.halSciences du Vivant [q-bio]/Biodiversité/Systématique, phylogénie et taxonomie
dc.identifier.arxiv1803.02272
bordeaux.page1-16
bordeaux.type.institutionINRIA
bordeaux.type.institutionINRA
bordeaux.type.reportrr
hal.identifierhal-01685711
hal.version1
hal.origin.linkhttps://hal.archives-ouvertes.fr//hal-01685711v1
bordeaux.COinSctx_ver=Z39.88-2004&rft_val_fmt=info:ofi/fmt:kev:mtx:journal&rft.date=2018-01&rft.spage=1-16&rft.epage=1-16&rft.au=BLANCHARD,%20Pierre&CHAUMEIL,%20Philippe&FRIGERIO,%20Jean-Marc&RIMET,%20Fr%C3%A9d%C3%A9ric&SALIN,%20Franck&rft.genre=unknown


Fichier(s) constituant ce document

FichiersTailleFormatVue

Il n'y a pas de fichiers associés à ce document.

Ce document figure dans la(les) collection(s) suivante(s)

Afficher la notice abrégée