A geometric view of Biodiversity: scaling to metagenomics
BLANCHARD, Pierre
from patterns to models in computational biodiversity and biotechnology [PLEIADE]
High-End Parallel Algorithms for Challenging Numerical Simulations [HiePACS]
from patterns to models in computational biodiversity and biotechnology [PLEIADE]
High-End Parallel Algorithms for Challenging Numerical Simulations [HiePACS]
CHAUMEIL, Philippe
Biodiversité, Gènes & Communautés [BioGeCo]
from patterns to models in computational biodiversity and biotechnology [PLEIADE]
Biodiversité, Gènes & Communautés [BioGeCo]
from patterns to models in computational biodiversity and biotechnology [PLEIADE]
FRIGERIO, Jean-Marc
Biodiversité, Gènes & Communautés [BioGeCo]
from patterns to models in computational biodiversity and biotechnology [PLEIADE]
Leer más >
Biodiversité, Gènes & Communautés [BioGeCo]
from patterns to models in computational biodiversity and biotechnology [PLEIADE]
BLANCHARD, Pierre
from patterns to models in computational biodiversity and biotechnology [PLEIADE]
High-End Parallel Algorithms for Challenging Numerical Simulations [HiePACS]
from patterns to models in computational biodiversity and biotechnology [PLEIADE]
High-End Parallel Algorithms for Challenging Numerical Simulations [HiePACS]
CHAUMEIL, Philippe
Biodiversité, Gènes & Communautés [BioGeCo]
from patterns to models in computational biodiversity and biotechnology [PLEIADE]
Biodiversité, Gènes & Communautés [BioGeCo]
from patterns to models in computational biodiversity and biotechnology [PLEIADE]
FRIGERIO, Jean-Marc
Biodiversité, Gènes & Communautés [BioGeCo]
from patterns to models in computational biodiversity and biotechnology [PLEIADE]
Biodiversité, Gènes & Communautés [BioGeCo]
from patterns to models in computational biodiversity and biotechnology [PLEIADE]
RIMET, Frédéric
Centre Alpin de Recherche sur les Réseaux Trophiques et Ecosystèmes Limniques [CARRTEL]
Centre Alpin de Recherche sur les Réseaux Trophiques et Ecosystèmes Limniques [CARRTEL]
SALIN, Franck
Biodiversité, Gènes & Communautés [BioGeCo]
from patterns to models in computational biodiversity and biotechnology [PLEIADE]
Biodiversité, Gènes & Communautés [BioGeCo]
from patterns to models in computational biodiversity and biotechnology [PLEIADE]
FRANC, Alain
from patterns to models in computational biodiversity and biotechnology [PLEIADE]
Biodiversité, Gènes & Communautés [BioGeCo]
< Leer menos
from patterns to models in computational biodiversity and biotechnology [PLEIADE]
Biodiversité, Gènes & Communautés [BioGeCo]
Idioma
en
Rapport
Este ítem está publicado en
2018-01p. 1-16
Resumen
Nous avons conçu un algorithme de réduction de la dimension pour explorer de nouvellesvoies pour une caractérisation précise de la biodiversité, ici par une approche géométrique,qui satisfait aux critères de passage à ...Leer más >
Nous avons conçu un algorithme de réduction de la dimension pour explorer de nouvellesvoies pour une caractérisation précise de la biodiversité, ici par une approche géométrique,qui satisfait aux critères de passage à l'échelle pour les jeux de données produits par NGS(actuellement $\sim 10^5$ reads). Cette aproche est basée sur la technique dite "Multidimensional Scaling",qui permet de projeter les éléments à étudier sur un ensemble de n points dans un espaceeuclidien de faible dimension, connaissant leurs distances respectives. Nous avons calculé toutesles distances deux à deux entre reads d'un échantillon environnemental, réalisé une MDS dutableau de distances, et analysé les projections sur les premiers axes par des techniques de visualisation.Nous avons abordé la question de la complexité quadratique du calcul des distances deux à deux en réalisant les calculs dans un Centre National disposant d'une machine hyperparallèle (Turing, une IBM BLue Gene Q), et la complexité cubique de la décomposition spectrale dans la MDS en utilisant un algorithme de projection aléatoire dense. Nous avons appliqué cette procédure à un jeu de $\sim 10^5$ reads d'un échantillon environnemental de diatomées du lac Léman.L'analyse de la forme du nuage de points obtenu ouvre la voie vers une analyse géométrique de la biodiversité, et une construction rigoureuse d'OTUs (Operational Taxonomic Units) lorsque le jeu de données est trop grand pour mettre en oeuvre les méthodes de classiffcation ascendante hiérarchique, non supervisée.< Leer menos
Resumen en inglés
We have designed a new efficient dimensionality reduction algorithm in order to investigate new ways of accurately characterizing the biodiversity, namely from a geometric point of view, scaling with large environmental ...Leer más >
We have designed a new efficient dimensionality reduction algorithm in order to investigate new ways of accurately characterizing the biodiversity, namely from a geometric point of view, scaling with large environmental sets produced by NGS ($\sim 10^5$ sequences). The approach is based on Multidimensional Scaling (MDS) that allows for mapping items on a set of $n$ points into a low dimensional euclidean space given the set of pairwise distances. We compute all pairwise distances between reads in a given sample, run MDS on the distance matrix, and analyze the projection on first axis, by visualization tools. We have circumvented the quadratic complexity of computing pairwise distances by implementing it on a hyperparallel computer (Turing, a Blue Gene Q), and the cubic complexity of the spectral decomposition by implementing a dense random projection based algorithm. We have applied this data analysis scheme on a set of $10^5$ reads, which are amplicons of a diatom environmental sample from Lake Geneva. Analyzing the shape of the point cloud paves the way for a geometric analysis of biodiversity, and for accurately building OTUs (Operational Taxonomic Units), when the data set is too large for implementing unsupervised, hierarchical, high-dimensional clustering.< Leer menos
Palabras clave
Décomposition en Valeurs Singulières
Projection aléatoire
Biodiversité
Palabras clave en inglés
Random Projection
Singular Value Decomposition
metabarcoding
Multidimensional Scaling
Biodiversity
Orígen
Importado de HalCentros de investigación