A geometric view of Biodiversity: scaling to metagenomics
BLANCHARD, Pierre
from patterns to models in computational biodiversity and biotechnology [PLEIADE]
High-End Parallel Algorithms for Challenging Numerical Simulations [HiePACS]
from patterns to models in computational biodiversity and biotechnology [PLEIADE]
High-End Parallel Algorithms for Challenging Numerical Simulations [HiePACS]
CHAUMEIL, Philippe
Biodiversité, Gènes & Communautés [BioGeCo]
from patterns to models in computational biodiversity and biotechnology [PLEIADE]
Biodiversité, Gènes & Communautés [BioGeCo]
from patterns to models in computational biodiversity and biotechnology [PLEIADE]
FRIGERIO, Jean-Marc
Biodiversité, Gènes & Communautés [BioGeCo]
from patterns to models in computational biodiversity and biotechnology [PLEIADE]
Voir plus >
Biodiversité, Gènes & Communautés [BioGeCo]
from patterns to models in computational biodiversity and biotechnology [PLEIADE]
BLANCHARD, Pierre
from patterns to models in computational biodiversity and biotechnology [PLEIADE]
High-End Parallel Algorithms for Challenging Numerical Simulations [HiePACS]
from patterns to models in computational biodiversity and biotechnology [PLEIADE]
High-End Parallel Algorithms for Challenging Numerical Simulations [HiePACS]
CHAUMEIL, Philippe
Biodiversité, Gènes & Communautés [BioGeCo]
from patterns to models in computational biodiversity and biotechnology [PLEIADE]
Biodiversité, Gènes & Communautés [BioGeCo]
from patterns to models in computational biodiversity and biotechnology [PLEIADE]
FRIGERIO, Jean-Marc
Biodiversité, Gènes & Communautés [BioGeCo]
from patterns to models in computational biodiversity and biotechnology [PLEIADE]
Biodiversité, Gènes & Communautés [BioGeCo]
from patterns to models in computational biodiversity and biotechnology [PLEIADE]
RIMET, Frédéric
Centre Alpin de Recherche sur les Réseaux Trophiques et Ecosystèmes Limniques [CARRTEL]
Centre Alpin de Recherche sur les Réseaux Trophiques et Ecosystèmes Limniques [CARRTEL]
SALIN, Franck
Biodiversité, Gènes & Communautés [BioGeCo]
from patterns to models in computational biodiversity and biotechnology [PLEIADE]
Biodiversité, Gènes & Communautés [BioGeCo]
from patterns to models in computational biodiversity and biotechnology [PLEIADE]
FRANC, Alain
from patterns to models in computational biodiversity and biotechnology [PLEIADE]
Biodiversité, Gènes & Communautés [BioGeCo]
< Réduire
from patterns to models in computational biodiversity and biotechnology [PLEIADE]
Biodiversité, Gènes & Communautés [BioGeCo]
Langue
en
Rapport
Ce document a été publié dans
2018-01p. 1-16
Résumé
Nous avons conçu un algorithme de réduction de la dimension pour explorer de nouvellesvoies pour une caractérisation précise de la biodiversité, ici par une approche géométrique,qui satisfait aux critères de passage à ...Lire la suite >
Nous avons conçu un algorithme de réduction de la dimension pour explorer de nouvellesvoies pour une caractérisation précise de la biodiversité, ici par une approche géométrique,qui satisfait aux critères de passage à l'échelle pour les jeux de données produits par NGS(actuellement $\sim 10^5$ reads). Cette aproche est basée sur la technique dite "Multidimensional Scaling",qui permet de projeter les éléments à étudier sur un ensemble de n points dans un espaceeuclidien de faible dimension, connaissant leurs distances respectives. Nous avons calculé toutesles distances deux à deux entre reads d'un échantillon environnemental, réalisé une MDS dutableau de distances, et analysé les projections sur les premiers axes par des techniques de visualisation.Nous avons abordé la question de la complexité quadratique du calcul des distances deux à deux en réalisant les calculs dans un Centre National disposant d'une machine hyperparallèle (Turing, une IBM BLue Gene Q), et la complexité cubique de la décomposition spectrale dans la MDS en utilisant un algorithme de projection aléatoire dense. Nous avons appliqué cette procédure à un jeu de $\sim 10^5$ reads d'un échantillon environnemental de diatomées du lac Léman.L'analyse de la forme du nuage de points obtenu ouvre la voie vers une analyse géométrique de la biodiversité, et une construction rigoureuse d'OTUs (Operational Taxonomic Units) lorsque le jeu de données est trop grand pour mettre en oeuvre les méthodes de classiffcation ascendante hiérarchique, non supervisée.< Réduire
Résumé en anglais
We have designed a new efficient dimensionality reduction algorithm in order to investigate new ways of accurately characterizing the biodiversity, namely from a geometric point of view, scaling with large environmental ...Lire la suite >
We have designed a new efficient dimensionality reduction algorithm in order to investigate new ways of accurately characterizing the biodiversity, namely from a geometric point of view, scaling with large environmental sets produced by NGS ($\sim 10^5$ sequences). The approach is based on Multidimensional Scaling (MDS) that allows for mapping items on a set of $n$ points into a low dimensional euclidean space given the set of pairwise distances. We compute all pairwise distances between reads in a given sample, run MDS on the distance matrix, and analyze the projection on first axis, by visualization tools. We have circumvented the quadratic complexity of computing pairwise distances by implementing it on a hyperparallel computer (Turing, a Blue Gene Q), and the cubic complexity of the spectral decomposition by implementing a dense random projection based algorithm. We have applied this data analysis scheme on a set of $10^5$ reads, which are amplicons of a diatom environmental sample from Lake Geneva. Analyzing the shape of the point cloud paves the way for a geometric analysis of biodiversity, and for accurately building OTUs (Operational Taxonomic Units), when the data set is too large for implementing unsupervised, hierarchical, high-dimensional clustering.< Réduire
Mots clés
Décomposition en Valeurs Singulières
Projection aléatoire
Biodiversité
Mots clés en anglais
Random Projection
Singular Value Decomposition
metabarcoding
Multidimensional Scaling
Biodiversity
Origine
Importé de halUnités de recherche