Ordonnancement de noyaux d'algèbre linéaire dense sur ressources hétérogènes
KUMAR, Suraj
Laboratoire Bordelais de Recherche en Informatique [LaBRI]
STatic Optimizations, Runtime Methods [STORM]
Reformulations based algorithms for Combinatorial Optimization [Realopt]
High-End Parallel Algorithms for Challenging Numerical Simulations [HiePACS]
Laboratoire Bordelais de Recherche en Informatique [LaBRI]
STatic Optimizations, Runtime Methods [STORM]
Reformulations based algorithms for Combinatorial Optimization [Realopt]
High-End Parallel Algorithms for Challenging Numerical Simulations [HiePACS]
KUMAR, Suraj
Laboratoire Bordelais de Recherche en Informatique [LaBRI]
STatic Optimizations, Runtime Methods [STORM]
Reformulations based algorithms for Combinatorial Optimization [Realopt]
High-End Parallel Algorithms for Challenging Numerical Simulations [HiePACS]
< Reduce
Laboratoire Bordelais de Recherche en Informatique [LaBRI]
STatic Optimizations, Runtime Methods [STORM]
Reformulations based algorithms for Combinatorial Optimization [Realopt]
High-End Parallel Algorithms for Challenging Numerical Simulations [HiePACS]
Language
en
Thèses de doctorat
Doctoral school
École doctorale de mathématiques et informatique (Talence, Gironde ; 1991-....)Abstract
Du fait des énormes capacités de calculs des accélérateurs tels que les GPUs et les Xeon Phi, l’utilisation de machines multicoques pourvues d’accélérateurs est devenue commune dans le domaine du calcul haute performance ...Read more >
Du fait des énormes capacités de calculs des accélérateurs tels que les GPUs et les Xeon Phi, l’utilisation de machines multicoques pourvues d’accélérateurs est devenue commune dans le domaine du calcul haute performance (HPC). La complexité induite par ces accélérateurs a suscité le développement de systèmes d’exécution à base de tâches, dans lesquels les dépendances entre les applications sont exprimées sous la forme de graphe de tâches et où les tâches sont ordonnancées dynamiquement sur les ressources de calcul. La difficulté est alors de concevoir des stratégies d’ordonnancement qui font une utilisation efficace des ressources de calculs et le développement de telles stratégies, même pour un unique noeud hybride, est un enjeu essentiel de la performance des systèmes HPC. Nous considérons dans cette thèse l’ordonnancement de noyaux d’algèbre linéaire dense sur des noeuds complètement hétérogènes et constitués de CPUs et de GPUs. Les performances relatives des accélérateurs par rapport aux coeurs classique dépend très fortement du noyau considéré. Par exemple, les accélérateurs sont beaucoup plus efficaces pour les produits de matrices, par exemple, que pour les factorisations. Dans cette thèse, nous analysons les performances de stratégies statiques et dynamiques d’ordonnancement et nous proposons un ensemble de stratégies intermédiaires, en ajoutant des composantes statiques (respectivement dynamiques) à des stratégies d’ordonnancements dynamique (respectivement statiques). Récemment, une stratégie appelée HeteroPrio a été proposée, qui s’appuie sur les affinités entre les tâches et les ressources pour un petit ensemble de tâches différentes s’exécutant sur deux types de ressources. Nous avons étendu cette stratégie d’ordonnancement pour des graphes de tâches généraux pour deux types de ressources puis pour plus de deux types. De manière complémentaire, nous avons également démontré des facteurs d’approximation et des pires cas pour HeteroPrio dans le cas d’un ensemble de tâches indépendantes sur différents types de plates-formes.Read less <
English Abstract
Due to massive computation power of accelerators such as GPU, Xeon phi, multicore machines equipped with accelerators are becoming popular in High Performance Computing (HPC). The added complexity led to the development ...Read more >
Due to massive computation power of accelerators such as GPU, Xeon phi, multicore machines equipped with accelerators are becoming popular in High Performance Computing (HPC). The added complexity led to the development of different task-based runtime systems, which allow computations to be expressed as graphs of tasks and rely on runtime systems to schedule those tasks among all resources of the platform. The real challenge is to design efficient schedulers for such runtimes to make effective utilization of all resources. Developing good schedulers, even for a single hybrid node, and analyzing them can thus have a strong impact on the performance of current HPC systems. We consider the problem of scheduling dense linear algebra applications on fully hybrid platforms made of CPUs and GPUs. The relative performance of CPU and GPU highly depends on the sub-routine. For instance, GPUs are much more efficient to process matrix-matrix multiplications than matrix factorizations. In this thesis, we analyze the performance of static and dynamic scheduling strategies and we propose a set of intermediate strategies, by adding static (resp. dynamic) features into dynamic (resp. static) strategies. A resource centric dynamic scheduler, HeteroPrio, which is based on affinity between tasks and resources, has been proposed recently for a set of small independent tasks on two types of resources. We extend and analyze this scheduler for general task graphs first on two types of resources and then on more than two types of resources. Additionally, we provide approximation ratios and worst case examples of HeteroPrio for a set of independent tasks on different platform sizes.Read less <
Keywords
Algèbre linéaire dense
Ordonnancement dynamique
Ordonnancement à base de graphe de tâches
Plates-formes hétérogènes
Systèmes d’ordonnancement dynamiques
English Keywords
Dense Linear Algebra
Dynamic Schedulers
Task-based Scheduling
Heterogeneous Platforms
Runtime Systems
Origin
Hal imported