Дисертації: "Calculs haute performance"

1

Galtier, Jérôme. "Structures de données irrégulières et architectures haute performance : une étude du calcul numérique intensif par le partitionnement de graphes." Versailles-St Quentin en Yvelines, 1997. http://www.theses.fr/1997VERS0001.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Les besoins en ressources informatiques des calculs numériques intensifs constituent l'un des problèmes concrets les plus délicats à gérer, notamment pour la résolution de systèmes linéaires creux issus de modèles en éléments finis. Dans un premier temps, nous unifions et complétons différents résultats reliant le calcul numérique haute-performance distribué au partitionnement de graphes. Sont étudiées la complexité de la résolution itérative d'un système linéaire creux dans le cadre du calcul parallèle distribué, la complexité de la résolution directe d'un système linéaire creux pour un calcul séquentiel, l'optimisation de la gestion de la mémoire dans un contexte de mémoire hiérarchique pour un calcul quelconque. Ainsi, la gestion quasi-optimale des ressources en temps (complexité du calcul) et en espace (mémoire) se ramène au problème de partitionnement des graphes. Nous nous penchons ensuite sur un modèle classique de structures de données régulières, les grilles rectangulaires multidimensionnelles, pour en extraire les propriétés du partitionnement optimal. Nous trouvons une inégalité isoperimetrique par arêtes, qui donne une forte intuition sur la nature des découpages optimaux, notamment pour les dimensions supérieures ou égales à trois. Enfin, nous tirons parti de cette intuition pour forcer l'obtention de découpages proches de cette forme générale pour les maillages éléments finis en dimension trois (structures de données irrégulières). Nous proposons un algorithme qui, est partir du maillage de surface d'un domaine (décrit par une liste de points et de facettes), construit un séparateur découpant le domaine en deux sous-domaines. Ceux-ci peuvent, a leur tour, être décrits et découpés. Sa mise en oeuvre est expérimentée sur de nombreux exemples, et a pu être intégrée à un solveur industriel de mécanique des fluides ; elle réduit drastiquement les ressources nécessaires à la génération des grands maillages

2

Guilloteau, Quentin. "Une approche autonomique à la régulation en ligne de systèmes HPC, avec un support pour la reproductibilité des expériences." Electronic Thesis or Diss., Université Grenoble Alpes, 2023. http://www.theses.fr/2023GRALM075.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Les systèmes de calcul haute performance (HPC) sont devenus de plus en plus complexes, et leurs performances ainsi que leur consommation d'énergie les rendent de moins en moins prévisibles.Cette imprévisibilité nécessite une gestion en ligne et prudente, afin garantir une qualité de service acceptable aux utilisateurs.Un tel problème de régulation se pose dans le contexte de l'intergiciel de grille de calcul CiGri qui vise à récolter les ressources inutilisées d'un ensemble de grappes via l'injection de tâches faiblement prioritaires.Une stratégie de récolte trop agressive peut conduire à la dégradation des performances pour tous les utilisateurs des grappes, tandis qu'une récolte trop timide laissera des ressources inutilisées et donc une perte de puissance de calcul.Il existe ainsi un compromis entre la quantité de ressources pouvant être récoltées et la dégradation des performances pour les tâches des utilisateurs qui en résulte.Ce compromis peut évoluer au cours de l'exécution en fonction des accords de niveau de service et de la charge du système.Nous affirmons que de tels défis de régulation peuvent être résolus avec des outils issus de l'informatique autonomique, et en particulier lorsqu'ils sont couplés à la théorie du contrôle.Cette thèse étudie plusieurs problèmes de régulation dans le contexte de CiGri avec de tels outils.Nous nous concentrerons sur la régulation de la récolte de ressources libres en fonction de la charge d'un système de fichiers distribué partagé et sur l'amélioration de l'utilisation globale des ressources de calcul.Nous évaluerons et comparerons également la réutilisabilité des solutions proposées dans le contexte des systèmes HPC.Les expériences réalisées dans cette thèse nous ont par ailleurs amené à rechercher de nouveaux outils et techniques pour améliorer le coût et la reproductibilité des expériences.Nous présenterons un outil nommé NixOS-Compose capable de générer et de déployer des environnements logiciels distribués reproductibles.Nous étudierons de plus des techniques permettant de réduire le nombre de machines nécessaires pour expérimenter sur des intergiciels de grappe, tels que CiGri, tout en garantissant un niveau de réalisme acceptable pour le système final déployé
High-Performance Computing (HPC) systems have become increasingly more complex, and their performance and power consumption make them less predictable.This unpredictability requires cautious runtime management to guarantee an acceptable Quality-of-Service to the end users.Such a regulation problem arises in the context of the computing grid middleware CiGri that aims at harvesting the idle computing resources of a set of cluster by injection low priority jobs.A too aggressive harvesting strategy can lead to the degradation of the performance for all the users of the clusters, while a too shy harvesting will leave resources idle and thus lose computing power.There is thus a tradeoff between the amount of resources that can be harvested and the resulting degradation of users jobs, which can evolve at runtime based on Service Level Agreements and the current load of the system.We claim that such regulation challenges can be addressed with tools from Autonomic Computing, and in particular when coupled with Control Theory.This thesis investigates several regulation problems in the context of CiGri with such tools.We will focus on regulating the harvesting based on the load of a shared distributed file-system, and improving the overall usage of the computing resources.We will also evaluate and compare the reusability of the proposed control-based solutions in the context of HPC systems.The experiments done in this thesis also led us to investigate new tools and techniques to improve the cost and reproducibility of the experiments.We will present a tool named NixOS-Compose able to generate and deploy reproducible distributed software environments.We will also investigate techniques to reduce the number of machines needed to deploy experiments on grid or cluster middlewares, such as CiGri, while ensuring an acceptable level of realism for the final deployed system

3

Ho, Minh Quan. "Optimisation de transfert de données pour les processeurs pluri-coeurs, appliqué à l'algèbre linéaire et aux calculs sur stencils." Thesis, Université Grenoble Alpes (ComUE), 2018. http://www.theses.fr/2018GREAM042/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

La prochaine cible de Exascale en calcul haute performance (High Performance Computing - HPC) et des récent accomplissements dans l'intelligence artificielle donnent l'émergence des architectures alternatives non conventionnelles, dont l'efficacité énergétique est typique des systèmes embarqués, tout en fournissant un écosystème de logiciel équivalent aux plateformes HPC classiques. Un facteur clé de performance de ces architectures à plusieurs cœurs est l'exploitation de la localité de données, en particulier l'utilisation de mémoire locale (scratchpad) en combinaison avec des moteurs d'accès direct à la mémoire (Direct Memory Access - DMA) afin de chevaucher le calcul et la communication. Un tel paradigme soulève des défis de programmation considérables à la fois au fabricant et au développeur d'application. Dans cette thèse, nous abordons les problèmes de transfert et d'accès aux mémoires hiérarchiques, de performance de calcul, ainsi que les défis de programmation des applications HPC, sur l'architecture pluri-cœurs MPPA de Kalray. Pour le premier cas d'application lié à la méthode de Boltzmann sur réseau (Lattice Boltzmann method - LBM), nous fournissons des techniques génériques et réponses fondamentales à la question de décomposition d'un domaine stencil itérative tridimensionnelle sur les processeurs clusterisés équipés de mémoires locales et de moteurs DMA. Nous proposons un algorithme de streaming et de recouvrement basé sur DMA, délivrant 33% de gain de performance par rapport à l'implémentation basée sur la mémoire cache par défaut. Le calcul de stencil multi-dimensionnel souffre d'un goulot d'étranglement important sur les entrées/sorties de données et d'espace mémoire sur puce limitée. Nous avons développé un nouvel algorithme de propagation LBM sur-place (in-place). Il consiste à travailler sur une seule instance de données, au lieu de deux, réduisant de moitié l'empreinte mémoire et cède une efficacité de performance-par-octet 1.5 fois meilleur par rapport à l'algorithme traditionnel dans l'état de l'art. Du côté du calcul intensif avec l'algèbre linéaire dense, nous construisons un benchmark de multiplication matricielle optimale, basé sur exploitation de la mémoire locale et la communication DMA asynchrone. Ces techniques sont ensuite étendues à un module DMA générique du framework BLIS, ce qui nous permet d'instancier une bibliothèque BLAS3 (Basic Linear Algebra Subprograms) portable et optimisée sur n'importe quelle architecture basée sur DMA, en moins de 100 lignes de code. Nous atteignons une performance maximale de 75% du théorique sur le processeur MPPA avec l'opération de multiplication de matrices (GEMM) de BLAS, sans avoir à écrire des milliers de lignes de code laborieusement optimisé pour le même résultat
Upcoming Exascale target in High Performance Computing (HPC) and disruptive achievements in artificial intelligence give emergence of alternative non-conventional many-core architectures, with energy efficiency typical of embedded systems, and providing the same software ecosystem as classic HPC platforms. A key enabler of energy-efficient computing on many-core architectures is the exploitation of data locality, specifically the use of scratchpad memories in combination with DMA engines in order to overlap computation and communication. Such software paradigm raises considerable programming challenges to both the vendor and the application developer. In this thesis, we tackle the memory transfer and performance issues, as well as the programming challenges of memory- and compute-intensive HPC applications on he Kalray MPPA many-core architecture. With the first memory-bound use-case of the lattice Boltzmann method (LBM), we provide generic and fundamental techniques for decomposing three-dimensional iterative stencil problems onto clustered many-core processors fitted withs cratchpad memories and DMA engines. The developed DMA-based streaming and overlapping algorithm delivers 33%performance gain over the default cache-based implementation.High-dimensional stencil computation suffers serious I/O bottleneck and limited on-chip memory space. We developed a new in-place LBM propagation algorithm, which reduces by half the memory footprint and yields 1.5 times higher performance-per-byte efficiency than the state-of-the-art out-of-place algorithm. On the compute-intensive side with dense linear algebra computations, we build an optimized matrix multiplication benchmark based on exploitation of scratchpad memory and efficient asynchronous DMA communication. These techniques are then extended to a DMA module of the BLIS framework, which allows us to instantiate an optimized and portable level-3 BLAS numerical library on any DMA-based architecture, in less than 100 lines of code. We achieve 75% peak performance on the MPPA processor with the matrix multiplication operation (GEMM) from the standard BLAS library, without having to write thousands of lines of laboriously optimized code for the same result

4

Pawlowski, Filip igor. "High-performance dense tensor and sparse matrix kernels for machine learning." Thesis, Lyon, 2020. http://www.theses.fr/2020LYSEN081.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Dans cette thèse, nous développons des algorithmes à haute performance pour certains calculs impliquant des tenseurs denses et des matrices éparses. Nous abordons les opérations du noyau qui sont utiles pour les tâches d'apprentissage de la machine, telles que l'inférence avec les réseaux neuronaux profonds. Nous développons des structures de données et des techniques pour réduire l'utilisation de la mémoire, pour améliorer la localisation des données et donc pour améliorer la réutilisation du cache des opérations du noyau. Nous concevons des algorithmes parallèles à mémoire séquentielle et à mémoire partagée.Dans la première partie de la thèse, nous nous concentrons sur les noyaux tenseurs denses. Les noyaux tenseurs comprennent la multiplication tenseur-vecteur (TVM), la multiplication tenseur-matrice (TMM) et la multiplication tenseur-tendeur (TTM). Parmi ceux-ci, la MVT est la plus liée à la largeur de bande et constitue un élément de base pour de nombreux algorithmes. Nous proposons une nouvelle structure de données qui stocke le tenseur sous forme de blocs, qui sont ordonnés en utilisant la courbe de remplissage de l'espace connue sous le nom de courbe de Morton (ou courbe en Z). L'idée clé consiste à diviser le tenseur en blocs suffisamment petits pour tenir dans le cache et à les stocker selon l'ordre de Morton, tout en conservant un ordre simple et multidimensionnel sur les éléments individuels qui les composent. Ainsi, des routines BLAS haute performance peuvent être utilisées comme micro-noyaux pour chaque bloc. Les résultats démontrent non seulement que l'approche proposée est plus performante que les variantes de pointe jusqu'à 18%, mais aussi que l'approche proposée induit 71% de moins d'écart-type d'échantillon pour le MVT dans les différents modes possibles. Enfin, nous étudions des algorithmes de mémoire partagée parallèles pour la MVT qui utilisent la structure de données proposée. Nos résultats sur un maximum de 8 systèmes de prises montrent une performance presque maximale pour l'algorithme proposé pour les tenseurs à 2, 3, 4 et 5 dimensions.Dans la deuxième partie de la thèse, nous explorons les calculs épars dans les réseaux de neurones en nous concentrant sur le problème d'inférence profonde épars à haute performance. L'inférence sparse DNN est la tâche d'utiliser les réseaux sparse DNN pour classifier un lot d'éléments de données formant, dans notre cas, une matrice de caractéristiques sparse. La performance de l'inférence clairsemée dépend de la parallélisation efficace de la matrice clairsemée - la multiplication matricielle clairsemée (SpGEMM) répétée pour chaque couche dans la fonction d'inférence. Nous introduisons ensuite l'inférence modèle-parallèle, qui utilise un partitionnement bidimensionnel des matrices de poids obtenues à l'aide du logiciel de partitionnement des hypergraphes. Enfin, nous introduisons les algorithmes de tuilage modèle-parallèle et de tuilage hybride, qui augmentent la réutilisation du cache entre les couches, et utilisent un module de synchronisation faible pour cacher le déséquilibre de charge et les coûts de synchronisation. Nous évaluons nos techniques sur les données du grand réseau du IEEE HPEC 2019 Graph Challenge sur les systèmes à mémoire partagée et nous rapportons jusqu'à 2x l'accélération par rapport à la ligne de base
In this thesis, we develop high performance algorithms for certain computations involving dense tensors and sparse matrices. We address kernel operations that are useful for machine learning tasks, such as inference with deep neural networks (DNNs). We develop data structures and techniques to reduce memory use, to improve data locality and hence to improve cache reuse of the kernel operations. We design both sequential and shared-memory parallel algorithms. In the first part of the thesis we focus on dense tensors kernels. Tensor kernels include the tensor--vector multiplication (TVM), tensor--matrix multiplication (TMM), and tensor--tensor multiplication (TTM). Among these, TVM is the most bandwidth-bound and constitutes a building block for many algorithms. We focus on this operation and develop a data structure and sequential and parallel algorithms for it. We propose a novel data structure which stores the tensor as blocks, which are ordered using the space-filling curve known as the Morton curve (or Z-curve). The key idea consists of dividing the tensor into blocks small enough to fit cache, and storing them according to the Morton order, while keeping a simple, multi-dimensional order on the individual elements within them. Thus, high performance BLAS routines can be used as microkernels for each block. We evaluate our techniques on a set of experiments. The results not only demonstrate superior performance of the proposed approach over the state-of-the-art variants by up to 18%, but also show that the proposed approach induces 71% less sample standard deviation for the TVM across the d possible modes. Finally, we show that our data structure naturally expands to other tensor kernels by demonstrating that it yields up to 38% higher performance for the higher-order power method. Finally, we investigate shared-memory parallel TVM algorithms which use the proposed data structure. Several alternative parallel algorithms were characterized theoretically and implemented using OpenMP to compare them experimentally. Our results on up to 8 socket systems show near peak performance for the proposed algorithm for 2, 3, 4, and 5-dimensional tensors. In the second part of the thesis, we explore the sparse computations in neural networks focusing on the high-performance sparse deep inference problem. The sparse DNN inference is the task of using sparse DNN networks to classify a batch of data elements forming, in our case, a sparse feature matrix. The performance of sparse inference hinges on efficient parallelization of the sparse matrix--sparse matrix multiplication (SpGEMM) repeated for each layer in the inference function. We first characterize efficient sequential SpGEMM algorithms for our use case. We then introduce the model-parallel inference, which uses a two-dimensional partitioning of the weight matrices obtained using the hypergraph partitioning software. The model-parallel variant uses barriers to synchronize at layers. Finally, we introduce tiling model-parallel and tiling hybrid algorithms, which increase cache reuse between the layers, and use a weak synchronization module to hide load imbalance and synchronization costs. We evaluate our techniques on the large network data from the IEEE HPEC 2019 Graph Challenge on shared-memory systems and report up to 2x times speed-up versus the baseline

5

Vienne, Jérôme. "Prédiction de performances d'applications de calcul haute performance sur réseau Infiniband." Phd thesis, Grenoble, 2010. http://www.theses.fr/2010GRENM043.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Afin de pouvoir répondre au mieux aux différents appels d'offres, les constructeurs de grappe de calcul ont besoin d'outils et de méthodes permettant d'aider au mieux la prise de décisions en terme de design architectural. Nos travaux se sont donc intéressés à l'estimation des temps de calcul et à l'étude de la congestion sur le réseau InfiniBand. Ces deux problèmes sont souvent abordés de manière globale. Néanmoins, une approche globale ne permet pas de comprendre les raisons des pertes de performance liées aux choix architecturaux. Notre approche s'est donc orientée vers une étude plus fine. Pour évaluer les temps de calcul, la démarche proposée s'appuie sur une analyse statique ou semistatique du code source afin de le découper en blocs, avant d'effectuer un micro-benchmarking de ces blocs sur l'architecture cible. Pour l'estimation des temps de communication, un modèle de répartition de bande passante pour le réseau InfiniBand a été développé, permettant ainsi de prédire l'impact lié aux communications concurrentes. Ce modèle a ensuite été intégré dans un simulateur pour être validé sur un ensemble de graphes de communication synthétiques et sur l'application Socorro
Manufacturers of computer clusters require tools to assist them in making better decisions in terms of architectural design. To address this need, in this thesis work, we focus on the specific issues of estimating computation times and InfiniBand network congestion. These two problems are often dealt with globally. However, an overall approach does not explain the reasons of performance loss related to architectural choices. So our approach was to conduct a more detailed study. In this thesis work, we focus on the following : 1) the estimation of computation time in a Grid, and 2) the estimation of communication times over Infiniband networks. To evaluate the computation time, the proposed approach is based on a static or semi-static analysis of the source code, by cutting it into blocks, before making a micro-benchmarking of these blocks on the targeted architecture. To estimate the communication time, a model of bandwidth sharing for Infiniband networks has been developed, allowing one to predict the impact related to concurrent communications. This model was then incorporated into a simulator to be validated on a set of synthetic communication graphs and on the application Socorro

6

Vienne, Jérôme. "Prédiction de performances d'applications de calcul haute performance sur réseau Infiniband." Phd thesis, Université de Grenoble, 2010. http://tel.archives-ouvertes.fr/tel-00728156.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Afin de pouvoir répondre au mieux aux différents appels d'offres, les constructeurs de grappe de calcul ont besoin d'outils et de méthodes permettant d'aider au mieux la prise de décisions en terme de design architectural. Nos travaux se sont donc intéressés à l'estimation des temps de calcul et à l'étude de la congestion sur le réseau InfiniBand. Ces deux problèmes sont souvent abordés de manière globale. Néanmoins, une approche globale ne permet pas de comprendre les raisons des pertes de performance liées aux choix architecturaux. Notre approche s'est donc orientée vers une étude plus fine. Pour évaluer les temps de calcul, la démarche proposée s'appuie sur une analyse statique ou semistatique du code source afin de le découper en blocs, avant d'effectuer un micro-benchmarking de ces blocs sur l'architecture cible. Pour l'estimation des temps de communication, un modèle de répartition de bande passante pour le réseau InfiniBand a été développé, permettant ainsi de prédire l'impact lié aux communications concurrentes. Ce modèle a ensuite été intégré dans un simulateur pour être validé sur un ensemble de graphes de communication synthétiques et sur l'application Socorro.

7

Applencourt, Thomas. "Calcul haute performance & chimie quantique." Thesis, Toulouse 3, 2015. http://www.theses.fr/2015TOU30162/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

L'objectif de ce travail de thèse est double : - Le développement et application de méthodes originales pour la chimie quantique ; - La mise au point de stratégies informatiques variées permettant la réalisation de simulations à grande échelle. Dans la première partie, les méthodes d'integration de configuration (IC) et monte carlo quantique (QMC) utilisées dans ce travail pour le calcul des propriétés quantiques sont présentées. Nous détaillerons en particulier la méthode d'\IC sélectionnée perturbativement (CISPI) que nous avons utilisée pour construire des fonctions d'onde d'essai pour le QMC. La première application concerne le calcul des énergies totales non-relativistes des atomes de transition de la série 3d ; ceci a nécessité l'implémentation de fonctions de base de type Slater et a permis d'obtenir les meilleures valeurs publiées à ce jour. La deuxième application concerne l'implémentation de pseudo-potentiels adaptés à notre approche QMC, avec pour application une étude concernant le calcul des énergies d'atomisation d'un ensemble de 55 molécules. La seconde partie traite des aspects calcule haute performance (HPC) avec pour objectif l'aide au déploiement des simulations à très grande échelle, aussi bien sous l'aspect informatique proprement dit - utilisation de paradigmes de programmation originaux, optimisation des processus monocœurs, calculs massivement parallèles sur grilles de calcul (supercalculateur et Cloud), outils d'aide au développement collaboratif \textit{et cætera} -, que sous l'aspect \emph{utilisateur} - installation, gestion des paramètres d'entrée et de sortie, interface graphique, interfaçage avec d'autres codes. L'implémentation de ces différents aspects dans nos codes-maison quantum pakcage et qmc=chem est également présentée
This thesis work has two main objectives: 1. To develop and apply original electronic structure methods for quantum chemistry 2. To implement several computational strategies to achieve efficient large-scale computer simulations. In the first part, both the Configuration Interaction (CI) and the Quantum Monte Carlo (QMC) methods used in this work for calculating quantum properties are presented. We then describe more specifically the selected CI approach (so-called CIPSI approach, Configuration Interaction using a Perturbative Selection done Iteratively) that we used for building trial wavefunctions for QMC simulations. As a first application, we present the QMC calculation of the total non-relativistic energies of transition metal atoms of the 3d series. This work, which has required the implementation of Slater type basis functions in our codes, has led to the best values ever published for these atoms. We then present our original implementation of the pseudo-potentials for QMC and discuss the calculation of atomization energies for a benchmark set of 55 organic molecules. The second part is devoted to the Hight Performance Computing (HPC) aspects. The objective is to make possible and/or facilitate the deployment of very large-scale simulations. From the point of view of the developer it includes: The use of original programming paradigms, single-core optimization process, massively parallel calculations on grids (supercomputer and Cloud), development of collaborative tools , etc - and from the user's point of view: Improved code installation, management of the input/output parameters, GUI, interfacing with other codes, etc

8

Perotin, Matthieu Martineau Patrick. "Calcul haute performance sur matériel générique." S. l. : S. n, 2008. http://theses.abes.fr/2008TOUR4022.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

9

Pérotin, Matthieu. "Calcul haute performance sur matériel générique." Thesis, Tours, 2008. http://www.theses.fr/2008TOUR4022/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Un double constat motive ce travail: la demande en calcul haute performance des chercheurs et la faible utilisation moyenne de la puissance des ressources pédagogiques. Le problème a été de répondre à cette demande, tout en préservant les ressources pédagogiques pour les enseignements. Une solution simple et transparente pour les utilisateurs finaux a été recherchée. Les besoins des utilisateurs ont mené à un cahier des charges dont la plupart des contraintes sont satisfaites par l'utilisation d'une pile logicielle judicieuse. D'autres ne peuvent être résolues par la seule utilisation de solutions existantes et définissent un problème d'ordonnancement, où il faut répartir les processus soumis sur les ressources des salles de TPs. Plusieurs heuristiques ont été proposées pour le résoudre. Elles ont été comparées à l'aide d'un simulateur, puis implémentée sur une plateforme expérimentale
Two facts are motivating this work: the demand for High Performance Computing of researchers and the low usage of the computing power of the pedagogic ressources. This thesis aims at giving an answer to the demand for HPC, while preserving the pedagogic ressources for the teaching. This work looked for a solution that would be simple and straightforward for the final users. Their needs and wishes lead to the definition of some specifications, in which most of the constraints could be satisfied with the use of a well designed software stack. Some others, however, cannot be satisfied with the use of existing solutions only, they define a new scheduling problem, in which the goal is to schedule the processes on the available ressources. This problem was studied and solved with various heurisitcs, which performances were compared with a simulator before being implemented in an experimental setup

10

Mena, morales Valentin. "Approche de conception haut-niveau pour l'accélération matérielle de calcul haute performance en finance." Thesis, Ecole nationale supérieure Mines-Télécom Atlantique Bretagne Pays de la Loire, 2017. http://www.theses.fr/2017IMTA0018/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Les applications de calcul haute-performance (HPC) nécessitent des capacités de calcul conséquentes, qui sont généralement atteintes à l'aide de fermes de serveurs au détriment de la consommation énergétique d'une telle solution. L'accélération d'applications sur des plateformes hétérogènes, comme par exemple des FPGA ou des GPU, permet de réduire la consommation énergétique et correspond donc à un compromis architectural plus séduisant. Elle s'accompagne cependant d'un changement de paradigme de programmation et les plateformes hétérogènes sont plus complexes à prendre en main pour des experts logiciels. C'est particulièrement le cas des développeurs de produits financiers en finance quantitative. De plus, les applications financières évoluent continuellement pour s'adapter aux demandes législatives et concurrentielles du domaine, ce qui renforce les contraintes de programmabilité de solutions d'accélérations. Dans ce contexte, l'utilisation de flots haut-niveaux tels que la synthèse haut-niveau (HLS) pour programmer des accélérateurs FPGA n'est pas suffisante. Une approche spécifique au domaine peut fournir une réponse à la demande en performance, sans que la programmabilité d'applications accélérées ne soit compromise.Nous proposons dans cette thèse une approche de conception haut-niveau reposant sur le standard de programmation hétérogène OpenCL. Cette approche repose notamment sur la nouvelle implémentation d'OpenCL pour FPGA introduite récemment par Altera. Quatre contributions principales sont apportées : (1) une étude initiale d'intégration de c'urs de calculs matériels à une librairie logicielle de calcul financier (QuantLib), (2) une exploration d'architectures et de leur performances respectives, ainsi que la conception d'une architecture dédiée pour l'évaluation d'option américaine et l'évaluation de volatilité implicite à partir d'un flot haut-niveau de conception, (3) la caractérisation détaillée d'une plateforme Altera OpenCL, des opérateurs élémentaires, des surcouches de contrôle et des liens de communication qui la compose, (4) une proposition d'un flot de compilation spécifique au domaine financier, reposant sur cette dernière caractérisation, ainsi que sur une description des applications financières considérées, à savoir l'évaluation d'options
The need for resources in High Performance Computing (HPC) is generally met by scaling up server farms, to the detriment of the energy consumption of such a solution. Accelerating HPC application on heterogeneous platforms, such as FPGAs or GPUs, offers a better architectural compromise as they can reduce the energy consumption of a deployed system. Therefore, a change of programming paradigm is needed to support this heterogeneous acceleration, which trickles down to an increased level of programming complexity tackled by software experts. This is most notably the case for developers in quantitative finance. Applications in this field are constantly evolving and increasing in complexity to stay competitive and comply with legislative changes. This puts even more pressure on the programmability of acceleration solutions. In this context, the use of high-level development and design flows, such as High-Level Synthesis (HLS) for programming FPGAs, is not enough. A domain-specific approach can help to reach performance requirements, without impairing the programmability of accelerated applications.We propose in this thesis a high-level design approach that relies on OpenCL, as a heterogeneous programming standard. More precisely, a recent implementation of OpenCL for Altera FPGA is used. In this context, four main contributions are proposed in this thesis: (1) an initial study of the integration of hardware computing cores to a software library for quantitative finance (QuantLib), (2) an exploration of different architectures and their respective performances, as well as the design of a dedicated architecture for the pricing of American options and their implied volatility, based on a high-level design flow, (3) a detailed characterization of an Altera OpenCL platform, from elemental operators, memory accesses, control overlays, and up to the communication links it is made of, (4) a proposed compilation flow that is specific to the quantitative finance domain, and relying on the aforementioned characterization and on the description of the considered financial applications (option pricing)

11

Lagardère, Louis. "Calcul haute-performance et dynamique moléculaire polarisable." Thesis, Paris 6, 2017. http://www.theses.fr/2017PA066042.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Ce travail de thèse se situe à l'interface entre la chimie théorique, le calcul scientifique et les mathématiques appliquées. On s'intéresse aux différents algorithmes utilisés pour résoudre les équations spécifiques qui apparaissent dans le cadre de la dynamique moléculaire utilisant des champs de forces polarisables dans un cadre massivement parallèle. Cette famille de modèles nécessite en effet de résoudre des équations plus complexes que les modèles classiques usuels et rend nécessaire l'utilisation de supercalculateurs pour obtenir des résultats significatifs. On s'intéressera plus précisément à différents cas de conditions aux limites pour rendre compte des effets de solvatation comme les conditions aux limites périodiques traitées avec la méthode du Particle Mesh Ewald et un modèle de solvatation continu discrétisé par décomposition de domaine : le ddCOSMO. Le plan de cette thèse est le suivant : sont d'abord passées en revue les différentes stratégies parallèles en dynamique moléculaire en général, sont ensuite présentées les façons de les adapter au cas des champs de forces polarisables. Après quoi sont présentées différentes stratégies pour s'affranchir de certaines limites liées à l'usage de méthodes itératives en dynamique moléculaire polarisable en utilisant des approximations analytiques pour l'énergie de polarisation. Ensuite, l'adaptation de ces méthodes à différents cas pratiques de conditions aux limites est présentée : d'abord en ce qui concerne les conditions aux limites périodiques traitées avec la méthode du Particle Mesh Ewald et ensuite en ce qui concerne un modèle de solvatation continue discrétisé selon une stratégie de décomposition de domaine
This works is at the interface between theoretical chemistry, scientific computing and applied mathematics. We study different algorithms used to solve the specific equations that arise in polarizable molecular dynamics in a massively parallel context. This family of models requires indeed to solve more complex equations than in the classical case making the use of supercomputers mandatory in order to get significant results. We will more specifically study different types of boundary conditions that represent different ways to model solvation effects : first the Particle Mesh Ewald method to treat periodic boundary conditions and then a continuum solvation model discretized within a domain decomposition strategy : the ddCOSMO. The outline of this thesis is as follows : first, the different parallel strategies in the general context of molecular dynamics are reviewed. Then several methods to adapt these strategies to the specific case of polarizable force fields are presented. After that, strategies that allow to circumvent certain limits due to the use of iterative methods in the context of polarizable molecular dynamics are presented and studied. Then, the adapation of these methods to different cases of boundary conditions is presented : first in the case of the Particle Mesh Ewald method to treat periodic boundary conditions and then in the case of a particular continuum solvation model discretized with a domain decomposition strategy : the ddCOSMO. Finally, various numerical results and applications are presented

12

Pasca, Bogdan Mihai. "Calcul flottant haute performance sur circuits reconfigurables." Phd thesis, Ecole normale supérieure de lyon - ENS LYON, 2011. http://tel.archives-ouvertes.fr/tel-00654121.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

De plus en plus de constructeurs proposent des accélérateurs de calculs à base de circuits reconfigurables FPGA, cette technologie présentant bien plus de souplesse que le microprocesseur. Valoriser cette flexibilité dans le domaine de l'accélération de calcul flottant en utilisant les langages de description de circuits classiques (VHDL ou Verilog) reste toutefois très difficile, voire impossible parfois. Cette thèse a contribué au développement du logiciel FloPoCo, qui offre aux utilisateurs familiers avec VHDL un cadre C++ de description d'opérateurs arithmétiques génériques adapté au calcul reconfigurable. Ce cadre distingue explicitement la fonctionnalité combinatoire d'un opérateur, et la problématique de son pipeline pour une précision, une fréquence et un FPGA cible donnés. Afin de pouvoir utiliser FloPoCo pour concevoir des opérateurs haute performance en virgule flottante, il a fallu d'abord concevoir des blocs de bases optimisés. Nous avons d'abord développé des additionneurs pipelinés autour des lignes de propagation de retenue rapides, puis, à l'aide de techniques de pavages, nous avons conçu de gros multiplieurs, possiblement tronqués, utilisant des petits multiplieurs. L'évaluation de fonctions élémentaires en flottant implique souvent l'évaluation en virgule fixe d'une fonction. Nous présentons un opérateur générique de FloPoCo qui prend en entrée l'expression de la fonction à évaluer, avec ses précisions d'entrée et de sortie, et construit un évaluateur polynomial optimisé de cette fonction. Ce bloc de base a permis de développer des opérateurs en virgule flottante pour la racine carrée et l'exponentielle qui améliorent considérablement l'état de l'art. Nous avons aussi travaillé sur des techniques de compilation avancée pour adapter l'exécution d'un code C aux pipelines flexibles de nos opérateurs. FloPoCo a pu ainsi être utilisé pour implanter sur FPGA des applications complètes.

13

Perarnau, Swann. "Environnements pour l'analyse expérimentale d'applications de calcul haute performance." Phd thesis, Université de Grenoble, 2011. http://tel.archives-ouvertes.fr/tel-00650047.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Les machines du domaine du calcul haute performance (HPC) gagnent régulièrement en com- plexité. De nos jours, chaque nœud de calcul peut être constitué de plusieurs puces ou de plusieurs cœurs se partageant divers caches mémoire de façon hiérarchique. Que se soit pour comprendre les performances ob- tenues par une application sur ces architectures ou pour développer de nouveaux algorithmes et valider leur performance, une phase d'expérimentation est souvent nécessaire. Dans cette thèse, nous nous intéressons à deux formes d'analyse expérimentale : l'exécution sur machines réelles et la simulation d'algorithmes sur des jeux de données aléatoires. Dans un cas comme dans l'autre, le contrôle des paramètres de l'environnement (matériel ou données en entrée) permet une meilleure analyse des performances de l'application étudiée. Ainsi, nous proposons deux méthodes pour contrôler l'utilisation par une application des ressources ma- térielles d'une machine : l'une pour le temps processeur alloué et l'autre pour la quantité de cache mémoire disponible. Ces deux méthodes nous permettent notamment d'étudier les changements de comportement d'une application en fonction de la quantité de ressources allouées. Basées sur une modification du compor- tement du système d'exploitation, nous avons implémenté ces méthodes pour un système Linux et démontré leur utilité dans l'analyse de plusieurs applications parallèles. Du point de vue de la simulation, nous avons étudié le problème de la génération aléatoire de graphes orientés acycliques (DAG) pour la simulation d'algorithmes d'ordonnancement. Bien qu'un grand nombre d'algorithmes de génération existent dans ce domaine, la plupart des publications repose sur des implémen- tations ad-hoc et peu validées de ces derniers. Pour pallier ce problème, nous proposons un environnement de génération comprenant la majorité des méthodes rencontrées dans la littérature. Pour valider cet envi- ronnement, nous avons réalisé de grande campagnes d'analyses à l'aide de Grid'5000, notamment du point de vue des propriétés statistiques connues de certaines méthodes. Nous montrons aussi que la performance d'un algorithme est fortement influencée par la méthode de génération des entrées choisie, au point de ren- contrer des phénomènes d'inversion : un changement d'algorithme de génération inverse le résultat d'une comparaison entre deux ordonnanceurs.

14

Aubert, Pierre. "Calcul haute performance pour la détection de rayon Gamma." Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLV058/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

La nouvelle génération d'expériences de physique produira une quantité de données sans précédent. Cette augmentation du flux de données cause des bouleversements techniques à tous les niveaux, comme le stockage des données, leur analyse, leur dissémination et leur préservation.Le projet CTA sera le plus grand observatoire d'astronomie gamma au sol à partir de 2021. Il produira plusieurs centaines de Péta-octets de données jusqu'en 2030 qui devront être analysées, stockée, compressées, et réanalysées tous les ans.Ce travail montre comment optimiser de telles analyses de physique avec les techniques de l'informatique hautes performances par le biais d'un générateur de format de données efficace, d'optimisation bas niveau de l'utilisation du pipeline CPU et de la vectorisation des algorithmes existants, un algorithme de compression rapide d'entiers et finalement une nouvelle analyse de données basée sur une méthode de comparaison d'image optimisée
The new generation research experiments will introduce huge data surge to a continuously increasing data production by current experiments. This increasing data rate causes upheavals at many levels, such as data storage, analysis, diffusion and conservation.The CTA project will become the utmost observatory of gamma astronomy on the ground from 2021. It will generate hundreds Peta-Bytes of data by 2030 and will have to be stored, compressed and analyzed each year.This work address the problems of data analysis optimization using high performance computing techniques via an efficient data format generator, very low level programming to optimize the CPU pipeline and vectorization of existing algorithms, introduces a fast compression algorithm for integers and finally exposes a new analysis algorithm based on efficient pictures comparison

15

Partimbene, Vincent. "Calcul haute performance pour la simulation d'interactions fluide-structure." Phd thesis, Toulouse, INPT, 2018. http://oatao.univ-toulouse.fr/20524/1/PARTIMBENE_Vincent.pdf.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Cette thèse aborde la résolution des problèmes d'interaction fluide-structure par un algorithme consistant en un couplage entre deux solveurs : un pour le fluide et un pour la structure. Pour assurer la cohérence entre les maillages fluide et structure, on considère également une discrétisation de chaque domaine par volumes finis. En raison des difficultés de décomposition du domaine en sous-domaines, nous considérons pour chaque environnement un algorithme parallèle de multi-splitting (ou multi-décomposition) qui correspond à une présentation unifiée des méthodes de sous-domaines avec ou sans recouvrement. Cette méthode combine plusieurs applications de points fixes contractantes et nous montrons que, sous des hypothèses appropriées, chaque application de points fixes est contractante dans des espaces de dimensions finies normés par des normes hilbertiennes et non-hilbertiennes. De plus, nous montrons qu'une telle étude est valable pour les résolutions parallèles synchrones et plus généralement asynchrones de grands systèmes linéaires apparaissant lors de la discrétisation des problèmes d'interaction fluide-structure et peut être étendue au cas où le déplacement de la structure est soumis à des contraintes. Par ailleurs, nous pouvons également considérer l’analyse de la convergence de ces méthodes de multi-splitting parallèles asynchrones par des techniques d’ordre partiel, lié au principe du maximum discret, aussi bien dans le cadre linéaire que dans celui obtenu lorsque les déplacements de la structure sont soumis à des contraintes. Nous réalisons des simulations parallèles pour divers cas test fluide-structure sur différents clusters, en considérant des communications bloquantes et non bloquantes. Dans ce dernier cas nous avons eu à résoudre une difficulté d'implémentation dans la mesure où une erreur irrécupérable survenait lors de l'exécution ; cette difficulté a été levée par introduction d’une méthode assurant la terminaison de toutes les communications non bloquantes avant la mise à jour du maillage. Les performances des simulations parallèles sont présentées et analysées. Enfin, nous appliquons la méthodologie présentée précédemment à divers contextes d'interaction fluide-structure de type industriel sur des maillages non structurés, ce qui constitue une difficulté supplémentaire.

16

Jolivet, Pierre. "Méthodes de décomposition de domaine. Application au calcul haute performance." Thesis, Grenoble, 2014. http://www.theses.fr/2014GRENM040/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Cette thèse présente une vision unifiée de plusieurs méthodes de décomposition de domaine : celles avec recouvrement, dites de Schwarz, et celles basées sur des compléments de Schur, dites de sous-structuration. Il est ainsi possible de changer de méthodes de manière abstraite et de construire différents préconditionneurs pour accélérer la résolution de grands systèmes linéaires creux par des méthodes itératives. On rencontre régulièrement ce type de systèmes dans des problèmes industriels ou scientifiques après discrétisation de modèles continus. Bien que de tels préconditionneurs exposent naturellement de bonnes propriétés de parallélisme sur les architectures distribuées, ils peuvent s’avérer être peu performants numériquement pour des décompositions complexes ou des problèmes physiques multi-échelles. On peut pallier ces défauts de robustesse en calculant de façon concurrente des problèmes locaux creux ou denses aux valeurs propres généralisées. D’aucuns peuvent alors identifier des modes qui perturbent la convergence des méthodes itératives sous-jacentes a priori. En utilisant ces modes, il est alors possible de définir des opérateurs de projection qui utilisent un problème dit grossier. L’utilisation de ces outils auxiliaires règle généralement les problèmes sus-cités, mais tend à diminuer les performances algorithmiques des préconditionneurs. Dans ce manuscrit, on montre en trois points quela nouvelle construction développée est performante : 1) grâce à des essais numériques à très grande échelle sur Curie—un supercalculateur européen, puis en le comparant à des solveurs de pointe 2) multi-grilles et 3) directs
This thesis introduces a unified framework for various domain decomposition methods:those with overlap, so-called Schwarz methods, and those based on Schur complements,so-called substructuring methods. It is then possible to switch with a high-level of abstractionbetween methods and to build different preconditioners to accelerate the iterativesolution of large sparse linear systems. Such systems are frequently encountered in industrialor scientific problems after discretization of continuous models. Even though thesepreconditioners naturally exhibit good parallelism properties on distributed architectures,they can prove inadequate numerical performance for complex decompositions or multiscalephysics. This lack of robustness may be alleviated by concurrently solving sparse ordense local generalized eigenvalue problems, thus identifying modes that hinder the convergenceof the underlying iterative methods a priori. Using these modes, it is then possibleto define projection operators based on what is usually referred to as a coarse solver. Theseauxiliary tools tend to solve the aforementioned issues, but typically decrease the parallelefficiency of the preconditioners. In this dissertation, it is shown in three points thatthe newly developed construction is efficient: 1) by performing large-scale numerical experimentson Curie—a European supercomputer, and by comparing it with state of the art2) multigrid and 3) direct solvers

17

Huafeng, Yu. "Un Modèle Réactif Basé sur MARTE Dédié au Calcul Intensif à Parallélisme de Données : Transformation vers le Modèle Synchrone." Phd thesis, Université des Sciences et Technologie de Lille - Lille I, 2008. http://tel.archives-ouvertes.fr/tel-00497248.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Les travaux de cette thèse s'inscrivent dans le cadre de la validation formelle et le contrôle réactif de calculs à haute performance sur systèmes-sur-puce (SoC).

Dans ce contexte, la première contribution est la modélisation synchrone accompagnée d'une transformation d'applications en équations synchrones. Les modéles synchrones permettent de résoudre plusieurs questions liées à la validation formelle via l'usage des outils et techniques formels offerts par la technologie synchrone. Les transformations sont développées selon l'approche d'Ingénierie Dirigé par les Modèles (IDM).

La deuxième contribution est une extension et amélioration des mécanismes de contrôle pour les calculs à haute performance, sous forme de constructeurs de langage de haut-niveau et de leur sémantique. Ils ont été déﬁni aﬁn de permettre la vériﬁcation, synthèse et génération de code. Il s'agit de déterminer un niveau d'abstraction de représentation des systèmes où soit extraite la partie contrôle, et de la modéliser sous forme d'automates à états ﬁnis. Ceci permet de spéciﬁer et implémenter des changements de modes de calculs, qui se distinguent par exemple par les ressources utilisées, la qualité de service fournie, ou le choix d'algorithme remplissant une fonctionnalité.

Ces contributions permettent l'utilisation d'outils d'analyse et vériﬁcation, tels que la vériﬁcation de propriétés d'assignement unique et dépendance acyclique, model checking. L'utilisation de techniques de synthèse de contrôleurs discrets est également traitée. Elles peuvent assurer la correction de faˆ on constructive: à partir d'une spéciﬁcation partielle du contrôle, la partie manquante pour que les propriétés soient satisfaites est calculée. Grâce à ces techniques, lors du développement de la partie contrôle, la spéciﬁcation est simpliﬁée, et le résultat est assuré d'être correct par construction.

Les modélisations synchrone et de contrôle reposes sur MARTE et UML. Les travaux de cette thèse sont été partiellement implémentés dans le cadre de Gaspard, dédié aux applications de traitement de données intensives. Une étude de cas est présentée, dans laquelle nous nous intéressont à une application de système embarqué pour téléphone portable multimédia.

18

Jamal, Aygul. "A parallel iterative solver for large sparse linear systems enhanced with randomization and GPU accelerator, and its resilience to soft errors." Thesis, Université Paris-Saclay (ComUE), 2017. http://www.theses.fr/2017SACLS269/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Dans cette thèse de doctorat, nous abordons trois défis auxquels sont confrontés les solveurs d'algèbres linéaires dans la perspective des futurs systèmes exascale: accélérer la convergence en utilisant des techniques innovantes au niveau algorithmique, en profitant des accélérateurs GPU (Graphics Processing Units) pour améliorer le calcul sur plusieurs systèmes, en évaluant l'impact des erreurs due à l'augmentation du parallélisme dans les superordinateurs. Nous nous intéressons à l'étude des méthodes permettant d'accélérer la convergence et le temps d'exécution des solveurs itératifs pour les grands systèmes linéaires creux. Le solveur plus spécifiquement considéré dans ce travail est le “parallel Algebraic Recursive Multilevel Solver (pARMS)” qui est un soldeur parallèle sur mémoire distribuée basé sur les méthodes de sous-espace de Krylov.Tout d'abord, nous proposons d'intégrer une technique de randomisation appelée “Random Butterfly Transformations (RBT)” qui a été proposée avec succès pour éliminer le coût du pivotage dans la résolution des systèmes linéaires denses. Notre objectif est d'appliquer cette technique dans le préconditionneur ARMS de pARMS pour résoudre plus efficacement le dernier système Complément de Schur dans l'application du processus à multi-niveaux récursif. En raison de l'importance considérable du dernier Complément de Schur pour certains problèmes de test, nous proposons également d'utiliser une variante creux de RBT suivie d'un solveur direct creux (SuperLU). Les résultats expérimentaux sur certaines matrices de la collection de Davis montrent une amélioration de la convergence et de la précision par rapport aux implémentations existantes.Ensuite, nous illustrons comment une approche non intrusive peut être appliquée pour implémenter des calculs GPU dans le solveur pARMS, plus particulièrement pour la phase de préconditionnement locale qui représente une partie importante du temps pour la résolution. Nous comparons les solveurs purement CPU avec les solveurs hybrides CPU / GPU sur plusieurs problèmes de test issus d'applications physiques. Les résultats de performance du solveur hybride CPU / GPU utilisant le préconditionnement ARMS combiné avec RBT, ou le préconditionnement ILU(0), montrent un gain de performance jusqu'à 30% sur les problèmes de test considérés dans nos expériences.Enfin, nous étudions l'effet des défaillances logicielles variable sur la convergence de la méthode itérative flexible GMRES (FGMRES) qui est couramment utilisée pour résoudre le système préconditionné dans pARMS. Le problème ciblé dans nos expériences est un problème elliptique PDE sur une grille régulière. Nous considérons deux types de préconditionneurs: une factorisation LU incomplète à double seuil (ILUT) et le préconditionneur ARMS combiné avec randomisation RBT. Nous considérons deux modèle de fautes logicielles différentes où nous perturbons la multiplication du vecteur matriciel et la phase de préconditionnement, et nous comparons leur impact potentiel sur la convergence
In this PhD thesis, we address three challenges faced by linear algebra solvers in the perspective of future exascale systems: accelerating convergence using innovative techniques at the algorithm level, taking advantage of GPU (Graphics Processing Units) accelerators to enhance the performance of computations on hybrid CPU/GPU systems, evaluating the impact of errors in the context of an increasing level of parallelism in supercomputers. We are interested in studying methods that enable us to accelerate convergence and execution time of iterative solvers for large sparse linear systems. The solver specifically considered in this work is the parallel Algebraic Recursive Multilevel Solver (pARMS), which is a distributed-memory parallel solver based on Krylov subspace methods.First we integrate a randomization technique referred to as Random Butterfly Transformations (RBT) that has been successfully applied to remove the cost of pivoting in the solution of dense linear systems. Our objective is to apply this method in the ARMS preconditioner to solve more efficiently the last Schur complement system in the application of the recursive multilevel process in pARMS. The experimental results show an improvement of the convergence and the accuracy. Due to memory concerns for some test problems, we also propose to use a sparse variant of RBT followed by a sparse direct solver (SuperLU), resulting in an improvement of the execution time.Then we explain how a non intrusive approach can be applied to implement GPU computing into the pARMS solver, more especially for the local preconditioning phase that represents a significant part of the time to compute the solution. We compare the CPU-only and hybrid CPU/GPU variant of the solver on several test problems coming from physical applications. The performance results of the hybrid CPU/GPU solver using the ARMS preconditioning combined with RBT, or the ILU(0) preconditioning, show a performance gain of up to 30% on the test problems considered in our experiments.Finally we study the effect of soft fault errors on the convergence of the commonly used flexible GMRES (FGMRES) algorithm which is also used to solve the preconditioned system in pARMS. The test problem in our experiments is an elliptical PDE problem on a regular grid. We consider two types of preconditioners: an incomplete LU factorization with dual threshold (ILUT), and the ARMS preconditioner combined with RBT randomization. We consider two soft fault error modeling approaches where we perturb the matrix-vector multiplication and the application of the preconditioner, and we compare their potential impact on the convergence of the solver

19

Ben, El Haj Ali Amin. "Calcul de haute performance en aéroélasticité et en écoulements turbulents tridimentionnels." Mémoire, École de technologie supérieure, 2008. http://espace.etsmtl.ca/159/1/BEN_HAJ_ALI_Amine.pdf.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Dans le cadre de cette thèse, nous étudions de nouvelles méthodes numériques de résolution des problèmes d'aéroélasticité et des écoulements turbulents tridimensionnels. Un code de calcul parallèle PFES360, basé sur une approche de décomposition fonctiormelle, est développé dans le but de résoudre des problèmes multiphysiques de grandes tailles. Le recours aux maillages purement tétraédriques pour la discrétisation des équations gouvernantes dans le cas d'un écoulement turbulent requiert l'utilisation des éléments anisotropiques extrêmement aplatis. La forte distorsion de ces éléments affecte dramatiquement le conditionnement du système. Dans ces conditions, les méthodes standards deviennent incapables de stabiliser la solution numérique. Deux nouvelles définitions de la matrice r de la méthode SUPG (Streamline Upwinding Petrov-Galerkin) et de l'opérateur de capture de chocs sont alors introduites. Les nouvelles définitions et les méthodes développées ont été implémentées dans PFES360. Des cas tests documentés dans la littérature ont été menés afin de mettre en évidence la performance de ces méthodes. Des comparaisons des résultats avec les valeurs théoriques (plaque plane) et expérimentales (Agard 445.6 et Onera M6) sont présentées. Le présent travail nous a permis de constater que la réussite de ce genre de simulations dépend de la pertinence méthode de stabilisation, de la précision du modèle de turbulence et essentiellement de la qualité du maillage. En plus, il est important d'assurer la positivité de la viscosité turbulente pour éviter les problèmes de convergence

20

Notargiacomo, Thibault. "Approche parcimonieuse et calcul haute performance pour la tomographie itérative régularisée." Thesis, Université Grenoble Alpes (ComUE), 2017. http://www.theses.fr/2017GREAT013/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

La tomographie est une technique permettant de reconstruire une carte des propriétés physiques de l'intérieur d'un objet, à partir d'un ensemble de mesures extérieures. Bien que la tomographie soit une technologie mature, la plupart des algorithmes utilisés dans les produits commerciaux sont basés sur des méthodes analytiques telles que la rétroprojection filtrée. L'idée principale de cette thèse est d'exploiter les dernières avancées dans le domaine de l'informatique et des mathématiques appliqués en vue d'étudier, concevoir et implémenter de nouveaux algorithmes dédiés à la reconstruction 3D en géométrie conique. Nos travaux ciblent des scenarii d'intérêt clinique tels que les acquisitions faible dose ou faible nombre de vues provenant de détecteurs plats. Nous avons étudié différents modèles d'opérateurs tomographiques, leurs implémentations sur serveur multi-GPU, et avons proposé l'utilisation d'une transformée en ondelettes complexes 3D pour régulariser le problème inverse
X-Ray computed tomography (CT) is a technique that aims at providing a measure of a given property of the interior of a physical object, given a set of exterior projection measurement. Although CT is a mature technology, most of the algorithm used for image reconstruction in commercial applications are based on analytical methods such as the filtered back-projection. The main idea of this thesis is to exploit the latest advances in the field of applied mathematics and computer sciences in order to study, design and implement algorithms dedicated to 3D cone beam reconstruction from X-Ray flat panel detectors targeting clinically relevant usecases, including low doses and few view acquisitions.In this work, we studied various strategies to model the tomographic operators, and how they can be implemented on a multi-GPU platform. Then we proposed to use the 3D complex wavelet transform in order to regularize the reconstruction problem

21

Esteghamatian, Amir. "Calcul haute performance pour la simulation multi-échelles des lits fluidisés." Thesis, Lyon, 2016. http://www.theses.fr/2016LYSEC037/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Pas de résumé
Fluidized beds are a particular hydrodynamic configuration in which a pack (either dense or loose) of particles laid inside a container is re-suspended as a result of an upward oriented imposed flow at the bottom of the pack. This kind of system is widely used in the chemical engineering industry where catalytic cracking or polymerization processes involve chemical reactions between the catalyst particles and the surrounding fluid and fluidizing the bed is admittedly beneficial to the efficiency of the process. Due to the wide range of spatial scales and complex features of solid/solid and solid/fluid interactions in a dense fluidized bed, the system can be studied at different length scales, namely micro, meso and macro. In this work we focus on micro/meso simulations of fluidized beds. The workflow we use is based on home made high-fidelity numerical tools: GRAINS3D (Pow. Tech., 224:374-389, 2012) for granular dynamics of convex particles and PeliGRIFF (Parallel Efficient LIbrary for GRains In Fluid Flows, Comp. Fluids, 38(8):1608-1628,2009) for reactive fluid/solid flows. The objectives of our micro/meso simulations of such systems are two-fold: (i) to understand the multi-scale features of the system from a hydrodynamic standpoint and (ii) to analyze the performance of our meso-scale numerical model and to improve it accordingly. To this end, we first perform Particle Resolved Simulations (PRS) of liquid/solid and gas/solid fluidization of a 2000 particle system. The accuracy of the numerical results is examined by assessing the space convergence of the computed solution in order to guarantee that our PRS results can be reliably considered as a reference solution for this problem. The computational challenge for our PRS is a combination of a fine mesh to properly resolve all flow length scales to a long enough physical simulation time in order to extract time converged statistics. For that task, High Performance Computing and highly parallel codes as GRAINS3D/PeliGRIFF are extremely helpful. Second, we carry out a detailed cross-comparison of PRS results with those of locally averaged Euler- Lagrange simulations. Results show an acceptable agreement between the micro- and meso-scale predictions on the integral measures as pressure drop, bed height, etc. However, particles fluctuations are remarkably underpredicted by the meso-scale model, especially in the direction transverse to the main flow. We explore different directions in the improvement of the meso-scale model, such as (a) improving the inter-phase coupling scheme and (b) introducing a stochastic formulation for the drag law derived from the PRS results. We show that both improvements (a) and (b) are required to yield a satisfactory match of meso-scale results with PRS results. The new stochastic drag law, which incorporates information on the first and second-order moments of the PRS results, shows promises to recover the appropriate level of particles fluctuations. It now deserves to be validated on a wider range of flow regimes

22

Birgle, Nabil. "Écoulement dans le sous-sol, méthodes numériques et calcul haute performance." Thesis, Paris 6, 2016. http://www.theses.fr/2016PA066050/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Nous construisons une méthode numérique fiable pour simuler un écoulement dans un milieu poreux modélisé par une équation elliptique. La simulation est rendue difficile par les hétérogénéités du milieu, la taille et la géométrie complexe du domaine de calcul. Un maillage d'hexaèdres réguliers ne permet pas de représenter fidèlement les couches géologiques du domaine. Par conséquent, nous sommes amenés à travailler avec un maillage de cubes déformés. Il existe différentes méthodes de volumes finis ou d'éléments finis qui résolvent ce problème avec plus ou moins de succès. Pour la méthode que nous proposons, nous nous imposons d'avoir seulement un degré de liberté par maille pour la pression et un degré de liberté par face pour la vitesse de Darcy, pour rester au plus près des habitudes des codes industriels. Comme les méthodes d'éléments finis mixtes standards ne convergent pas, notre méthode est basée sur un élément fini mixte composite. En deux dimensions, une maille polygonale est découpée en triangles en ajoutant un point au barycentre des sommets, et une expression explicite des fonctions de base a pu être obtenue. En dimension 3, la méthode s'étend naturellement au cas d'une maille pyramidale. Dans le cas d'un hexaèdre ou d'un cube déformé quelconque, la maille est divisée en 24 tétraèdres en ajoutant un point au barycentre des sommets et en divisant les faces en 4 triangles. Les fonctions de base de l'élément sont alors construites en résolvant un problème discret. Les méthodes proposées ont été analysées théoriquement et complétées par des estimateurs a posteriori. Elles ont été expérimentées sur des exemples académiques et réalistes en utilisant le calcul parallèle
We develop a reliable numerical method to approximate a flow in a porous media, modeled by an elliptic equation. The simulation is made difficult because of the strong heterogeneities of the medium, the size together with complex geometry of the domain. A regular hexahedral mesh does not allow to describe accurately the geological layers of the domain. Consequently, this leads us to work with a mesh made of deformed cubes. There exists several methods of type finite volumes or finite elements which solve this issue. For our method, we wish to have only one degree of freedom per element for the pressure and one degree of freedom per face for the Darcy velocity, to stay as close to the habits of industrial software. Since standard mixed finite element methods does not converge, our method is based on composite mixed finite element. In two dimensions, a polygonal mesh is split into triangles by adding a node to the vertices's barycenter, and explicit formulation of the basis functions was obtained. In dimension 3, the method extend naturally to the case of pyramidal mesh. In the case of a hexahedron or a deformed cube, the element is divided into 24 tetrahedra by adding a node to the vertices's barycenter and splitting the faces into 4 triangles. The basis functions are then built by solving a discrete problem. The proposed methods have been theoretically analyzed and completed by a posteriori estimators. They have been tested on academical and realistic examples by using parallel computation

23

Laurencin, Tanguy. "Étude de la rhéologie des suspensions de fibres non-newtoniennes par imagerie et simulation numérique 3D à l'échelle des fibres." Thesis, Université Grenoble Alpes (ComUE), 2017. http://www.theses.fr/2017GREAI013/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Ce travail porte sur la mise en forme des matériaux composites à matrice polymère renforcée par des fibres courtes dont les performances physiques et mécaniques sont directement reliées à la distribution spatiale et à l’orientation des renforts employés. Il se focalise sur l’étude des mécanismes de déformation se produisant au cours de l’écoulement de ces systèmes qui se comportent comme des suspensions de fibres non-newtoniennes. Le problème est abordé par une procédure originale combinant images 3D acquises en temps réel et simulations numériques avancées, réalisées à l’échelle des fibres. Dans le premier cas, des suspensions modèles avec fluide suspensif non-newtonien ont été déformées en compression dans des conditions confinées dans un microtomographe à rayons X synchrotron. Cette technique a permis l’acquisition en temps réel de clichés 3D à forte résolution spatiale de l’écoulement des suspensions. Dans le deuxième cas, un code de calculs éléments finis 3D a été utilisé, celui-ci étant capable de décrire finement des objets immergés dans des fluides non-newtoniens, par des level-sets et des techniques de remaillage anisotrope. La pertinence des simulations numériques dans les régimes de concentration dilués à semi-dilués a été jaugée par une comparaison expériences-simulations avancée.De là, dans le régime de concentration dilué, nous montrons que le confinement de l’écoulement et le comportement rhéofluidifiant du fluide suspensif ont une influence mineure sur la cinématique des fibres, si ces dernières sont suffisamment éloignées des plateaux de compression. Si ce prérequis n’est pas respecté, l’effet du confinement devient important. Des modifications au modèle heuristique d’haltère de la littérature ont été proposées pour corriger la cinématique de fibres. Dans le régime semi-dilué, des déviations de la cinématique de fibres sont également observées au cœur des suspensions. Ces déviations sont principalement liées aux interactions hydrodynamiques entre fibres suffisamment voisines. La cinématique des fibres prédite par le modèle de Jeffery et les approximations de champ affine sont mises en défaut. Dans le régime concentré, si l’évolution de l’orientation globale de la suspension est étonnamment bien décrite par l’équation de Jeffery, de très importantes fluctuations des champs de translation et de rotation des fibres sont observées à l’échelle des fibres. Celles-ci sont induites par les nombreux contacts entre fibres qui peuvent par ailleurs être correctement prédits par le modèle de tube
This study focuses on the processing of short fibre-reinforced polymer composites. The physical and mechanical properties of these materials are mainly affected by the position and orientation distribution of fibres induced during their forming. Thus, we analysed the flow-induced micro-mechanisms that arose at the fibre scale during the forming stage of these complex systems which behave as non-Newtonian fibre suspensions. For that purpose, an original approach was developed by combining 3D imaging technique and direct numerical simulation, both performed at the fibre scale. Hence, several model fibre suspensions with a non-Newtonian suspending fluid and with a concentration regime that ranged from dilute to concentrated were prepared . They were subjected to confined lubricated compression loadings using a rheometer mounted on a synchrotron X-ray microtomograph. Thanks to very short scanning times, 3D images of the evolving fibrous microstructures at high spatial resolution were recorded in real-time. These experiments were also simulated using a dedicated Finite Element library enabling an accurate description of fibre kinematics in complex suspending fluids thanks to high performance computation, level sets and adaptive anisotropic meshing. The efficiency of the numerical simulation from the dilute to semi-dilute concentration regimes was assessed through experimental and numerical comparisons.Then, we showed that the confinement effect and the non-Newtonian rheology of the suspending fluid had a weak effect on the fibre kinematics, if the fibres were sufficiently far from the compression platens, typically the fibre-platen distance should be larger than twice the fibre diameter. Otherwise, confinement effects occurred. Some extensions of the dumbbell model were proposed to correct the fibre kinematics in this flow conditions. In semi-dilute concentration, deviations of the fibre kinematics compared to the Jeffery’s predictions were also observed and related to hydrodynamic interactions between fibres. In this case, the predictions of Jeffery’s model and the related assumption of affine fibre motions are less relevant. In the concentrated regime, even if the overall orientation of fibre suspension could be astonishingly well described by using the Jeffery’s model, strong fluctuations on each fibre motion and rotation were observed. These deviations were induced by the numerous fibre-fibre contacts, which could be correctly predicted by the tube model

24

Rubeck, Christophe. "Calcul hautes performances pour les formulations intégrales en électromagnétisme basses fréquences." Phd thesis, Université de Grenoble, 2012. http://tel.archives-ouvertes.fr/tel-00793505.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Les méthodes intégrales sont des méthodes particulièrement bien adaptées à la modélisation des systèmes électromagnétiques car contrairement aux méthodes par éléments finis elles ne nécessitent pas le maillage des matériaux inactifs tel que l'air. Ces modèles sont donc légers en termes de nombre de degrés de liberté. Cependant ceux sont des méthodes à interactions totales qui génèrent des matrices de systèmes d'équations pleines. Ces matrices sont longues à calculer en temps processeur et coûteuses à stocker dans la mémoire vive de l'ordinateur. Nous réduisons dans ces travaux les temps de calcul grâce au parallélisme, c'est-à-dire l'utilisation de plusieurs processeurs, notamment sur cartes graphiques (GPGPU). Nous réduisons également le coût du stockage mémoire via de la compression matricielle par ondelettes (il s'agit d'un algorithme proche de la compression d'images). C'est une compression par pertes, nous avons ainsi développé un critère pour contrôler l'erreur introduite par la compression. Les méthodes développées sont appliquées sur une formulation électrostatique de calcul de capacités, mais elles sont à priori également applicables à d'autres formulations.

25

Bouvier, Clément. "Sélection de caractéristiques stables pour la segmentation d'images histologiques par calcul haute performance." Thesis, Sorbonne université, 2019. http://www.theses.fr/2019SORUS004.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

L’histologie produit des images à l’échelle cellulaire grâce à des microscopes optiques très performants. La quantification du tissu marqué comme les neurones s’appuie de plus en plus sur des segmentations par apprentissage automatique. Cependant, l’apprentissage automatique nécessite une grande quantité d’informations intermédiaires, ou caractéristiques, extraites de la donnée brute multipliant d’autant la quantité de données à traiter. Ainsi, le nombre important de ces caractéristiques est un obstacle au traitement robuste et rapide de séries d’images histologiques. Les algorithmes de sélection de caractéristiques pourraient réduire la quantité d’informations nécessaires mais les ensembles de caractéristiques sélectionnés sont peu reproductibles. Nous proposons une méthodologie originale fonctionnant sur des infrastructures de calcul haute-performance (CHP) visant à sélectionner des petits ensembles de caractéristiques stables afin de permettre des segmentations rapides et robustes sur des images histologiques acquises à très haute-résolution. Cette sélection se déroule en deux étapes : la première à l’échelle des familles de caractéristiques. La deuxième est appliquée directement sur les caractéristiques issues de ces familles. Dans ce travail, nous avons obtenu des ensembles généralisables et stables pour deux marquages neuronaux différents. Ces ensembles permettent des réductions significatives des temps de traitement et de la mémoire vive utilisée. Cette méthodologie rendra possible des études histologiques exhaustives à haute-résolution sur des infrastructures CHP que ce soit en recherche préclinique et possiblement clinique
In preclinical research and more specifically in neurobiology, histology uses images produced by increasingly powerful optical microscopes digitizing entire sections at cell scale. Quantification of stained tissue such as neurons relies on machine learning driven segmentation. However such methods need a lot of additional information, or features, which are extracted from raw data multiplying the quantity of data to process. As a result, the quantity of features is becoming a drawback to process large series of histological images in a fast and robust manner. Feature selection methods could reduce the amount of required information but selected subsets lack of stability. We propose a novel methodology operating on high performance computing (HPC) infrastructures and aiming at finding small and stable sets of features for fast and robust segmentation on high-resolution histological whole sections. This selection has two selection steps: first at feature families scale (an intermediate pool of features, between space and individual feature). Second, feature selection is performed on pre-selected feature families. In this work, the selected sets of features are stables for two different neurons staining. Furthermore the feature selection results in a significant reduction of computation time and memory cost. This methodology can potentially enable exhaustive histological studies at a high-resolution scale on HPC infrastructures for both preclinical and clinical research settings

26

Bouvier, Clément. "Sélection de caractéristiques stables pour la segmentation d'images histologiques par calcul haute performance." Electronic Thesis or Diss., Sorbonne université, 2019. https://accesdistant.sorbonne-universite.fr/login?url=https://theses-intra.sorbonne-universite.fr/2019SORUS004.pdf.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

L’histologie produit des images à l’échelle cellulaire grâce à des microscopes optiques très performants. La quantification du tissu marqué comme les neurones s’appuie de plus en plus sur des segmentations par apprentissage automatique. Cependant, l’apprentissage automatique nécessite une grande quantité d’informations intermédiaires, ou caractéristiques, extraites de la donnée brute multipliant d’autant la quantité de données à traiter. Ainsi, le nombre important de ces caractéristiques est un obstacle au traitement robuste et rapide de séries d’images histologiques. Les algorithmes de sélection de caractéristiques pourraient réduire la quantité d’informations nécessaires mais les ensembles de caractéristiques sélectionnés sont peu reproductibles. Nous proposons une méthodologie originale fonctionnant sur des infrastructures de calcul haute-performance (CHP) visant à sélectionner des petits ensembles de caractéristiques stables afin de permettre des segmentations rapides et robustes sur des images histologiques acquises à très haute-résolution. Cette sélection se déroule en deux étapes : la première à l’échelle des familles de caractéristiques. La deuxième est appliquée directement sur les caractéristiques issues de ces familles. Dans ce travail, nous avons obtenu des ensembles généralisables et stables pour deux marquages neuronaux différents. Ces ensembles permettent des réductions significatives des temps de traitement et de la mémoire vive utilisée. Cette méthodologie rendra possible des études histologiques exhaustives à haute-résolution sur des infrastructures CHP que ce soit en recherche préclinique et possiblement clinique
In preclinical research and more specifically in neurobiology, histology uses images produced by increasingly powerful optical microscopes digitizing entire sections at cell scale. Quantification of stained tissue such as neurons relies on machine learning driven segmentation. However such methods need a lot of additional information, or features, which are extracted from raw data multiplying the quantity of data to process. As a result, the quantity of features is becoming a drawback to process large series of histological images in a fast and robust manner. Feature selection methods could reduce the amount of required information but selected subsets lack of stability. We propose a novel methodology operating on high performance computing (HPC) infrastructures and aiming at finding small and stable sets of features for fast and robust segmentation on high-resolution histological whole sections. This selection has two selection steps: first at feature families scale (an intermediate pool of features, between space and individual feature). Second, feature selection is performed on pre-selected feature families. In this work, the selected sets of features are stables for two different neurons staining. Furthermore the feature selection results in a significant reduction of computation time and memory cost. This methodology can potentially enable exhaustive histological studies at a high-resolution scale on HPC infrastructures for both preclinical and clinical research settings

27

Colin, Alexis. "De la collecte de trace à la prédiction du comportement d'applications parallèles." Electronic Thesis or Diss., Institut polytechnique de Paris, 2022. http://www.theses.fr/2022IPPAS020.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Les supports d'exécution sont couramment utilisés par les applications parallèles afin d'exploiter efficacement les ressources matérielles sous-jacentes. Un support d'exécution dissimule la complexité de la gestion du matériel et expose aux développeurs d'applications une interface de haut niveau. À cette fin, il prend des décisions en s'appuyant sur des heuristiques qui estiment le comportement futur de l'application. Nous proposons Pythia, une bibliothèque utilisable comme oracle capable de prédire le comportement futur d'une application afin que les supports d'exécutions puissent prendre des décisions plus éclairées. Pythia s'appuie sur la nature déterministe de nombreuses applications HPC : en enregistrant une trace d'exécution, Pythia capture le comportement général de l'application. Cette trace est ensuite utilisée lors des exécutions suivantes de l'application et le support d'exécution peut demander des prédictions sur le comportement futur du programme. Nous évaluons Pythia sur 13 applications MPI et nous montrons que Pythia peut prédire précisément le futur de la plupart de ces applications, même en variant la taille des données. Nous montrons comment les prédictions de Pythia peuvent guider l'optimisation d'un support d'exécution en implémentant une stratégie de parallélisme adaptatif dans le support d'exécution GNU OpenMP. L'évaluation montre que, grâce aux prédictions de Pythia cette stratégie adaptative peut réduire le temps d'exécution d'une application jusqu'à 38%
Runtime systems are commonly used by parallel applications in order to efficiently exploit the underlying hardware resources. A runtime system hides the complexity of the management of the hardware and exposes a high-level interface to application developers. To this end, it makes decisions by relying on heuristics that estimate the future behavior of the application. We propose Pythia, a library that serves as an oracle capable of predicting the future behavior of an application, so that the runtime system can make more informed decisions. Pythia builds on the deterministic nature of many HPC applications: by recording an execution trace, Pythia captures the application main behavior. The trace can be provided for future executions of the application, and a runtime system can ask for predictions of future program behavior. We evaluate Pythia on 13 MPI applications and show that Pythia can accurately predict the future of most of these applications, even when varying the problem size. We demonstrate how Pythia predictions can guide a runtime system optimization by implementing an adaptive thread parallelism strategy in GNU OpenMP runtime system. The evaluation shows that, thanks to Pythia prediction, the adaptive strategy reduces the execution time of an application by up to 38%

28

González, Martha. "Application de techniques orientées-objet pour le calcul réparti de haute performance." Paris 6, 2002. http://www.theses.fr/2002PA066161.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

29

Gueunet, Charles. "Calcul haute performance pour l'analyse topologique de données par ensembles de niveaux." Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS120.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

L'analyse de données topologique nécessite des algorithmes de plus en plus efficaces pour être capable de traiter des jeux de données dont la taille et le niveau de détail augmente continûment. Dans cette thèse, nous nous concentrons sur trois abstractions topologiques fondamentales dérivées des ensembles de niveaux : l'arbre de jointure, l'arbre de contour et le graphe de Reeb. Nous proposons trois nouveaux algorithmes parallèles efficaces pour leur calcul sur des stations de travail composées de processeurs multi-cœur en mémoire partagée. Le premier algorithme élaboré durant cette thèse se base sur du parallélisme multi-thread pour le calcul de l'arbre de contour. Une seconde approche revisite l'algorithme séquentiel de référence pour le calcul de cette structure et se base sur des propagations locales exprimables en tâches parallèles. Ce nouvel algorithme est en pratique deux fois plus rapide en séquentiel que l'algorithme de référence élaboré en 2000 et offre une accélération d'un ordre de grandeur en parallèle. Un dernier algorithme basé sur une approche locale par tâches est également présenté pour une abstraction plus générique : le graphe de Reeb. Contrairement aux approches concurrentes, nos algorithmes construisent les versions augmentées de ces structures, permettant de supporter l'ensemble des applications pour l'analyse de données par ensembles de niveaux. Les méthodes présentées dans ce manuscrit ont donné lieu à des implémentations qui sont les plus rapides parmi celles disponibles pour le calcul de ces abstractions. Ce travail a été intégré à la bibliothèque libre : Topology Toolkit (TTK)
Topological Data Analysis requires efficient algorithms to deal with the continuously increasing size and level of details of data sets. In this manuscript, we focus on three fundamental topological abstractions based on level sets: merge trees, contour trees and Reeb graphs. We propose three new efficient parallel algorithms for the computation of these abstractions on multi-core shared memory workstations. The first algorithm developed in the context of this thesis is based on multi-thread parallelism for the contour tree computation. A second algorithm revisits the reference sequential algorithm to compute this abstraction and is based on local propagations expressible as parallel tasks. This new algorithm is in practice twice faster in sequential than the reference algorithm designed in 2000 and offers one order of magnitude speedups in parallel. A last algorithm also relying on task-based local propagations is presented, computing a more generic abstraction: the Reeb graph. Contrary to concurrent approaches, these methods provide the augmented version of these structures, hence enabling the full extend of level-set based analysis. Algorithms presented in this manuscript result today in the fastest implementations available to compute these abstractions. This work has been integrated into the open-source platform: the Topology Toolkit (TTK)

30

Pourroy, Jean. "Calcul Haute Performance : Caractérisation d’architectures et optimisation d’applications pour les futures générations de supercalculateurs." Thesis, université Paris-Saclay, 2020. http://www.theses.fr/2020UPASM028.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Les systèmes d'information et les infrastructures de Calcul Haute Performance (HPC) participent activement à l'amélioration des connaissances scientifiques et à l'évolution de nos sociétés. Le domaine du HPC est en pleine expansion et les utilisateurs ont besoin d'architectures de plus en plus puissantes pour analyser le tsunami de données (simulations numériques, objets connectés), prendre des décisions plus complexes (intelligence artificielle), et plus rapides (voitures connectées, météo).Dans ce travail de thèse, nous discutons des différents challenges à relever (consommation électrique, coût, complexité) pour l’élaboration des nouvelles générations de supercalculateurs Exascale. Alors que les applications industrielles ne parviennent pas à utiliser plus de 10% des performances théoriques, nous montrons la nécessité de repenser l’architecture des plateformes, en utilisant notamment des architectures énergétiquement optimisées. Nous présentons alors certaines technologies émergentes permettant leur développement : les mémoires 3D (HBM), la Storage Class Memory (SCM) ou les technologies d’interconnexions photoniques. Ces nouvelles technologies associées à un nouveau protocole de communication (Gen-Z) vont permettre d’exécuter de façon optimale les différentes parties d’une application. Cependant, en l'absence de méthode de caractérisation fine de la performance des codes, ces architectures innovantes sont potentiellement condamnées puisque peu d'experts savent les valoriser.Notre contribution consiste au développement d'une suite de codes (micro-benchmarks) et d’outils d'analyse de performance. Les premiers ont pour objectifs de caractériser finement certaines parties de la microarchitecture. Deux microbenchmarks ont ainsi été développés pour caractériser le système mémoire et les unités de calculs. La deuxième famille d’outils permet d’étudier la performance des applications. Un premier outil permet de suivre l’évolution du trafic du bus mémoire, ressource critique des architectures. Un second outil permet d’obtenir le profil des applications en extrayant et caractérisant les boucles critiques (hot spots).Pour profiter de l’hétérogénéité des plateformes, nous proposons une méthodologie en 5 étapes permettant d’identifier et de caractériser ces nouvelles plateformes, de modéliser les performances d'une application, et enfin de porter son code sur l'architecture choisie. Enfin, nous montrons comment les outils permettent d’accompagner les développeurs pour extraire le maximum des performances d’une architecture. En proposant nos outils en « sources ouvertes », nous souhaitons sensibiliser les utilisateurs à cette démarche et développer une communauté autour du travail de caractérisation et d’analyse de performance
Information systems and High-Performance Computing (HPC) infrastructures play an active role in the improvement of scientific knowledge and the evolution of our societies. The field of HPC is expanding rapidly and users need increasingly powerful architectures to analyze the tsunami of data (numerical simulations, IOT), to make more complex decisions (artificial intelligence), and to make them faster (connected cars, weather).In this thesis work, we discuss several challenges (power consumption, cost, complexity) for the development of new generations of Exascale supercomputers. While industrial applications do not manage to achieve more than 10% of the theoretical performance, we show the need to rethink the architecture of platforms, in particular by using energy-optimized architectures. We then present some of the emerging technologies that will allow their development: 3D memories (HBM), Storage Class Memory (SCM) or photonic interconnection technologies. These new technologies associated with a new communication protocol (Gen-Z) will help to optimally execute the different parts of an application. However, in the absence of a method for fine characterization of code performance, these emerging architectures are potentially condemned since few experts know how to exploit them.Our contribution consists in the development of benchmarks and performance analysis tools. The first aim is to finely characterize specific parts of the microarchitecture. Two microbenchmarks have thus been developed to characterize the memory system and the floating point unit (FPU). The second family of tools is used to study the performance of applications. A first tool makes it possible to monitor the memory bus traffic, a critical resource of modern architectures. A second tool can be used to profile applications by extracting and characterizing critical loops (hot spots).To take advantage of the heterogeneity of platforms, we propose a 5-step methodology to identify and characterize these new platforms, to model the performance of an application, and finally to port its code to the selected architecture. Finally, we show how the tools can help developers to extract the maximum performance from an architecture. By providing our tools in open source, we want to sensitize users to this approach and develop a community around the work of performance characterization and analysis

31

Yenke, Blaise. "Ordonnancement des sauvegardes/reprises d'applications de calcul haute performance dans les environnements dynamiques." Phd thesis, Université de Grenoble, 2011. http://tel.archives-ouvertes.fr/tel-00685856.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Les avancées technologiques ont conduit les grandes organisations telles que les entreprises,les universités et les instituts de recherche à se doter d'intranets constitués de plusieurs serveurs etd'un grand nombre de postes de travail. Cependant dans certaines de ces organisations, les postes detravail sont très peu utilisés pendant la nuit, les week-ends et les périodes de congés, libérant ainsiune grande puissance de calcul disponible et inutilisée.Dans cette thèse, nous étudions l'exploitation de ces temps de jachère afin d'exécuter desapplications de calcul haute performance. A cet effet, nous supposons que les postes acquis sontrebootés et intégrés à des grappes virtuelles constituées dynamiquement. Toutefois, ces temps dejachère ne permettent pas toujours d'exécuter les applications jusqu'à leur terme. Les mécanismes desauvegarde/reprise (checkpointing) sont alors utilisés pour sauvegarder, dans un certain délai, lecontexte d'exécution des applications en vue d'une éventuelle reprise. Il convient de noter que lasauvegarde de tous les processus dans les délais impartis n'est pas toujours possible. Nousproposons un modèle d'ordonnancement des sauvegardes en parallèle, qui tient compte descontraintes temporelles imposées et des contraintes liées aux bandes passantes (réseau et disque),pour maximiser les temps de calcul déjà effectués pour les applications candidates à la sauvegarde.

32

Yenke, Blaise Omer. "Ordonnancement des sauvegardes/reprises d'applications de calcul haute performance dans les environnements dynamiques." Thesis, Grenoble, 2011. http://www.theses.fr/2011GRENM003/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Les avancées technologiques ont conduit les grandes organisations telles que les entreprises,les universités et les instituts de recherche à se doter d'intranets constitués de plusieurs serveurs etd'un grand nombre de postes de travail. Cependant dans certaines de ces organisations, les postes detravail sont très peu utilisés pendant la nuit, les week-ends et les périodes de congés, libérant ainsiune grande puissance de calcul disponible et inutilisée.Dans cette thèse, nous étudions l'exploitation de ces temps de jachère afin d'exécuter desapplications de calcul haute performance. A cet effet, nous supposons que les postes acquis sontrebootés et intégrés à des grappes virtuelles constituées dynamiquement. Toutefois, ces temps dejachère ne permettent pas toujours d'exécuter les applications jusqu'à leur terme. Les mécanismes desauvegarde/reprise (checkpointing) sont alors utilisés pour sauvegarder, dans un certain délai, lecontexte d'exécution des applications en vue d'une éventuelle reprise. Il convient de noter que lasauvegarde de tous les processus dans les délais impartis n'est pas toujours possible. Nousproposons un modèle d'ordonnancement des sauvegardes en parallèle, qui tient compte descontraintes temporelles imposées et des contraintes liées aux bandes passantes (réseau et disque),pour maximiser les temps de calcul déjà effectués pour les applications candidates à la sauvegarde
The technological advances has led major organizations such as enterprises, universities andresearch institutes to acquire intranets consisting of several servers and many workstations.However, in some of these organizations, the resources are rarely used at nights, weekends and onholidays, thus releasing a large computing power available and unused.This thesis discusses the exploitation of the idle period of workstaions in order to run HPCapplications. The workstations retained are restarted and integrated in dynamically formed clusters.However, the idle periods do not always permit the complete carrying out of the computationsallocated to them. The checkpointing mechanisms are then used to save in a certain period, theexecution context of applications for a possible restart. It is worth nothing that checkpointing all theprocesses in the required period is not always possible. We propose a scheduling model ofcheckpointing in parallel, which takes into account the time constraints imposed and the bandwidthconstraints (network and disk) to maximize the computation time already taken for the applicationswhich are to be checkpointed

33

Vömel, Christof. "Contributions à la recherche en calcul scientifique haute performance pour les matrices creuses." Toulouse, INPT, 2003. http://www.theses.fr/2003INPT003H.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Nous nous intéressons au développement d'un nouvel algorithme pour estimer la norme d'une matrice de manière incrémentale, à l'implantation d'un modèle de référence des Basic Linear Algebra Subprograms for sparse matrices (Sparse BLAS), et à la réalisation d'un nouveau gestionnaire de tâches pour MUMPS, un solveur multifrontal pour des architectures à mémoire distribuée. Notre méthode pour estimer la norme d'une matrice s'applique aux matrices denses et creuses. Elle peut s'avérer utile dans le cadre des factorisations QR, Cholesky, ou LU. Le standard Sparse BLAS définit des interfaces génériques. Nous avons été amenés à répondre aux questions concernant la représentation et la gestion des données. Le séquencement de tâches devient un enjeu important dès que nous travaillons sur un grand nombre de processeurs. Grâce à notre nouvelle approche, nous pouvons améliorer le passage a l'échelle du solveur MUMPS.

34

Guermouche, Amina. "Nouveaux Protocoles de Tolérances aux Fautes pour les Applications MPI du Calcul Haute Performance." Phd thesis, Université Paris Sud - Paris XI, 2011. http://tel.archives-ouvertes.fr/tel-00666063.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Avec l'évolution des machines parallèles, le besoin en protocole de tolérance aux fautes devient de plus en plus important. Les protocoles de tolérance aux fautes existants ne sont pas adaptés à ces architectures car soit ils forcent un redémarrage global (protocoles de sauvegarde de points de reprise coordonnés) soit ils forcent l'enregistrement de tous les messages (protocoles à enregistrement de messages). Nous avons étudié les caractéristiques des protocoles existants. Dans un premier temps, nous avons étudié le déterminisme des applications, étant donné que les protocoles existants supposent des exécutions non déterministes ou déterministes par morceaux. Dans notre étude, nous nous sommes intéressés au modèle par échange de messages, et plus précisément aux applications MPI. Nous avons analysé 26 applications MPI et avons mis avant une nouvelle caractéristique appelée "déterminisme des émissions" qui correspond à la majorité des applications étudiées. Dans un second temps, nous nous sommes intéressés aux schémas de communications des applications afin d'étudier l'existence des groupes de processus dans ces schémas. L'étude a montré que pour la plupart des applications, il est possible de créer des groupes de processus de façon à minimiser la taille des groupes et le volume des messages inter-groupe. A partir de là nous avons proposé deux protocoles de tolérance aux fautes. Le premier est un protocole de sauvegarde de points de reprise non coordonnés pour les applications à émissions déterministes qui évite l'effet domino en n'enregistrant qu'un sous ensemble des messages de l'application. Nous avons également adapté le protocole pour l'utiliser sur des groupes de processus. Par la suite, nous avons proposé HydEE, un protocole hiérarchique fondé sur le déterminisme des émissions et les groupes de processus. Il combine un protocole de sauvegarde de points de reprise coordonnés au sein des groupes à un protocole à enregistrement de messages entre les groupes.

35

Maillard, Nicolas. "Calcul Haute-Performance et Mécanique Quantique : analyse des ordonnancements en temps et en mémoire." Phd thesis, Université Joseph Fourier (Grenoble), 2001. http://tel.archives-ouvertes.fr/tel-00004684.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Ce travail présente l'apport de l'ordonnancement pour la programmation parallèle performante d'applications numériques en mécanique et chimie quantique. Nous prenons deux exemples types de résolution de l'équation de Schrödinger --- Boîte Quantique (BQ) et Méthode des Perturbations d'ordre 2 (MP2) --- qui nécessitent de grosses ressources en calcul et mémoire. La programmation traditionnelle (échange de messages et/ou multithreading) des machines parallèles (distribuées ou SMP) est illustrée par les performances obtenues avec le benchmark Linpack sur la grappe I-cluster (INRIA). Le manque de portabilité du code hautement performant obtenu montre l'importance d'un environnement de programmation parallèle permettant de découpler le codage de l'algorithme de son ordonnancement sur la machine cible. Nous introduisons alors Athapascan, qui repose sur l'analyse du flot de données, pour calculer dynamiquement des ordonnancements prouvés efficaces. Un premier critère d'efficacité est le temps de calcul. Sur certains modèles de machines, la théorie et l'expérience montrent que Athapascan permet des ordonnancements qui garantissent des exécutions efficaces pour certains algorithmes adaptés à BQ, de type itératif (méthode de Lanczos). Un deuxième critère fondamental est l'espace mémoire requis pour les exécutions parallèles en calcul numérique ; c'est particulièrement critique pour MP2. Nous proposons d'annoter le Graphe de Flot de Données (GFD) manipulé par Athapascan pour prendre en compte la mémoire et permettre des ordonnancements dynamiques efficaces en mémoire. Pour MP2, dont le GFD est connu statiquement, un ordonnancement efficace en temps et en mémoire est donné.

36

Visseq, Vincent. "Calcul haute performance en dynamique des contacts via deux familles de décomposition de domaine." Phd thesis, Université Montpellier II - Sciences et Techniques du Languedoc, 2013. http://tel.archives-ouvertes.fr/tel-00848363.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

La simulation numérique des systèmes multicorps en présence d'interactions complexes, dont le contact frottant, pose de nombreux défis, tant en terme de modélisation que de temps de calcul. Dans ce manuscrit de thèse, nous étudions deux familles de décomposition de domaine adaptées au formalisme de la dynamique non régulière des contacts (NSCD). Cette méthode d'intégration implicite en temps de l'évolution d'une collection de corps en interaction a pour caractéristique de prendre en compte le caractère discret et non régulier d'un tel milieu. Les techniques de décomposition de domaine classiques ne peuvent de ce fait être directement transposées. Deux méthodes de décomposition de domaine, proches des formalismes des méthodes de Schwarz et de complément de Schur sont présentées. Ces méthodes se révèlent être de puissants outils pour la parallélisation en mémoire distribuée des simulations granulaires 2D et 3D sur un centre de calcul haute performance. Le comportement de structure des milieux granulaires denses est de plus exploité afin de propager rapidement l'information sur l'ensemble des sous domaines via un schéma semi-implicite d'intégration en temps.

37

Baboulin, Marc. "Résolutions rapides et fiables pour les solveurs d'algèbre linéaire numérique en calcul haute performance." Habilitation à diriger des recherches, Université Paris Sud - Paris XI, 2012. http://tel.archives-ouvertes.fr/tel-00967523.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Dans cette Habilitation à Diriger des Recherches (HDR), nous présentons notre recherche effectuée au cours de ces dernières années dans le domaine du calcul haute-performance. Notre travail a porté essentiellement sur les algorithmes parallèles pour les solveurs d'algèbre linéaire numérique et leur implémentation parallèle dans les bibliothèques logicielles du domaine public. Nous illustrons dans ce manuscrit comment ces calculs peuvent être accélérées en utilisant des algorithmes innovants et être rendus fiables en utilisant des quantités spécifiques de l'analyse d'erreur. Nous expliquons tout d'abord comment les solveurs d'algèbre linéaire numérique peuvent être conçus de façon à exploiter les capacités des calculateurs hétérogènes actuels comprenant des processeurs multicœurs et des GPUs. Nous considérons des algorithmes de factorisation dense pour lesquels nous décrivons la répartition des tâches entre les différentes unités de calcul et son influence en terme de coût des communications. Ces cal- culs peuvent être également rendus plus performants grâce à des algorithmes en précision mixte qui utilisent une précision moindre pour les tâches les plus coûteuses tout en calculant la solution en précision supérieure. Puis nous décrivons notre travail de recherche dans le développement de solveurs d'algèbre linéaire rapides qui utilisent des algorithmes randomisés. La randomisation représente une approche innovante pour accélérer les calculs d'algèbre linéaire et la classe d'algorithmes que nous proposons a l'avantage de réduire la volume de communications dans les factorisations en supprimant complètement la phase de pivotage dans les systèmes linéaires. Les logiciels correspondants on été développés pour architectures multicœurs éventuellement accélérées par des GPUs. Enfin nous proposons des outils qui nous permettent de garantir la qualité de la solution calculée pour les problèmes de moindres carrés sur-déterminés, incluant les moindres carrés totaux. Notre méthode repose sur la dérivation de formules exactes ou d'estimateurs pour le conditionnement de ces problèmes. Nous décrivons les algorithmes et les logiciels qui permettent de calculer ces quantités avec les bibliothèques logicielles parallèles standards. Des pistes de recherche pour les années à venir sont données dans un chapître de conclusion.

38

Latu, Guillaume. "Algorithmique parallèle et calcul haute performance dédiés à la simulation d'un système hôte-macroparasite." Bordeaux 1, 2002. http://www.theses.fr/2002BOR12632.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Ce travail contribue à un modèle déterministe discret d'un système hôte-macroparasite et propose un modèle stochastique équivalent. Une application du modèle consiste en l'étude quantitative du système Bar-Diplectanum Aequans à l'aide de deux simulateurs parallèles. Une étude algorithmique détaillée est donnée pour le simulateur déterministe. L'extensibilité de très bonne qualité est évaluée théoriquement et testée. Une utilisation optimisée des mémoires caches permet d'atteindre 60 % de la puissance crête au coeur des calculs. Les temps d'exécution sont réduits et la précision des calculs améliorée, ce qui permet de reproduire des dynamiques observées sur le terrain. Le second simulateur utilise une méthode de type Monte Carlo. On donne les performances associées à une programmation hybride sur une grappe de noeuds SMP. L'étude quantitative effectuée sur les résultats des simulateurs donne un éclairage nouveau sur l'interaction des mécanismes des systèmes hôte-macroparasite.

39

Relun, Nicolas. "Stratégie multiparamétrique pour la conception robuste en fatigue." Phd thesis, École normale supérieure de Cachan - ENS Cachan, 2011. http://tel.archives-ouvertes.fr/tel-00669449.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

La conception robuste de pièce mécaniques consiste à prendre en compte dans la modélisation les sources d'incertitudes.Le modèle devient alors assez représentatif de la réalité pour pouvoir diminuer les marges de sécurité, qui permettent de garantir que la pièce en fonctionnement ne sera pas mise en défaut.Dans le cas de pièces aérospatiales, une diminution des marges de sécurité est un enjeu économique majeur car cela entraîne une diminution du poids des pièces.La probabilité de défaillance est une des quantités critiques lors de la conception robuste. Celle-ci quantifie le risque de défaillance de la pièce en comparant la probabilité de résistance du matériau (caractérisée à partir d'essais sur éprouvettes) avec la probabilité de sollicitation du matériau, qui est déterminée à partir des contraintes extérieures à la pièce et des caractéristiques du matériau. C'est ce dernier problème qui a fait l'objet de cette thèse.Dans le cas d'un comportement non linéaire du matériau, la détermination de la probabilité de sollicitation impose d'exécuter de nombreuses fois un calcul de la pièce pour différentes valeurs des conditions aux limites et des paramètres du comportement matériau.Ceci devient rapidement hors de portée sans une stratégie adaptée, un calcul pouvant prendre jusqu'à 12 heures.Une stratégie dédiée à la résolution de l'ensemble de ces calculs est proposée dans ce travail. Elle tire parti de la similarité des calculs pour diminuer le temps total nécessaire. Un gain allant jusqu'à 30 est atteint sur des pièces industrielles simples en quasi-statique avec un comportement élasto-viscoplastique.

40

Cargnelli, Matthieu. "OpenWP : étude et extension des technologies de Workflows pour le calcul haute performance sur grille." Paris 11, 2008. http://www.theses.fr/2008PA112265.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Cette thèse s’inscrit dans un contexte industriel. Elle aborde la problématique du passage de code de calcul scientifique séquentiel à un code de calcul exécutable sur une grille. L’approche proposée dans cette thèse exploite les technologies de worflows pour leur adéquation avec les problèmes rencontrés sur une grille. Après avoir présenté les solutions existantes pour exécuter un workflow sur une grille et une solution pour paralléliser un code séquentiel : openMP, l’auteur présente sa proposition : OpenWP. OpenWP est un environnement proposant un langage d’annotation de code séquentiel à base de directives en vue de sa transformation en workflow, puis le contrôle de l’exécution de ce worflow à travers un moteur tierce partie sur la grille. Un mécanisme de mémoire distribuée virtuellement partagée est proposé. Le langage défini pour OpenWP est détaillé, son expressivité critiquée et comparée à celle d’OpenMP. La conception d’OpenWP est ensuite décrite, ainsi que les choix technologiques qui ont conduit à l’implémentation d’un prototype. La thèse se poursuit par une validation de concept et une série d’évaluations de performances d’OpenWP avec plusieurs applications, dont un mailleur industriel utilisé par EADS. Enfin un système hybride combinant OpenWP et OpenMP est décrit. Ce système doit permettre à OpenWP d’exploiter la hiérarchie de la grille en utilisant les machines multi-processeurs à mémoire partagée lorsque cela est possible, avec OpenMP. Une preuve de concept est apportée sur un cas test simple
This thesis has been conduced in an industrial context. It studies the code refactoring from a sequential scientific code into a grid enabled program. The proposed approach is based on the workflow technologies which are well suited for grid. After a presentation of existing solutions for workflow execution on the grid as well as a solution for code parallelization (openMP), the author presents his proposition : OpenWP. OpenWP is a workflow definition language based on directives to turn a sequential code into a workflow. OpenWP allows the controlled execution of this workflow on the grip using a third party workflow enactment engine. A distributed virtually shared memory system is proposed. The defined language is presented in detail and its expressivity is criticized and compared to OpenMP’s. The conception of OpenWP is then described and the technology choices made are explained. A prototype is presented. The document then shows a proof of concept and a series of performance evaluation of OpenWP used on few programs, among which an industrial mesher used by EADS. An hybrid system based on OpenWP and OpenMP is also described. This system must give OpenWP the ability to exploit the resource hierarchy found in the grid, by using the shared memory multi-processors machines whenever possible through OpenMP. A proof of concept test case is provided and commented

41

Möller, Nathalie. "Adaptation de codes industriels de simulation en Calcul Haute Performance aux architectures modernes de supercalculateurs." Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLV088.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Durant de longues années, la stabilité dans le paradigme d'architecture a facilité la portabilité de performance des grands codes en Calcul de Haute Performance d'une génération à l'autre de supercalculateurs.L'effondrement programmé de la loi de Moore - qui règle les progrès en gravure des micro-processeurs - bouscule ce modèle et requiert un effort nouveau du côté logiciel.Une modernisation des codes basée sur une algorithmique adaptée aux futurs systèmes est ainsi nécessaire.Cette modernisation repose sur des principes de base connus tels que la concurrence des calculs et la localité des données.Cependant, la mise en œuvre de ces principes dans le cadre d'applications réelles en milieu industriel – lesquelles applications sont souvent le fruit d’années d’efforts de développement - s’avère bien plus compliquée que ne le laissait prévoir leur simplicité apparente.Les contributions de cette thèse sont les suivantes :D’une part, nous explorons une méthodologie de modernisation de codes basée sur l’utilisation de proto-applications et la confrontons à une approche directe, en optimisant deux codes de simulation dévéloppés dans un contexte similaire.D’autre part, nous nous concentrons sur l’identification des principaux défis concernant l’adéquation entre applications, modèles de programmation et architectures.Les deux domaines d'application choisis sont la dynamique des fluides et l'électromagnétisme
For many years, the stability of the architecture paradigm has facilitated the performance portability of large HPC codes from one generation of supercomputers to another.The announced breakdown of the Moore's Law, which rules the progress of microprocessor engraving, ends this model and requires new efforts on the software's side.Code modernization, based on an algorithmic which is well adapted to the future systems, is mandatory.This modernization is based on well-known principles as the computation concurrency, or degree of parallelism, and the data locality.However, the implementation of these principles in large industrial applications, which often are the result of years of development efforts, turns out to be way more difficult than expected.This thesis contributions are twofold :On the one hand, we explore a methodology of software modernization based on the concept of proto-applications and compare it with the direct approach, while optimizing two simulation codes developed in a similar context.On the other hand, we focus on the identification of the main challenges for the architecture, the programming models and the applications.The two chosen application fields are the Computational Fluid Dynamics and Computational Electro Magnetics

42

El, gharbi Yannis. "Une approche à deux niveaux pour le calcul de structures haute performance : décomposition -- maillage -- résolution." Thesis, université Paris-Saclay, 2021. http://www.theses.fr/2021UPAST001.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

La simulation numérique représente encore un aspect minoritaire de la certification de pièces critiques dans l'industrie. Pourtant, elle permettrait de réaliser de fortes économies lors de la conception, en évitant de réaliser des essais onéreux sur des pièces réelles.En effet, lorsque le matériau est architecturé il existe des structures internes ayant un comportement mécanique radicalement différent en des zones distinctes de la structure, il devient difficile, voire impossible, de réaliser ces simulations en des temps raisonnables du fait du nombre important d'inconnues nécessaires à l'obtention d'une réponse fiable de la structure.Pour obtenir cette réponse, l'utilisation de méthodes de résolution parallèle de problèmes de grande taille est nécessaire. Les méthodes de décomposition de domaine, qui font partie de cette catégorie, sont les méthodes qui sont explorées durant cette thèse.L'objectif est donc de rendre possible ces simulations à l'aide de ces méthodes.En effet, la résolution du problème mais aussi le maillage de la structure deviennent coûteux et l'usage de méthodes parallèles devient indispensable.Pour cela, une méthode de sous-structuration à deux niveaux est proposée. Elle vise à produire en phase de préparation des données des sous-domaines réguliers et homogènes pouvant être maillés en parallèle. Par ailleurs, elle conduit à une forte réduction du conditionnement de problèmes à fortes hétérogénéités résolus par un solveur FETI. Une méthode de décomposition de domaine mixte avec impédance d'interface à deux niveaux adaptée à cette sous-structuration a ensuite pu être développée.L'objectif à long terme est, ici, de traiter des problèmes de complexité quasi-industrielle tels que des calculs à l'échelle de la structure complète sur des matériaux multi-échelles comme les composites tissés tridimensionnels utilisés de plus en plus intensivement dans l'industrie aéronautique par exemple
Numerical simulations represent a minor part of the certification proceess for critical parts in the industry. However, it would result in significant cost savings during conception phases, avoiding expensive real tests.Indeed, in cases of localized strong heterogeneities across all the structure, it becomes hard, if not impossible, to run successfully these simulations in reasonable times because of a too large number of unknowns needed for a reliable answer of the structure.To obtain this answer, large scale parallel solving methods are necessary. Domain decomposition methods, which are part of it, are the ones investigated during this thesis.The goal is to make these simulations possible thanks to domain decomposition methods.Indeed, the resolution of the problem but also the meshing of the structure become expensive and the use of parallel methods becomes essential.For this purpose, a two-level substructuring method is proposed. It aims at producing, during the pre-processing step, regular-shaped and homogeneous subdomains possibly meshed in parallel. In addition, it allows to a significant reduction of the condition number for strongly heterogeneous problems solved by a FETI solver. A mixed domain decomposition method with a two-level Robin condition which is adapted to this decomposition could then be developped.The long term objective is to deal with problems with a quasi-industrial complexity like computations at the global structural scale with multi-scale materials such as tridimensional woven composites which are used increasingly intensively in the aeronautical industry for instance

43

Gholami, Bahman. "Application des systèmes de calcul à haute performance dans les études électrothermiques à l'échelle nanoscopique." Thèse, Université du Québec à Trois-Rivières, 2011. http://depot-e.uqtr.ca/2065/1/030259746.pdf.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

44

Wanza, Weloli Joël. "Modélisation, simulation de différents types d’architectures de noeuds de calcul basés sur l’architecture ARM et optimisés pour le calcul haute-performance." Thesis, Université Côte d'Azur (ComUE), 2019. http://www.theses.fr/2019AZUR4042.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Ce travail s’inscrit dans le cadre de la famille de projets Européens Mont-Blanc dont l’objectif est de développer la prochaine génération de systèmes Exascale. Il s’intéresse particulièrement à la question de l’efficacité énergétique, d’abord au niveau micro-architectural en considérant l’utilisation de nœuds de calcul basés sur l’Armv8-A 64-bit associée à une topologie SoC pertinente, puis en examinant les aspects exécutifs notamment par une étude de stratégies de gestion énergétique (power management) mieux adaptées à des contraintes de traitement massivement parallèle. Une méthodologie d’exploration architecturale capable de supporter la simulation de larges clusters de calcul parallèle est définie et exploitée pour proposer, développer et évaluer des modèles multi-SoC et de réseaux de communication associés (SoC Coherent Interconnect, SCI). Cette démarche est ensuite poursuivie pour définir une architecture Exascale permettant de réduire globalement la complexité et les coûts de développement en dégradant le moins possible les performances. Le partitionnement de la puce permet ainsi des possibilités intéressantes au niveau technologique telles que l’intégration de nœuds supplémentaires basée sur des technologies System-in-Package (interposer), ou 3D Through Silicon Vias (TSVs) et High Memory Bandwidth (HBM). En second lieu, les aspects énergétiques sont abordés plus directement par l’étude de politiques de gestion énergétique existantes et en proposant deux stratégies pour permettre réduire la consommation en préservant les performance. La première exploite une perception applicative plus fine pour ajuster la fréquence de nombreuses tâches parallèles et mieux équilibrer leurs temps d’exécution. La seconde stratégie réduit la fréquence des coeurs aux points de synchronisation des tâches pour limiter les fonctionnements inutiles à pleine puissance. Les résultats d’expérimentation obtenus avec ces stratégies, à la fois en simulation et sur plateforme réelle, montrent les possibilités offertes par cette approche pour répondre aux fortes contraintes des plateformes pre-exascale sur le plan énergétique
This work is part of a family of European projects called Mont-Blanc whose objective is to develop the next generation of Exascale systems. It addresses specifically the issue of energy efficiency, at micro-architectural level first by considering the use of 64-bit Armv8-A based compute nodes and an associated relevant SoC topology, and examine also the runtime aspects with notably the study of power management strategies that can be better suited to the constraints of HPC highly parallel processing. A design space exploration methodology capable of supporting the simulation of large manycore computing clusters is developped and lead to propose, design and evaluate multi-SoC and their associated SoC Coherent Interconnect models (SCI). This approach is then used to define a pre-exascale architecture allowing to globally reduce the complexity and cost of chip developments without sacrifying performances. The resulting partitioning scheme introduces interesting perspectives at technology level such as the integration of more compute nodes directly on an interposer based System-in-Package (SiP), possibly based on 3D Through Silicon Vias (TSVs) using High Memory Bandwidth (HBM). Energy efficiency is addressed more directly in second instance by studying current power management policies and proposing two strategies to help reducing power while preserving performances. The first one exploits finer application execution knowledge to adjust the frequency of extensive parallel threads and better balance their execution time. The second strategy reduces core frequencies at synchronisation points of jobs to avoid running the cores at full speed while it is not necessary. Experiment results with these strategies, both in simulation and real hardware, show the possibilities offered par this approach to address the strong requirements of Exascale platforms

45

Boyer, Alexandre. "Contributions to Computing needs in High Energy Physics Offline Activities : Towards an efficient exploitation of heterogeneous, distributed and shared Computing Resources." Electronic Thesis or Diss., Université Clermont Auvergne (2021-...), 2022. http://www.theses.fr/2022UCFAC108.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Repousser les limites de la science et fournir des services spécifiques et performant aux particuliers et aux communautés requiert des logiciels toujours plus sophistiqués, du matériel spécialisé et un besoin croissant en stockage et puissance de calcul. En ce début de décennie, nous entrons dans une phase informatique distribuée et hétérogène, où les ressources seront limitées et contraintes. Les communautés employant les grilles de calculs doivent adapter leur approche : (i) les applications doivent supporter diverses architectures ; (ii) les systèmes de gestion de charge de travail doivent gérer plusieurs modèles de traitement informatique et garantir la bonne exécution des applications, en dépit de quelconque contraintes liées aux systèmes sous-jacent. Cette thèse se concentre sur le dernier point évoqué au travers du cas de l’expérience LHCb.La collaboration LHCb s’appuie sur la World LHC Computing Grid, une infrastructure impliquant 170 centres de calcul répartis dans le monde, pour traiter un nombre croissant de simulations de Monte Carlo afin de reproduire les conditions expérimentales du projet. Malgré son envergure, l’infrastructure ne sera pas en mesure de couvrir les besoins en simulation des prochaines périodes d’exploitation du LHC en un temps raisonnable. En parallèle, les programmes scientifiques nationaux encouragent les communautés à s’approprier leurs supercalculateurs, des ordinateurs centralisant une puissance de calcul significative mais impliquant des défis d’intégration de taille.Au cours de cette thèse, nous proposons différentes approches pour approvisionner des ressources de calcul hétérogènes et distribuées en tâches LHCb. Nous avons développé des méthodes pour augmenter le débit d’exécution des programmes LHCb sur des grilles de calcul (+40.86%). Nous avons également conçu une série de solutions logicielles pour répondre aux limitations et contraintes que l’on peut retrouver dans des super calculateurs, comme le manque de connexion au réseau externe ou les dépendances des programmes par exemple. Nous avons appliqué ces solutions pour tirer profit de la puissance de calcul provenant de quatre partitions sur des super calculateurs classés au Top500
Pushing the boundaries of sciences and providing more advanced services to individuals and communities continuously demand more sophisticated software, specialized hardware, and a growing need for computing power and storage. At the beginning of the 2020s, we are entering a heterogeneous and distributed computing era where resources will be limited and constrained. Grid communities need to adapt their approach: (i) applications need to support various architectures; (ii) workload management systems have to manage various computing paradigms and guarantee a proper execution of the applications, regardless of the constraints of the underlying systems. This thesis focuses on the latter point through the case of the LHCb experiment.The LHCb collaboration currently relies on an infrastructure involving 170 computing centers across the world, the World LHC Computing Grid, to process a growing amount of Monte Carlo simulations, reproducing the experimental conditions of the experiment. Despite its huge size, it will be unable to handle simulations coming from the next LHC runs in a decent time. In the meantime, national science programs are consolidating computing resources and encourage using supercomputers, which provide a tremendous amount of computing power but pose higher integration challenges.In this thesis, we propose different approaches to supply distributed and shared computing resources with LHCb tasks. We developed methods to increase the number of computing resources allocations and their duration. It resulted in an improvement of the LHCb job throughput on a grid infrastructure (+40.86%). We also designed a series of software solutions to address highly-constrained environment issues that can be found in supercomputers, such as lack of external connectivity and software dependencies. We have applied those concepts to leverage computing power from four partitions of supercomputers ranked in the Top500

46

Monna, Florence. "Ordonnancement pour les nouvelles plateformes de calcul avec GPUs." Thesis, Paris 6, 2014. http://www.theses.fr/2014PA066390/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

De plus en plus d'ordinateurs utilisent des architectures hybrides combinant des processeurs multi-cœurs (CPUs) et des accélérateurs matériels comme les GPUs (Graphics Processing Units). Ces plates-formes parallèles hybrides exigent de nouvelles stratégies d'ordonnancement adaptées. Cette thèse est consacrée à une caractérisation de ce nouveau type de problèmes d'ordonnancement. L'objectif le plus étudié dans ce travail est la minimisation du makespan, qui est un problème crucial pour atteindre le potentiel des nouvelles plates-formes en Calcul Haute Performance.Le problème central étudié dans ce travail est le problème d'ordonnancement efficace de n tâches séquentielles indépendantes sur une plateforme de m CPUs et k GPUs, où chaque tâche peut être exécutée soit sur un CPU ou sur un GPU, avec un makespan minimal. Ce problème est NP-difficiles, nous proposons donc des algorithmes d'approximation avec des garanties de performance allant de 2 à (2q + 1)/(2q) +1/(2qk), q> 0, et des complexités polynomiales. Il s'agit des premiers algorithmes génériques pour la planification sur des machines hybrides avec une garantie de performance et une fin pratique. Des variantes du problème central ont été étudiées : un cas particulier où toutes les tâches sont accélérées quand elles sont affectées à un GPU, avec un algorithme avec un ratio de 3/2, un cas où les préemptions sont autorisées sur CPU, mais pas sur GPU, le modèle des tâches malléables, avec un algorithme avec un ratio de 3/2. Enfin, le problème avec des tâches dépendantes a été étudié, avec un algorithme avec un ratio de 6. Certains des algorithmes ont été intégré dans l'ordonnanceur du système xKaapi
More and more computers use hybrid architectures combining multi-core processors (CPUs) and hardware accelerators like GPUs (Graphics Processing Units). These hybrid parallel platforms require new scheduling strategies. This work is devoted to a characterization of this new type of scheduling problems. The most studied objective in this work is the minimization of the makespan, which is a crucial problem for reaching the potential of new platforms in High Performance Computing. The core problem studied in this work is scheduling efficiently n independent sequential tasks with m CPUs and k GPUs, where each task of the application can be processed either on a CPU or on a GPU, with minimum makespan. This problem is NP-hard, therefore we propose approximation algorithms with performance ratios ranging from 2 to (2q+1)/(2q)+1/(2qk), q>0, and corresponding polynomial time complexities. The proposed solving method is the first general purpose algorithm for scheduling on hybrid machines with a theoretical performance guarantee that can be used for practical purposes. Some variants of the core problem are studied: a special case where all the tasks are accelerated when assigned to a GPU, with a 3/2-approximation algorithm, a case where preemptions are allowed on CPUs, the same problem with malleable tasks, with an algorithm with a ratio of 3/2. Finally, we studied the problem with dependent tasks, providing a 6-approximation algorithm. Experiments based on realistic benchmarks have been conducted. Some algorithms have been integrated into the scheduler of the xKaapi runtime system for linear algebra kernels, and compared to the state-of-the-art algorithm HEFT

47

Pérache, Marc. "Contribution à l'élaboration d'environnements de programmation dédiés au calcul scientifique hautes performances." Bordeaux 1, 2006. http://www.theses.fr/2006BOR13238.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Dans le cadre du calcul scientifique intensif, la quête des hautes performances se heurte actuellement à la complexité croissante des architectures des machines parallèles. Ces dernières exhibent en particulier une hiérarchie importante des unités de calcul et des mémoires, ce qui complique énormément la conception des applications parallèles. Cette thèse propose un support d'exécution permettant de programmer efficacement les architectures de type grappes de machines multiprocesseurs, en proposant un modèle de programmation centré sur les opérations collectives de communication et de synchronisation et sur l'équilibrage de charge. L'interface de programmation, nommée MPC, fournit des paradigmes de haut niveau qui sont implémentés de manière optimisée en fonction de l'architecture sous-jacente. L'environnement est opérationnel sur la plate-forme de calcul du CEA/DAM (TERANOVA) et les évaluations valident la pertinence de l'approche choisie

48

Perache, Marc. "Contribution à l'élaboration d'environnements de programmation dédiés au calcul scientifique hautes performances /." [Gif-sur-Yvette] : [CEA Saclay, Direction des systèmes d'information], 2007. http://catalogue.bnf.fr/ark:/12148/cb410047057.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

49

Dao, Van Toan. "Calcul à haute performance et simulations stochastiques : Etude de la reproductibiité numérique sur architectures multicore et manycore." Thesis, Université Clermont Auvergne‎ (2017-2020), 2017. http://www.theses.fr/2017CLFAC005/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

La reproductibilité des expériences numériques sur les systèmes de calcul à haute performance est parfois négligée. De plus, les méthodes numériques employées pour une parallélisation rigoureuse des simulations stochastiques sont souvent méconnues. En effet, les résultats obtenus pour une simulation stochastique utilisant des systèmes de calcul à hautes performances peuvent être différents d’une exécution à l’autre, et ce pour les mêmes paramètres et les même contextes d’exécution du fait de l’impact des nouvelles architectures, des accélérateurs, des compilateurs, des systèmes d’exploitation ou du changement de l’ordre d’exécution en parallèle des opérations en arithmétique flottantes au sein des micro-processeurs. En cas de non répétabilité des expériences numériques, comment mettre au point les applications ? Quel crédit peut-on apporter au logiciel parallèle ainsi développé ? Dans cette thèse, nous faisons une synthèse des causes de non-reproductibilité pour une simulation stochastique parallèle utilisant des systèmes de calcul à haute performance. Contrairement aux travaux habituels du parallélisme, nous ne nous consacrons pas à l’amélioration des performances, mais à l’obtention de résultats numériquement répétables d’une expérience à l’autre. Nous présentons la reproductibilité et ses apports dans la science numérique expérimentale. Nous proposons dans cette thèse quelques contributions, notamment : pour vérifier la reproductibilité et la portabilité des générateurs modernes de nombres pseudo-aléatoires ; pour détecter la corrélation entre flux parallèles issus de générateurs de nombres pseudo-aléatoires ; pour répéter et reproduire les résultats numériques de simulations stochastiques parallèles indépendantes
The reproducibility of numerical experiments on high performance computing systems is sometimes overlooked. Moreover, the numerical methods used for rigorous parallelization of stochastic simulations are often unknown. Indeed, the results obtained for a stochastic simulation using high performance computing systems can be different from run to run with the same parameters and the same execution contexts due to the impact of new architectures, accelerators, compilers, operating systems or a changing of the order of execution of the floating arithmetic operations within the micro-processors for parallelizing optimizations. In the case of non-repeatability of numerical experiments, how can we seriously develop a scientific application? What credit can be given to the parallel software thus developed? In this thesis, we synthesize the main causes of non-reproducibility for a parallel stochastic simulation using high performance computing systems. Unlike the usual parallelism works, we do not focus on improving performance, but on obtaining numerically repeatable results from one experiment to another. We present the reproducibility and its contributions to the science of experimental and numerical computing. Furthermore, we propose some contributions, in particular: to verify the reproducibility and portability of top modern pseudo-random number generators, to detect the correlation between parallel streams issued from such generators, to repeat and reproduce the numerical results of independent parallel stochastic simulations

50

Bernal, Norena Alvaro. "Conception et étude d'une architecture de haute performance pour le calcul de la fonction exponentielle modulaire." Grenoble INPG, 1999. http://www.theses.fr/1999INPG0112.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Les processus de securisation d'information privee reposent principalement sur des protocoles qui utilisent le concept de fonction a sens unique ou fonction tres difficilement inversible. Ce type de brouillage mathematique est frequemment realise par la fonction exponentielle modulaire. Dans ce travail se presente la conception d'une architecture performante qui satisfait aux caracteristiques les plus importantes afin de garantir la viabilite d'un circuit integre pour le calcul de la fonction exponentielle modulaire. L'analyse de l'architecture permet d'evaluer les gains en vitesse qu'une realisation materiel pourrait permettre par rapport aux algorithmes programmes. L'architecture calcule la fonction exponentielle modulaire des numeros representes en notation modulaire en combinant les avantages de l'algorithme de montgomery pour la multiplication et ceux de la methode generalise de multiplications repetees, pour l'exponentielle. D'autre part, la necessite de performances elevees inherentes aux applications, soit en cartes a puce soit en communication par satellite, a fait considerer le asga comme une technologie appropriee pour l'implementation de ce type de systeme. La conception de deux des principaux blocs de l'architecture envisageant la basse consommation a ete aussi realisee.

Дисертації з теми "Calculs haute performance"

Оформте джерело за APA, MLA, Chicago, Harvard та іншими стилями