Log in

Relevant bibliographies by topics / Calcolo HTC / Dissertations / Theses

To see the other types of publications on this topic, follow the link: Calcolo HTC.

Dissertations / Theses on the topic 'Calcolo HTC'

Author: Grafiati

Published: 10 March 2023

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Calcolo HTC.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Vinot, Emmanuel. "Modélisation des supraconducteurs HTC : applications au calcul des pertes AC." Phd thesis, Grenoble INPG, 2000. http://tel.archives-ouvertes.fr/tel-00689985.

Full text

Abstract:

L'apparition des supraconducteurs à Haute Température Critique en 1986 puis leur développement permet maintenant leur utilisation en électrotechnique. Il devient important de connaître précisément leur comportement électromagnétique et notamment leurs pertes. Pour cela, un modèle numérique (éléments finis) a été implanté dans FLUX3D. Les supraconducteurs y sont représentés comme étant parfaitement amagnétiques et régis par une loi en puissance entre le champ électrique et la densité de courant. Cette loi est pour l'instant indépendante de l'induction magnétique. Nous avons été amenés à étudier et comparer différentes formulations (A,3A/3t,fo,TT0O,Âcouplée avec les équations de circuit) permettant d'imposer un champ magnétique extérieur, un courant voire d'inclure un supraconducteur dans un circuit électrique. Le modèle numérique a ensuite été utilisé pour des études quantitatives d'une part, puis qualitatives d'autre part. Une étude détaillée, en champ propre, sur un fil OPIT de Bi-2223 a été menée numériquement, analytiquement et expérimentalement. Ceci a permis de valider l'hypothèse du couplage entre les filaments et a également été l'occasion de comprendre la méthode électrique de mesure de pertes. Le cas d'une bobine possédant deux couches de fils supraconducteurs a ensuite été étudiée. Un modèle analytique de calcul des pertes pour une bobine possédant n couches a alors été développé. Toutes les études de ce mémoire ont également permis de mieux cerner le domaine de validité du modèle de Bean. Les limites d'une loi en puissance avec un courant critique indépendant de l'induction et de la température sont également apparues.

APA, Harvard, Vancouver, ISO, and other styles

2

GIROTTO, IVAN. "Studio della Fisica delle Emulsioni tramite l'utilizzo di Calcolo ad Alte Prestazioni." Doctoral thesis, Università degli studi di Modena e Reggio Emilia, 2021. http://hdl.handle.net/11380/1251098.

Full text

Abstract:

In questo progetto di tesi abbiamo utilizzato codici altamente ottimizzati, basati su metodo Lattice Boltzmann (LBM), per studiare la fisica di fluidi complessi in 3-dimensioni. Inizialmente, abbiamo sviluppato una applicazione che scala su decine di migliaia di processori, e che implementa un metodo altamente ottimizzato ed efficiente di accesso ai dati in memoria. In particolare, abbiamo ingegnerizzato ed analizzato in dettaglio due nuove strutture dati, aumentando significativamente le potenzialità di vettorizzazione del codice da parte del compilatore, rendendo il codice binario risultante molto più efficiente su architetture basate su tecnologia x86-64, soprattutto se confrontate con strutture dati più comuni come array di strutture (AoS) o strutture di array (SoA). Questo lavoro innovativo nell'ambito di codici basati su LBM, ha consentito di aggiudicarsi due progetti PRACE per centinaia di migliaia di ore calcolo su sistemi HPC europei di tipo Tier-0, come il sistema Marconi CINECA) ed il sistema MareNostrum (BSC). A completamento del lavoro di implementazione, abbiamo anche effettuato una accurata analisi delle prestazioni e del consumo energetico delle nuove strutture dati, rispetto alle architetture presenti sui due supercalcolatori sui quelli ci è stato aggiudicato l'accesso: l'architettura Intel KNL ed Intel Skylake, rispettivamente ai sistemi sopracitati. Per finire, abbiamo anche eseguito il porting del codice su architetture ibride CPU e GPU, come il nuovo sistema Marconi-100 installato di recente al CINECA. È stato implementato e validato il modello Shan-Chen per fluidi multicomponente con interazione al secondo vicino. Questo ha permesso di modellare la dinamica di un fluido a due componenti non immiscibili, caratterizzati da tensione superficiale e una forzante repulsiva tra i due liquidi presenti. L'emulsione viene sottoposta ad una forzante esterna al sistema, che simula la funzione di agitazione, tipica in simulazioni di fluidi turbolenti. Con il codice sviluppato abbiamo iniziato ad esplorare la fisica dell'emulsione: dalla fase iniziale di rottura dell'interfaccia tra i due fluidi, alla fase di mescolamento e, per finire, la fase di riposo in cui la forzante esterna viene spenta, consentendo all'emulsione di compattarsi. Abbiamo effettuato un numero elevato di simulazioni che ci hanno consentito di effettuare una serie di misure quantitative sulla morfologia del sistema, cosi come di effettuarne alcune stime iniziali sull'energia. Questo tipo di analisi sono state effettuate su diversi sistemi, variandone soprattutto la percentuale di volume della componente presente in forma di gocce sparse all'interno di un fluido continuo. Con questo sistema ci siamo potuti spingere fino a creare emulsioni in cui il volume delle gocce sfiora l'80%, limite riportato anche da studi sperimentali. A queste percentuali l'emulsione presenta alta densità e forte pressione tra le gocce, che mostrano una forma non sferica, caratterizzando la composizione di un fluido complesso. Questa analisi è stata effettuata sia osservando l'influenza della forzante esterna rispetto alla composizione finale del fluido, che analizzando come la composizione finale del fluido ne caratterizza il comportamento quando l'emulsione ottenuta è sottoposta ad un flusso esterno (test di Kolmogorov). Le simulazioni effettuate hanno inoltre mostrato come le emulsioni dense siano sistemi fragili e delicati, essendo difficili da ottenere senza incorrere nel problema di inversione di fase. Nella seconda parte del progetto abbiamo ingegnerizzato ed implementato metodo di tracciamento delle gocce all'interno dell'emulsione, che consente di definirne il profilo lagrangiano di ogni singola goccia quando il sistema viene sottoposto ad una forzante
In this project we employed highly optimized codes, based on the multicomponent Lattice Boltzmann model (LBM), to explore the physics of complex fluids in 3-dimensions. We first implemented an LBM based application which delivers good scaling performances on distributed systems while optimising the memory access through a data organisation that enables high computing efficiency. In particular, we first introduced and then deeply analysed, two new clustered data layouts which, enhancing compiler vectorizazion, demonstrated to deliver high-performance on modern x86-64 CPUs, if compared with legacy data layouts typically adopted for LBM based codes such as arrays of structures (AoS) or structures of arrays (SoA). This work aided the award of two PRACE projects for approximately hundreds of millions of core-hours distributed among two major European Tier-0 systems for high-performance computing such as the Marconi at CINECA and the MareNostrum at the Barcelona Supercomputing Centre (BSC). We performed a detailed analysis of the computing performance and energy efficiency on both the CPU systems which equipped those supercomputers: the Intel KNL and the more recent Intel Skylake processor, respectively. In the ultimate stage of the project we also extended the implemented model to run on multi-GPU distributed systems such as the Marconi-100 at CINECA. We implemented and validated the well-established Shan-Chen multicomponent LBM with second neighbour coupling. This allows to model the dynamics of two immiscible fluids characterized by a surface tension as well as by a disjoing pressure between them. The emulsion is stirred via a large scale forcing mimicking a classical stirring often used in spectral simulation of turbulent flows. With the implemented numerical models, we started to explore the physics of complex fluid emulsions: from the phase of turbulent stirring where the emulsion is produced, to the resting phase where the resulting emulsion is in jammed state. In particular, we performed several simulations to achieve a first qualitative measurements on the morphology of the system (i.e., number of droplets, average volume of the droplets, average surface, PDFs of volume and surface) as well as some initial estimation of the energy. We made the analysis at different volume fractions and by pushing the dispersed phase up to about 80%, limit reported by experiments. We observed how the resulting highly-packed emulsions bring up rich phenomenology showing non-spherical droplets, and while presenting feature of a solid in resting phase but still flowing as a fluid if subjected to a forcing. We have analysed the behaviour of the system looking at both, the influence of the flow on the morphology, by stirring at different forcing amplitudes, and the influence of morphology on the flow, by performing Kolmogorov rheology tests on jammed emulsions at different volume fractions. Emulsions are remarkable systems presenting an extremely interesting phenomenology but at the same time being really fragile. Indeed, we have experimented the difficulties of finding the equilibrium between the rate of pushing higher volume fraction and the correct stirring amplitude to achieve turbulence without facing the problem of catastrophic phase inversion. In the second part of the project we engineer and added to the implemented LBM based code a method for tracking all droplets present in a 3-dimensional emulsion at high-resolution, obtaining a Lagrangian profile of all droplets in the dispersed phase of the emulsion both when exposed to large-scale stirring and when the forcing is turn off

APA, Harvard, Vancouver, ISO, and other styles

3

Masini, Filippo. "Coca cola hbc italia: Modello per il calcolo di inventory stock target e production cycles ottimali." Master's thesis, Alma Mater Studiorum - Università di Bologna, 2014. http://amslaurea.unibo.it/8060/.

Full text

APA, Harvard, Vancouver, ISO, and other styles

4

Capra, Antoine. "Virtualisation en contexte HPC." Thesis, Bordeaux, 2015. http://www.theses.fr/2015BORD0436/document.

Full text

Abstract:

Afin de répondre aux besoins croissants de la simulation numérique et de rester à la pointe de la technologie, les supercalculateurs doivent d’être constamment améliorés. Ces améliorations peuvent être d’ordre matériel ou logiciel. Cela force les applications à s’adapter à un nouvel environnement de programmation au fil de son développement. Il devient alors nécessaire de se poser la question de la pérennité des applications et de leur portabilité d’une machine à une autre. L’utilisation de machines virtuelles peut être une première réponse à ce besoin de pérennisation en stabilisant les environnements de programmation. Grâce à la virtualisation, une application peut être développée au sein d’un environnement figé, sans être directement impactée par l’environnement présent sur une machine physique. Pour autant, l’abstraction supplémentaire induite par les machines virtuelles entraine en pratique une perte de performance. Nous proposons dans cette thèse un ensemble d’outils et de techniques afin de permettre l’utilisation de machines virtuelles en contexte HPC. Tout d’abord nous montrons qu’il est possible d’optimiser le fonctionnement d’un hyperviseur afin de répondre le plus fidèlement aux contraintes du HPC que sont : le placement des fils d’exécution et la localité mémoire des données. Puis en s’appuyant sur ce résultat, nous avons proposé un service de partitionnement des ressources d’un noeud de calcul par le biais des machines virtuelles. Enfin, pour étendre nos travaux à une utilisation pour des applications MPI, nous avons étudié les solutions et performances réseau d’une machine virtuelle
To meet the growing needs of the digital simulation and remain at the forefront of technology, supercomputers must be constantly improved. These improvements can be hardware or software order. This forces the application to adapt to a new programming environment throughout its development. It then becomes necessary to raise the question of the sustainability of applications and portability from one machine to another. The use of virtual machines may be a first response to this need for sustaining stabilizing programming environments. With virtualization, applications can be developed in a fixed environment, without being directly impacted by the current environment on a physical machine. However, the additional abstraction induced by virtual machines in practice leads to a loss of performance. We propose in this thesis a set of tools and techniques to enable the use of virtual machines in HPC context. First we show that it is possible to optimize the operation of a hypervisor to respond accurately to the constraints of HPC that are : the placement of implementing son and memory data locality. Then, based on this, we have proposed a resource partitioning service from a compute node through virtual machines. Finally, to expand our work to use for MPI applications, we studied the network solutions and performance of a virtual machine

APA, Harvard, Vancouver, ISO, and other styles

5

Chatelain, Yohan. "Outils de débogage et d'optimisation des calculs flottants dans le contexte HPC." Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLV096.

Full text

Abstract:

Le Calcul Haute Performance (HPC) est un écosystème dynamique où architectures et codes de calcul scientifiques sont en co-évolution permanente (parallélisme, accélérateurs spécialisés, nouvelles mémoires).Ce dynamisme impose aux développeurs d'adapter leur logiciel régulièrement pour exploiter au mieux tous les nouveaux ressorts technologiques.En cela, les approches de co-design consistant à développer simultanément le logiciel et le matériel sont une voie intéressante.Néanmoins, les efforts de co-design dans le HPC ont surtout été concentrés sur la performance des applications en laissant un peu de côté l'objectif de qualité numérique.Or celle ci est de plus en plus difficile à maintenir d'une génération de supercalculateur à l'autre en raison de la complexité croissante des architectures et des modèles de programmation parallèles. A cela s'ajoute de nouveaux formats de calcul flottants (bfloat16, binary16) qu'il faut réussir à exploiter lors du processus de modernisation.Ces constats posent deux problématiques :1) Comment vérifier la qualité numérique des codes lors du processus de modernisation ? Cela nécessite des outils qui permettent, à la fois d'identifier rapidement des sources d'erreurs numériques mais qui doivent également être simple d'utilisation pour des utilisateurs non-experts.2) Comment tirer parti des nouvelles possibilités qu'offre le matériel ?Les possibilités d'applications sont nombreuses et amènent donc à un espace considérable de solutions possibles. Les solutions trouvées sont le résultat d'un compromis entre performance de l'application et qualité numérique des calculs mais également reproductibilité des résultats.Dans cette thèse, nous avons contribué au logiciel Verificarlo qui aide à la détection d'erreurs numériques en injectant divers modèles de bruit dans les calculs flottants. Plus précisément, nous avons développé une approche permettant d'étudier l'évolution des erreurs numérique au cours du temps. Cet outil est basé sur la génération de traces numériques qui permettent de suivre la qualité numérique des variables au cours du temps. Ces traces sont enrichies par des informations de contexte récupérées lors de la compilation puis peuvent être ensuite visualisées de manière élégante.Nous avons également contribué à VPREC, un modèle de calcul simulant des formats de taille variable. Cet outil a été utilisé pour répondre au problème d'optimisation de formats dans les schémas itératifs. L'optimisation proposée est temporelle puisqu'elle optimise la précision de calcul pour chaque pas de temps.Enfin, une contrainte majeure dans l'élaboration d'outils pour le HPC est la mise à l'échelle. En effet, la taille des codes et la quantité de calcul mis en jeux accroissent drastiquement la complexité des analyses et limitent les approches conventionnelles. Nous avons démontré que les techniques développés dans cette thèse sont applicables sur des codes industriels puisqu'ils ont permis de, premièrement, détecter et corriger une erreur numérique dans le code ABINIT (code ab initio de chimie quantique développé par le CEA et al.). Secondement, ces outils ont permis de réduire la précision de calcul de YALES2 (code de mécanique des fluides développé par le CORIA) et améliorer les performance en réduisant le volumes des communications de 28% et accélérer jusqu'à 1,30 fois l’exécution
High Performance Computing (HPC) is a dynamic ecosystem where scientific computing architectures and codes are in permanent co-evolution (parallelism, specialized accelerators, new memories).This dynamism requires developers to adapt their software regularly to exploit all the new technological innovations.For this purpose, co-design approaches consisting of simultaneously developing software and hardware are an interesting approach.Nevertheless, co-design efforts have mainly focused on application performance without necessarily taking into account the numerical quality.However, this is becoming increasingly difficult to maintain from one generation of supercomputer to the next due to the increased complexity of the hardware and the parallel programming models. In addition, there are new floating point computation formats (bfloat16, binary16) that should be harnessed during the modernization process.These findings raise two issues:1) How to check the digital quality of codes during the modernization process? This requires tools that allow both to quickly identify sources of numerical errors and to be user-friendly for non-expert users.2) How can we take advantage of the new possibilities offered by the equipment?The applications possibilities are manifold and therefore lead to a considerable space of possible solutions. The solutions found are the result of a compromise between the performance of the application and the numerical quality of the computations, but also the reproducibility of the results.In this thesis, we contributed to the Verificarlo software that helps to detect numerical errors by injecting various noise models into floating computations. More precisely, we have developed an approach to study the evolution of numerical errors over time. This tool is based on the generation of numerical traces that allow the numerical quality of the variables to be tracked over time. These traces are enriched by context information retrieved during compilation and can then be viewed in an elegant way.We also contributed to VPREC, a computation model simulating formats of varying sizes. This tool has been used to address the problem of format optimization in iterative schemes. The proposed optimization is temporal since it optimizes the computation precision for each time step.Finally, a major constraint in the development of tools for HPC is the scaling up. Indeed, the size of the codes and the number of computations involved drastically increase the complexity of the analyses and limit conventional approaches. We have demonstrated that the techniques developed in this thesis are applicable to industrial codes since they have made it possible, first, to detect and correct a numerical error in the ABINIT code (ab initio code for quantum chemistry developed by the CEA et al.). Secondly, these tools have reduced the computation accuracy of YALES2 (fluid mechanics code developed by CORIA) and improved performance by reducing communication volumes by 28% and accelerating execution up to 1.30 times

APA, Harvard, Vancouver, ISO, and other styles

6

Magnani, Simone. "analisi delle prestazioni del sistema grafico videocore iv applicato al calcolo generico." Bachelor's thesis, Alma Mater Studiorum - Università di Bologna, 2019. http://amslaurea.unibo.it/19100/.

Full text

Abstract:

Il calcolo parallelo rappresenta una risorsa per ridurre i tempi di esecuzione di un qualsiasi problema numerico. Storicamente i programmi erano scritti per essere eseguiti sequenzialmente da una sola unità di calcolo, ad esempio una singola CPU. Le singole unità di calcolo però non erano sempre sufficientemente potenti per eseguire, in un tempo consono, una grande quantità di operazioni. L’idea alla base del calcolo parallelo è di suddividere il lavoro su più unità di calcolo in modo da ridurre il tempo necessario per svolgere la computazione. Portando un esempio più vicino alla quotidianità di tutti, è come avere un lavoro che necessita di molto tempo per essere svolto, così si decide di suddividere il lavoro in sotto-problemi e assegnare ognuno di questi a una persona. Il calcolo parallelo mira proprio a una gestione di problemi complessi dividendoli in sotto-problemi, poi facendo in modo che le unità di calcolo designate collaborino ed eseguano la propria parte per trovare la soluzione. Esistono due macro tipi di unità di calcolo: CPU e GPU; le prime sono più veloci ma con meno possibilità di parallelizzazione, al contrario le GPU sono generalmente più lente ma con un numero di ALU molto maggiore. In particolare verrà confrontato l’uso della GPU rispetto alla CPU su un Raspberry Pi: ovvero una scheda single-board economica, ma abbastanza potente da essere un buono strumento per un programmatore esperto, e un ottimo strumento per chi vuole avvicinarsi alla programmazione parallela.

APA, Harvard, Vancouver, ISO, and other styles

7

Pourroy, Jean. "Calcul Haute Performance : Caractérisation d’architectures et optimisation d’applications pour les futures générations de supercalculateurs." Thesis, université Paris-Saclay, 2020. http://www.theses.fr/2020UPASM028.

Full text

Abstract:

Les systèmes d'information et les infrastructures de Calcul Haute Performance (HPC) participent activement à l'amélioration des connaissances scientifiques et à l'évolution de nos sociétés. Le domaine du HPC est en pleine expansion et les utilisateurs ont besoin d'architectures de plus en plus puissantes pour analyser le tsunami de données (simulations numériques, objets connectés), prendre des décisions plus complexes (intelligence artificielle), et plus rapides (voitures connectées, météo).Dans ce travail de thèse, nous discutons des différents challenges à relever (consommation électrique, coût, complexité) pour l’élaboration des nouvelles générations de supercalculateurs Exascale. Alors que les applications industrielles ne parviennent pas à utiliser plus de 10% des performances théoriques, nous montrons la nécessité de repenser l’architecture des plateformes, en utilisant notamment des architectures énergétiquement optimisées. Nous présentons alors certaines technologies émergentes permettant leur développement : les mémoires 3D (HBM), la Storage Class Memory (SCM) ou les technologies d’interconnexions photoniques. Ces nouvelles technologies associées à un nouveau protocole de communication (Gen-Z) vont permettre d’exécuter de façon optimale les différentes parties d’une application. Cependant, en l'absence de méthode de caractérisation fine de la performance des codes, ces architectures innovantes sont potentiellement condamnées puisque peu d'experts savent les valoriser.Notre contribution consiste au développement d'une suite de codes (micro-benchmarks) et d’outils d'analyse de performance. Les premiers ont pour objectifs de caractériser finement certaines parties de la microarchitecture. Deux microbenchmarks ont ainsi été développés pour caractériser le système mémoire et les unités de calculs. La deuxième famille d’outils permet d’étudier la performance des applications. Un premier outil permet de suivre l’évolution du trafic du bus mémoire, ressource critique des architectures. Un second outil permet d’obtenir le profil des applications en extrayant et caractérisant les boucles critiques (hot spots).Pour profiter de l’hétérogénéité des plateformes, nous proposons une méthodologie en 5 étapes permettant d’identifier et de caractériser ces nouvelles plateformes, de modéliser les performances d'une application, et enfin de porter son code sur l'architecture choisie. Enfin, nous montrons comment les outils permettent d’accompagner les développeurs pour extraire le maximum des performances d’une architecture. En proposant nos outils en « sources ouvertes », nous souhaitons sensibiliser les utilisateurs à cette démarche et développer une communauté autour du travail de caractérisation et d’analyse de performance
Information systems and High-Performance Computing (HPC) infrastructures play an active role in the improvement of scientific knowledge and the evolution of our societies. The field of HPC is expanding rapidly and users need increasingly powerful architectures to analyze the tsunami of data (numerical simulations, IOT), to make more complex decisions (artificial intelligence), and to make them faster (connected cars, weather).In this thesis work, we discuss several challenges (power consumption, cost, complexity) for the development of new generations of Exascale supercomputers. While industrial applications do not manage to achieve more than 10% of the theoretical performance, we show the need to rethink the architecture of platforms, in particular by using energy-optimized architectures. We then present some of the emerging technologies that will allow their development: 3D memories (HBM), Storage Class Memory (SCM) or photonic interconnection technologies. These new technologies associated with a new communication protocol (Gen-Z) will help to optimally execute the different parts of an application. However, in the absence of a method for fine characterization of code performance, these emerging architectures are potentially condemned since few experts know how to exploit them.Our contribution consists in the development of benchmarks and performance analysis tools. The first aim is to finely characterize specific parts of the microarchitecture. Two microbenchmarks have thus been developed to characterize the memory system and the floating point unit (FPU). The second family of tools is used to study the performance of applications. A first tool makes it possible to monitor the memory bus traffic, a critical resource of modern architectures. A second tool can be used to profile applications by extracting and characterizing critical loops (hot spots).To take advantage of the heterogeneity of platforms, we propose a 5-step methodology to identify and characterize these new platforms, to model the performance of an application, and finally to port its code to the selected architecture. Finally, we show how the tools can help developers to extract the maximum performance from an architecture. By providing our tools in open source, we want to sensitize users to this approach and develop a community around the work of performance characterization and analysis

APA, Harvard, Vancouver, ISO, and other styles

8

Bruned, Vianney. "Analyse statistique et interprétation automatique de données diagraphiques pétrolières différées à l’aide du calcul haute performance." Thesis, Montpellier, 2018. http://www.theses.fr/2018MONTS064.

Full text

Abstract:

Dans cette thèse, on s'intéresse à l’automatisation de l’identification et de la caractérisation de strates géologiques à l’aide des diagraphies de puits. Au sein d’un puits, on détermine les strates géologiques grâce à la segmentation des diagraphies assimilables à des séries temporelles multivariées. L’identification des strates de différents puits d’un même champ pétrolier nécessite des méthodes de corrélation de séries temporelles. On propose une nouvelle méthode globale de corrélation de puits utilisant les méthodes d’alignement multiple de séquences issues de la bio-informatique. La détermination de la composition minéralogique et de la proportion des fluides au sein d’une formation géologique se traduit en un problème inverse mal posé. Les méthodes classiques actuelles sont basées sur des choix d’experts consistant à sélectionner une combinaison de minéraux pour une strate donnée. En raison d’un modèle à la vraisemblance non calculable, une approche bayésienne approximée (ABC) aidée d’un algorithme de classification basé sur la densité permet de caractériser la composition minéralogique de la couche géologique. La classification est une étape nécessaire afin de s’affranchir du problème d’identifiabilité des minéraux. Enfin, le déroulement de ces méthodes est testé sur une étude de cas
In this thesis, we investigate the automation of the identification and the characterization of geological strata using well logs. For a single well, geological strata are determined thanks to the segmentation of the logs comparable to multivariate time series. The identification of strata on different wells from the same field requires correlation methods for time series. We propose a new global method of wells correlation using multiple sequence alignment algorithms from bioinformatics. The determination of the mineralogical composition and the percentage of fluids inside a geological stratum results in an ill-posed inverse problem. Current methods are based on experts’ choices: the selection of a subset of mineral for a given stratum. Because of a model with a non-computable likelihood, an approximate Bayesian method (ABC) assisted with a density-based clustering algorithm can characterize the mineral composition of the geological layer. The classification step is necessary to deal with the identifiability issue of the minerals. At last, the workflow is tested on a study case

APA, Harvard, Vancouver, ISO, and other styles

9

Honore, Valentin. "Convergence HPC - Big Data : Gestion de différentes catégories d'applications sur des infrastructures HPC." Thesis, Bordeaux, 2020. http://www.theses.fr/2020BORD0145.

Full text

Abstract:

Le calcul haute performance est un domaine scientifique dans lequel de très complexes et intensifs calculs sont réalisés sur des infrastructures de calcul à très large échelle appelées supercalculateurs. Leur puissance calculatoire phénoménale permet aux supercalculateurs de générer un flot de données gigantesque qu'il est aujourd'hui difficile d'appréhender, que ce soit d'un point de vue du stockage en mémoire que de l'extraction des résultats les plus importants pour les applications.Nous assistons depuis quelques années à une convergence entre le calcul haute performance et des domaines tels que le BigData ou l'intelligence artificielle qui voient leurs besoins en terme de capacité de calcul exploser. Dans le cadre de cette convergence, une grande diversité d'applications doit être traitée par les ordonnanceurs des supercalculateurs, provenant d'utilisateurs de différents horizons pour qui il n'est pas toujours aisé de comprendre le fonctionnement de ces infrastructures pour le calcul distribué.Dans cette thèse, nous exposons des solutions d'ordonnancement et de partitionnement de ressources pour résoudre ces problématiques. Pour ce faire, nous proposons une approche basée sur des modèles mathématiques qui permet d'obtenir des solutions avec de fortes garanties théoriques de leu performance. Dans ce manuscrit, nous nous focalisons sur deux catégories d'applications qui s'inscrivent en droite ligne avec la convergence entre le calcul haute performance et le BigData:les applications intensives en données et les applications à temps d'exécution stochastique.Les applications intensives en données représentent les applications typiques du domaine du calcul haute performance. Dans cette thèse, nous proposons d'optimiser cette catégorie d'applications exécutées sur des supercalculateurs en exposant des méthodes automatiques de partitionnement de ressources ainsi que des algorithmes d'ordonnancement pour les différentes phases de ces applications. Pour ce faire, nous utilisons le paradigme in situ, devenu à ce jour une référence pour ces applications. De nombreux travaux se sont attachés à proposer des solutions logicielles pour mettre en pratique ce paradigme pour les applications. Néanmoins, peu de travaux ont étudié comment efficacement partager les ressources de calcul les différentes phases des applications afin d'optimiser leur temps d'exécution.Les applications stochastiques constituent la deuxième catégorie d'applications que nous étudions dans cette thèse. Ces applications ont un profil différent de celles de la première partie de ce manuscrit. En effet, contrairement aux applications de simulation numérique, ces applications présentent de fortes variations de leur temps d'exécution en fonction des caractéristiques du jeu de données fourni en entrée. Cela est dû à leur structure interne composée d'une succession de fonctions, qui diffère des blocs de code massifs composant les applications intensive en données.L'incertitude autour de leur temps d'exécution est une contrainte très forte pour lancer ces applications sur les supercalculateurs. En effet, l'utilisateur doit réserver des ressources de calcul pour une durée qu'il ne connait pas. Dans cette thèse, nous proposons une approche novatrice pour aider les utilisateurs à déterminer une séquence de réservations optimale qui minimise l'espérance du coût total de toutes les réservations. Ces solutions sont par la suite étendues à un modèle d'applications avec points de sauvegarde à la fin de (certaines) réservations afin d'éviter de perdre le travail réalisé lors des réservations trop courtes. Enfin, nous proposons un profiling d'une application stochastique issue du domaine des neurosciences afin de mieux comprendre les propriétés de sa stochasticité. A travers cette étude, nous montrons qu'il est fondamental de bien connaître les caractéristiques des applications pour qui souhaite élaborer des stratégies efficaces du point de vue de l'utilisateur
Numerical simulations are complex programs that allow scientists to solve, simulate and model complex phenomena. High Performance Computing (HPC) is the domain in which these complex and heavy computations are performed on large-scale computers, also called supercomputers.Nowadays, most scientific fields need supercomputers to undertake their research. It is the case of cosmology, physics, biology or chemistry. Recently, we observe a convergence between Big Data/Machine Learning and HPC. Applications coming from these emerging fields (for example, using Deep Learning framework) are becoming highly compute-intensive. Hence, HPC facilities have emerged as an appropriate solution to run such applications. From the large variety of existing applications has risen a necessity for all supercomputers: they mustbe generic and compatible with all kinds of applications. Actually, computing nodes also have a wide range of variety, going from CPU to GPU with specific nodes designed to perform dedicated computations. Each category of node is designed to perform very fast operations of a given type (for example vector or matrix computation).Supercomputers are used in a competitive environment. Indeed, multiple users simultaneously connect and request a set of computing resources to run their applications. This competition for resources is managed by the machine itself via a specific program called scheduler. This program reviews, assigns andmaps the different user requests. Each user asks for (that is, pay for the use of) access to the resources ofthe supercomputer in order to run his application. The user is granted access to some resources for a limited amount of time. This means that the users need to estimate how many compute nodes they want to request and for how long, which is often difficult to decide.In this thesis, we provide solutions and strategies to tackle these issues. We propose mathematical models, scheduling algorithms, and resource partitioning strategies in order to optimize high-throughput applications running on supercomputers. In this work, we focus on two types of applications in the context of the convergence HPC/Big Data: data-intensive and irregular (orstochastic) applications.Data-intensive applications represent typical HPC frameworks. These applications are made up oftwo main components. The first one is called simulation, a very compute-intensive code that generates a tremendous amount of data by simulating a physical or biological phenomenon. The second component is called analytics, during which sub-routines post-process the simulation output to extract,generate and save the final result of the application. We propose to optimize these applications by designing automatic resource partitioning and scheduling strategies for both of its components.To do so, we use the well-known in situ paradigm that consists in scheduling both components together in order to reduce the huge cost of saving all simulation data on disks. We propose automatic resource partitioning models and scheduling heuristics to improve overall performance of in situ applications.Stochastic applications are applications for which the execution time depends on its input, while inusual data-intensive applications the makespan of simulation and analytics are not affected by such parameters. Stochastic jobs originate from Big Data or Machine Learning workloads, whose performanceis highly dependent on the characteristics of input data. These applications have recently appeared onHPC platforms. However, the uncertainty of their execution time remains a strong limitation when using supercomputers. Indeed, the user needs to estimate how long his job will have to be executed by the machine, and enters this estimation as his first reservation value. But if the job does not complete successfully within this first reservation, the user will have to resubmit the job, this time requiring a longer reservation

APA, Harvard, Vancouver, ISO, and other styles

10

Colin, de Verdière Guillaume. "A la recherche de la haute performance pour les codes de calcul et la visualisation scientifique." Thesis, Reims, 2019. http://www.theses.fr/2019REIMS012/document.

Full text

Abstract:

Cette thèse vise à démontrer que l'algorithmique et la programmation, dans un contexte de calcul haute performance (HPC), ne peuvent être envisagées sans tenir compte de l'architecture matérielle des supercalculateurs car cette dernière est régulièrement remise en cause.Après avoir rappelé quelques définitions relatives aux codes et au parallélisme, nous montrons que l'analyse des différentes générations de supercalculateurs, présents au CEA lors de ces 30 dernières années, permet de dégager des points de vigilances et des recommandations de bonnes pratiques en direction des développeurs de code.En se reposant sur plusieurs expériences, nous montrons comment viser une performance adaptée aux supercalculateurs et comment essayer d'atteindre la performance portable voire la performance extrême dans le monde du massivement parallèle, incluant ou non l'usage de GPU.Nous expliquons que les logiciels et matériels dédiés au dépouillement graphique des résultats de calcul suivent les mêmes principes de parallélisme que pour les grands codes scientifiques, impliquant de devoir maîtriser une vue globale de la chaîne de simulation. Enfin, nous montrons quelles sont les tendances et contraintes qui vont s'imposer à la conception des futurs supercalculateurs de classe exaflopique, impactant de fait le développement des prochaines générations de codes de calcul
This thesis aims to demonstrate that algorithms and coding, in a high performance computing (HPC) context, cannot be envisioned without taking into account the hardware at the core of supercomputers since those machines evolve dramatically over time. After setting a few definitions relating to scientific codes and parallelism, we show that the analysis of the different generations of supercomputer used at CEA over the past 30 years allows to exhibit a number of attention points and best practices toward code developers.Based on some experiments, we show how to aim at code performance suited to the usage of supercomputers, how to try to get portable performance and possibly extreme performance in the world of massive parallelism, potentially using GPUs.We explain that graphical post-processing software and hardware follow the same parallelism principles as large scientific codes, requiring to master a global view of the simulation chain.Last, we describe tendencies and constraints that will be forced on the new generations of exaflopic class supercomputers. These evolutions will, yet again, impact the development of the next generations of scientific codes

APA, Harvard, Vancouver, ISO, and other styles

11

Albert, Jérémie. "Modèle de calcul, primitives, et applications de référence, pour le domaine des réseaux ad hoc fortement mobiles." Thesis, Bordeaux 1, 2010. http://www.theses.fr/2010BOR14169/document.

Full text

Abstract:

Les réseaux ad hoc dynamiques qui évoluent de manière non planiﬁée et imprévisible sont souvent étudiés en faisant l’hypothèse d’une composition et d’une topologie qui évoluent peu et relativement lentement. Il est alors possible de proposer dans ce contexte faiblement mobile des mécanismes (comme par exemple du routage, des infrastructures PKI, etc.) qui permettent aux applications conçues pour les réseaux statiques de continuer à fonctionner. Les travaux présentés dans cette thèse sont au contraire centrés sur lesréseaux ad hoc fortement dynamiques (iMANets). Les nœuds qui les constituent sont extrêmement mobiles et volatils, ce qui engendre des modifications incessantes et rapides de topologie. Les contributions principales de cette thèse sont (i) la définition d’une algèbre nommée CiMAN (Calculus for highly Mobile Ad hoc Networks) qui permet de modéliser les processus communicants dans ces réseaux ad hoc fortement mobiles, (ii) l’utilisation de cette algèbre pour prouver la correction d’algorithmes dédiés à ces réseaux, et (iii) unmiddleware et des applications de référence adaptés à ce contexte
Mobile ad hoc networks that evolve in an unplanned and unpredictable mannerare often studied assuming that their composition and their topology evolve relatively slowly. In this context of weak mobility, it is then possible to propose mechanisms (such asrouting, Public Key Infrastructure, etc.) which make the application designed for a static context still operational. At the opposite, the work presented in this thesis focuses on highlymobile ad hoc networks (iMANets). The nodes of these networks are extremely mobile,bringing ceaseless and fast changes in the network topology. The main contributions of this thesis are (i) the deﬁnition of an algebra called CiMAN (Calculus for highly Mobile Adhoc Networks) which makes it possible to model communicating processes in these highly mobile ad hoc networks, (ii) the use of this algebra to prove the correctness of algorithms dedicated to these networks, and (iii) a middleware and reference applications speciﬁcally designed for this context

APA, Harvard, Vancouver, ISO, and other styles

12

Casteigts, Arnaud. "Contribution à l'algorithmique distribuée dans les réseaux mobiles ad hoc - Calculs locaux et réétiquetages de graphes dynamiques." Phd thesis, Université Sciences et Technologies - Bordeaux I, 2007. http://tel.archives-ouvertes.fr/tel-00193181.

Full text

Abstract:

Les réseaux mobiles ad hoc sont par nature instables et imprévisibles. De ces caractéristiques découle la difficulté à concevoir et analyser des algorithmes distribués garantissant certaines propriétés. C'est sur ce point que porte la contribution majeure de cette thèse. Pour amorcer cette étude, nous avons étudié quelques problèmes fondamentaux de l'algorithmique distribuée dans ce type d'environnement. Du fait de la nature de ces réseaux, nous avons considéré des modèles de calculs locaux, où chaque étape ne fait collaborer que des n\oe uds directement voisins. Nous avons notamment proposé un nouveau cadre d'analyse, combinant réétiquetages de graphes dynamiques et graphes évolutifs (modèle combinatoire pour les réseaux dynamiques). Notre approche permet de caractériser les conditions de succès ou d'échec d'un algorithme en fonction de la dynamique du réseau, autrement dit, en fonction de conditions nécessaires et/ou suffisantes sur les graphes évolutifs correspondants. Nous avons également étudié la synchronisation sous-jacente aux calculs, ainsi que la manière dont une application réelle peut reposer sur un algorithme de réétiquetage. Un certain nombre de logiciels ont également été réalisés autour de ces travaux, notamment un simulateur de réétiquetage de graphes dynamiques et un vérificateur de propriétés sur les graphes évolutifs.

APA, Harvard, Vancouver, ISO, and other styles

13

Saillard, Emmanuelle. "Static/Dynamic Analyses for Validation and Improvements of Multi-Model HPC Applications." Thesis, Bordeaux, 2015. http://www.theses.fr/2015BORD0176/document.

Full text

Abstract:

L’utilisation du parallélisme des architectures actuelles dans le domaine du calcul hautes performances, oblige à recourir à différents langages parallèles. Ainsi, l’utilisation conjointe de MPI pour le parallélisme gros grain, à mémoire distribuée et OpenMP pour du parallélisme de thread, fait partie des pratiques de développement d’applications pour supercalculateurs. Des erreurs, liées à l’utilisation conjointe de ces langages de parallélisme, sont actuellement difficiles à détecter et cela limite l’écriture de codes, permettant des interactions plus poussées entre ces niveaux de parallélisme. Des outils ont été proposés afin de palier ce problème. Cependant, ces outils sont généralement focalisés sur un type de modèle et permettent une vérification dite statique (à la compilation) ou dynamique (à l’exécution). Pourtant une combinaison statique/- dynamique donnerait des informations plus pertinentes. En effet, le compilateur est en mesure de donner des informations relatives au comportement général du code, indépendamment du jeu d’entrée. C’est par exemple le cas des problèmes liés aux communications collectives du modèle MPI. Cette thèse a pour objectif de développer des analyses statiques/dynamiques permettant la vérification d’une application parallèle mélangeant plusieurs modèles de programmation, afin de diriger les développeurs vers un code parallèle multi-modèles correct et performant. La vérification se fait en deux étapes. Premièrement, de potentielles erreurs sont détectées lors de la phase de compilation. Ensuite, un test au runtime est ajouté pour savoir si le problème va réellement se produire. Grâce à ces analyses combinées, nous renvoyons des messages précis aux utilisateurs et évitons les situations de blocage
Supercomputing plays an important role in several innovative fields, speeding up prototyping or validating scientific theories. However, supercomputers are evolving rapidly with now millions of processing units, posing the questions of their programmability. Despite the emergence of more widespread and functional parallel programming models, developing correct and effective parallel applications still remains a complex task. Although debugging solutions have emerged to address this issue, they often come with restrictions. However programming model evolutions stress the requirement for a convenient validation tool able to handle hybrid applications. Indeed as current scientific applications mainly rely on the Message Passing Interface (MPI) parallel programming model, new hardwares designed for Exascale with higher node-level parallelism clearly advocate for an MPI+X solutions with X a thread-based model such as OpenMP. But integrating two different programming models inside the same application can be error-prone leading to complex bugs - mostly detected unfortunately at runtime. In an MPI+X program not only the correctness of MPI should be ensured but also its interactions with the multi-threaded model, for example identical MPI collective operations cannot be performed by multiple nonsynchronized threads. This thesis aims at developing a combination of static and dynamic analysis to enable an early verification of hybrid HPC applications. The first pass statically verifies the thread level required by an MPI+OpenMP application and outlines execution paths leading to potential deadlocks. Thanks to this analysis, the code is selectively instrumented, displaying an error and synchronously interrupting all processes if the actual scheduling leads to a deadlock situation

APA, Harvard, Vancouver, ISO, and other styles

14

Mena, morales Valentin. "Approche de conception haut-niveau pour l'accélération matérielle de calcul haute performance en finance." Thesis, Ecole nationale supérieure Mines-Télécom Atlantique Bretagne Pays de la Loire, 2017. http://www.theses.fr/2017IMTA0018/document.

Full text

Abstract:

Les applications de calcul haute-performance (HPC) nécessitent des capacités de calcul conséquentes, qui sont généralement atteintes à l'aide de fermes de serveurs au détriment de la consommation énergétique d'une telle solution. L'accélération d'applications sur des plateformes hétérogènes, comme par exemple des FPGA ou des GPU, permet de réduire la consommation énergétique et correspond donc à un compromis architectural plus séduisant. Elle s'accompagne cependant d'un changement de paradigme de programmation et les plateformes hétérogènes sont plus complexes à prendre en main pour des experts logiciels. C'est particulièrement le cas des développeurs de produits financiers en finance quantitative. De plus, les applications financières évoluent continuellement pour s'adapter aux demandes législatives et concurrentielles du domaine, ce qui renforce les contraintes de programmabilité de solutions d'accélérations. Dans ce contexte, l'utilisation de flots haut-niveaux tels que la synthèse haut-niveau (HLS) pour programmer des accélérateurs FPGA n'est pas suffisante. Une approche spécifique au domaine peut fournir une réponse à la demande en performance, sans que la programmabilité d'applications accélérées ne soit compromise.Nous proposons dans cette thèse une approche de conception haut-niveau reposant sur le standard de programmation hétérogène OpenCL. Cette approche repose notamment sur la nouvelle implémentation d'OpenCL pour FPGA introduite récemment par Altera. Quatre contributions principales sont apportées : (1) une étude initiale d'intégration de c'urs de calculs matériels à une librairie logicielle de calcul financier (QuantLib), (2) une exploration d'architectures et de leur performances respectives, ainsi que la conception d'une architecture dédiée pour l'évaluation d'option américaine et l'évaluation de volatilité implicite à partir d'un flot haut-niveau de conception, (3) la caractérisation détaillée d'une plateforme Altera OpenCL, des opérateurs élémentaires, des surcouches de contrôle et des liens de communication qui la compose, (4) une proposition d'un flot de compilation spécifique au domaine financier, reposant sur cette dernière caractérisation, ainsi que sur une description des applications financières considérées, à savoir l'évaluation d'options
The need for resources in High Performance Computing (HPC) is generally met by scaling up server farms, to the detriment of the energy consumption of such a solution. Accelerating HPC application on heterogeneous platforms, such as FPGAs or GPUs, offers a better architectural compromise as they can reduce the energy consumption of a deployed system. Therefore, a change of programming paradigm is needed to support this heterogeneous acceleration, which trickles down to an increased level of programming complexity tackled by software experts. This is most notably the case for developers in quantitative finance. Applications in this field are constantly evolving and increasing in complexity to stay competitive and comply with legislative changes. This puts even more pressure on the programmability of acceleration solutions. In this context, the use of high-level development and design flows, such as High-Level Synthesis (HLS) for programming FPGAs, is not enough. A domain-specific approach can help to reach performance requirements, without impairing the programmability of accelerated applications.We propose in this thesis a high-level design approach that relies on OpenCL, as a heterogeneous programming standard. More precisely, a recent implementation of OpenCL for Altera FPGA is used. In this context, four main contributions are proposed in this thesis: (1) an initial study of the integration of hardware computing cores to a software library for quantitative finance (QuantLib), (2) an exploration of different architectures and their respective performances, as well as the design of a dedicated architecture for the pricing of American options and their implied volatility, based on a high-level design flow, (3) a detailed characterization of an Altera OpenCL platform, from elemental operators, memory accesses, control overlays, and up to the communication links it is made of, (4) a proposed compilation flow that is specific to the quantitative finance domain, and relying on the aforementioned characterization and on the description of the considered financial applications (option pricing)

APA, Harvard, Vancouver, ISO, and other styles

15

Christodoulis, Georgios. "Adaption d'un système HPC pour intégrer des FPGAs." Thesis, Université Grenoble Alpes (ComUE), 2019. http://www.theses.fr/2019GREAM061.

Full text

Abstract:

En plus des cœurs de CPU traditionnels, d'autres unités de traitementsont utilisées par la communauté High Performance Computing (HPC) afind'obtenir une efficacité et des performances améliorées. Un FieldProgrammable Gate Arrays (FPGA), est une unité de traitement composée delogique reprogrammable interconnectée et de blocs mémoire.Ce type d'unité de traitement constitue un candidat prometteur pouraméliorer la puissance de calcul de plates-formes HPC car il permet deréduire le nombre de couches d'abstraction entre le niveau deprogrammation et le matériel réel. En contre-partie, l'exploitation deFPGA nécessite une connaissance approfondie de la conception matériellede bas niveau et une grande expertise des outils fournis par lesvendeurs qui ne correspond pas à celle des programmeurs HPC. Nous avons,dans le cadre de cette thèse, conçu un framework permettant undéveloppement simple des applications scientifiques sur des plateformeshétérogènes intégrant des FPGAs. Au cœur de notre framework se trouve lesystème d'exécution hétérogène StarPU, qui a été étendu pour supporterles FPGAs, cachant aux programmeurs des opérations complexes dérivant dela complexité de l'architecture sous-jacente et permettant un contrôlefin de la performance à travers différentes stratégies de planification.Pour la communication avec le FPGA, nous avons créé Conor, unebibliothèque de communication basée sur RIFFA, qui assure la cohérencede l'accélérateur lors de scénarios où les threads logicielsinteragissent simultanément avec le calcul effectué sur le FPGA.Notre approche est évaluée selon deux axes, l'un correspondant à laprogrammabilité et l'autre aux surcoûts imposés par les composantesadditionnelles rattachées au FPGA.La programmabilité du framework a été évaluée à l'aide d'une version parblocs de multiplication de matrice. Cette multiplication de matrice estégalement utilisée pour démontrer que nos extensions à StarPU n'ont pasimposé de surcoût supplémentaires.En plus du premier exemple de multiplication de matrice, nous avons crééune conception matérielle efficace de gemm, qui permettra l'exécutiond'applications plus complexes et intéressantes comme la décomposition deCholesky
Along with the traditional CPU cores, processing units of different architectures have been employed by the HPC community in order to obtain improved efficiency and performance. A Field Programmable Gate Arrays - FPGA, is a hardware fabric composed by interconnected re-programmable logic and memory blocks. This type of processing unit, constitutes promising candidate to amplify the computational power of heterogeneous HPC platforms, since due to the reduced amount of abstraction layers between the level of programming and the actual hardware, they can satisfy the aforementioned objectives.However, exploiting them requires an in-depth knowledge of low-level hardware design and high expertise on vendor-provided tools, which is not aligned with the expertise of HPC application programmers. In the scope of this thesis, we have designed a framework that allows a straightforward development of scientific applications over heterogeneous platforms enhanced with FPGA. The orientation of the work is towards a programming environment that requires the minimum knowledge of the underlying architecture, and an FPGA can be used in the same way as any other accelerator. In the core of the environment, there is the StarPU heterogeneous runtime system, that was extended to support FPGA, hiding from the programmer complex operations deriving from the complexity of the underlying architecture while it allows fine control of the performance through different scheduling strategies.For the communication with the FPGA device, we created Conor, a communication library based on RIFFA, that ensures the consistency of the accelerator during scenarios where software threads are interacting with the last concurrently.Our approach is evaluated across two dimensions, one corresponding to the programmability of the framework, and the other to the performance overhead imposed by the additional components attached to the FPGA.The programmability of the framework was evaluated using a basic blocking version of matrix multiplication, which is also used to demonstrate that our development did not impose any additional overhead to the rest of the platform.On top of the first example of matrix multiplication, we created an efficient hardware design of gemm, that will allow the execution of more complex and interesting applications like the Cholesky decomposition

APA, Harvard, Vancouver, ISO, and other styles

16

Putigny, Bertrand. "Benchmark-driven Approaches to Performance Modeling of Multi-Core Architectures." Phd thesis, Université Sciences et Technologies - Bordeaux I, 2014. http://tel.archives-ouvertes.fr/tel-00984791.

Full text

Abstract:

Ce manuscrit s'inscrit dans le domaine du calcul intensif (HPC) où le besoin croissant de performance pousse les fabricants de processeurs à y intégrer des mécanismes de plus en plus sophistiqués. Cette complexité grandissante rend l'utilisation des architectures compliquée. La modélisation des performances des architectures multi-cœurs permet de remonter des informations aux utilisateurs, c'est à dire les programmeurs, afin de mieux exploiter le matériel. Cependant, du fait du manque de documentation et de la complexité des processeurs modernes, cette modélisation est souvent difficile. L'objectif de ce manuscrit est d'utiliser des mesures de performances de petits fragments de codes afin de palier le manque d'information sur le matériel. Ces expériences, appelées micro-benchmarks, permettent de comprendre les performances des architectures modernes sans dépendre de la disponibilité des documentations techniques. Le premier chapitre présente l'architecture matérielle des processeurs modernes et, en particulier, les caractéristiques rendant la modélisation des performances complexe. Le deuxième chapitre présente une méthodologie automatique pour mesurer les performances des instructions arithmétiques. Les informations trouvées par cette méthode sont la base pour des modèles de calculs permettant de prédire le temps de calcul de fragments de codes arithmétique. Ce chapitre présent également comment de tels modèles peuvent être utilisés pour optimiser l'efficacité énergétique, en prenant pour exemple le processeur SCC. La dernière partie de ce chapitre motive le fait de réaliser un modèle mémoire prenant en compte la cohérence de cache pour prédire le temps d'accès au données. Le troisième chapitre présente l'environnement de développement de micro-benchmark utilisé pour caractériser les hiérarchies mémoires dotées de cohérence de cache. Ce chapitre fait également une étude comparative des performances mémoire de différentes architectures et l'impact sur les performances du choix du protocole de cohérence. Enfin, le quatrième chapitre présente un modèle mémoire permettant la prédiction du temps d'accès aux données pour des applications régulières de type \openmp. Le modèle s'appuie sur l'état des données dans le protocole de cohérence. Cet état évolue au fil de l'exécution du programme en fonction des accès à la mémoire. Pour chaque transition, une fonction de coût est associée. Cette fonction est directement dérivée des résultats des expériences faites dans le troisième chapitre, et permet de prédire le temps d'accès à la mémoire. Une preuve de concept de la fiabilité de ce modèle est faite, d'une part sur les applications d'algèbre et d'analyse numérique, d'autre part en utilisant ce modèle pour modéliser les performance des communications \mpi en mémoire partagée.

APA, Harvard, Vancouver, ISO, and other styles

17

Wanza, Weloli Joël. "Modélisation, simulation de différents types d’architectures de noeuds de calcul basés sur l’architecture ARM et optimisés pour le calcul haute-performance." Thesis, Université Côte d'Azur (ComUE), 2019. http://www.theses.fr/2019AZUR4042.

Full text

Abstract:

Ce travail s’inscrit dans le cadre de la famille de projets Européens Mont-Blanc dont l’objectif est de développer la prochaine génération de systèmes Exascale. Il s’intéresse particulièrement à la question de l’efficacité énergétique, d’abord au niveau micro-architectural en considérant l’utilisation de nœuds de calcul basés sur l’Armv8-A 64-bit associée à une topologie SoC pertinente, puis en examinant les aspects exécutifs notamment par une étude de stratégies de gestion énergétique (power management) mieux adaptées à des contraintes de traitement massivement parallèle. Une méthodologie d’exploration architecturale capable de supporter la simulation de larges clusters de calcul parallèle est définie et exploitée pour proposer, développer et évaluer des modèles multi-SoC et de réseaux de communication associés (SoC Coherent Interconnect, SCI). Cette démarche est ensuite poursuivie pour définir une architecture Exascale permettant de réduire globalement la complexité et les coûts de développement en dégradant le moins possible les performances. Le partitionnement de la puce permet ainsi des possibilités intéressantes au niveau technologique telles que l’intégration de nœuds supplémentaires basée sur des technologies System-in-Package (interposer), ou 3D Through Silicon Vias (TSVs) et High Memory Bandwidth (HBM). En second lieu, les aspects énergétiques sont abordés plus directement par l’étude de politiques de gestion énergétique existantes et en proposant deux stratégies pour permettre réduire la consommation en préservant les performance. La première exploite une perception applicative plus fine pour ajuster la fréquence de nombreuses tâches parallèles et mieux équilibrer leurs temps d’exécution. La seconde stratégie réduit la fréquence des coeurs aux points de synchronisation des tâches pour limiter les fonctionnements inutiles à pleine puissance. Les résultats d’expérimentation obtenus avec ces stratégies, à la fois en simulation et sur plateforme réelle, montrent les possibilités offertes par cette approche pour répondre aux fortes contraintes des plateformes pre-exascale sur le plan énergétique
This work is part of a family of European projects called Mont-Blanc whose objective is to develop the next generation of Exascale systems. It addresses specifically the issue of energy efficiency, at micro-architectural level first by considering the use of 64-bit Armv8-A based compute nodes and an associated relevant SoC topology, and examine also the runtime aspects with notably the study of power management strategies that can be better suited to the constraints of HPC highly parallel processing. A design space exploration methodology capable of supporting the simulation of large manycore computing clusters is developped and lead to propose, design and evaluate multi-SoC and their associated SoC Coherent Interconnect models (SCI). This approach is then used to define a pre-exascale architecture allowing to globally reduce the complexity and cost of chip developments without sacrifying performances. The resulting partitioning scheme introduces interesting perspectives at technology level such as the integration of more compute nodes directly on an interposer based System-in-Package (SiP), possibly based on 3D Through Silicon Vias (TSVs) using High Memory Bandwidth (HBM). Energy efficiency is addressed more directly in second instance by studying current power management policies and proposing two strategies to help reducing power while preserving performances. The first one exploits finer application execution knowledge to adjust the frequency of extensive parallel threads and better balance their execution time. The second strategy reduces core frequencies at synchronisation points of jobs to avoid running the cores at full speed while it is not necessary. Experiment results with these strategies, both in simulation and real hardware, show the possibilities offered par this approach to address the strong requirements of Exascale platforms

APA, Harvard, Vancouver, ISO, and other styles

18

Chehaimi, Omar. "Parallelizzazione dell'algoritmo di ricostruzione di Feldkamp-Davis-Kress per architetture Low-Power di tipo System-On-Chip." Master's thesis, Alma Mater Studiorum - Università di Bologna, 2017. http://amslaurea.unibo.it/13918/.

Full text

Abstract:

In questa tesi,svolta presso il CNAF,si presentano i risultati ottenuti nel lavoro svolto per la parallelizzazione in CUDA dell'algoritmo di ricostruzione tomografica di Feldkamp-Davis-Kress (FDK),sulla base del software in versione sia sequenziale che parallela MPI,sviluppato presso i laboratori del X-ray Imaging Group.Gli obbiettivi di questo lavoro sono principalmente due:ridurre in modo sensibile i tempi di esecuzione dell'algoritmo di ricostruzione FDK parallelizzando su Graphics Processing Unit (GPU) e valutare,su diverse tipologie di architetture,i consumi energetici.Le piattaforme prese in esame sono:SoC (System-on-Chip) low-power, architetture a basso consumo energetico ma a limitata potenza di calcolo,e High Performance Computing (HPC),caratterizzate da un'elevata potenza di calcolo ma con un ingente consumo energetico.Si vuole mettere in risalto la differenza di prestazioni in relazione al tipo di architettura e rispetto al relativo consumo energetico.Poter sostituire nodi HPC con schede SoC low-power presenta il vantaggio di ridurre i consumi, la complessità dell'hardware e la possibilità di ottenere dei risultati direttamente in loco.I risultati ottenuti mostrano che la parallelizzazione di FDK su GPU sia la scelta più efficiente. Risulta infatti sempre,e su ogni architettura testata,più performante rispetto alla versione MPI,nonostante in quest'ultima venga parallelizzato tutto l'algoritmo.In CUDA invece si parallelizza solo la fase di ricostruzione.Inoltre si è risusciti a raggiungere un'efficienza di utilizzo della GPU del 100%.L'efficienza energetica rapportata alle prestazioni in termini di tempo è migliore per le architetture SoC rispetto a quelle HPC.Si propone infine un approccio ibrido MPI unito a CUDA che migliora ulteriormente le prestazioni di esecuzione.Il filtraggio e la ricostruzione sono operazioni indipendenti,si utilizza allora l'implementazione più efficiente per la data operazione,filtrare in MPI e ricostruire in CUDA.

APA, Harvard, Vancouver, ISO, and other styles

19

Lanore, Vincent. "On Scalable Reconfigurable Component Models for High-Performance Computing." Thesis, Lyon, École normale supérieure, 2015. http://www.theses.fr/2015ENSL1051/document.

Full text

Abstract:

La programmation à base de composants est un paradigme de programmation qui facilite la réutilisation de code et la séparation des préoccupations. Les modèles à composants dits « reconfigurables » permettent de modifier en cours d'exécution la structure d'une application. Toutefois, ces modèles ne sont pas adaptés au calcul haute performance (HPC) car ils reposent sur des mécanismes ne passant pas à l'échelle.L'objectif de cette thèse est de fournir des modèles, des algorithmes et des outils pour faciliter le développement d'applications HPC reconfigurables à base de composants. La principale contribution de la thèse est le modèle à composants formel DirectMOD qui facilite l'écriture et la réutilisation de code de transformation distribuée. Afin de faciliter l'utilisation de ce premier modèle, nous avons également proposé :• le modèle formel SpecMOD qui permet la spécialisation automatique d'assemblage de composants afin de fournir des fonctionnalités de génie logiciel de haut niveau ; • des mécanismes de reconfiguration performants à grain fin pour les applications AMR, une classe d'application importante en HPC.Une implémentation de DirectMOD, appelée DirectL2C, a été réalisée et a permis d'implémenter une série de benchmarks basés sur l'AMR pour évaluer notre approche. Des expériences sur grappes de calcul et supercalculateur montrent que notre approche passe à l'échelle. De plus, une analyse quantitative du code produit montre que notre approche est compacte et facilite la réutilisation
Component-based programming is a programming paradigm which eases code reuse and separation of concerns. Some component models, which are said to be "reconfigurable", allow the modification at runtime of an application's structure. However, these models are not suited to High-Performance Computing (HPC) as they rely on non-scalable mechanisms.The goal of this thesis is to provide models, algorithms and tools to ease the development of component-based reconfigurable HPC applications.The main contribution of the thesis is the DirectMOD component model which eases development and reuse of distributed transformations. In order to improve on this core model in other directions, we have also proposed:• the SpecMOD formal component model which allows automatic specialization of hierarchical component assemblies and provides high-level software engineering features;• mechanisms for efficient fine-grain reconfiguration for AMR applications, an important application class in HPC.An implementation of DirectMOD, called DirectL2C, as been developed so as to implement a series of benchmarks to evaluate our approach. Experiments on HPC architectures show our approach scales. Moreover, a quantitative analysis of the benchmark's codes show that our approach is compact and eases reuse

APA, Harvard, Vancouver, ISO, and other styles

20

Glesser, David. "Road to exascale : improving scheduling performances and reducing energy consumption with the help of end-users." Thesis, Université Grenoble Alpes (ComUE), 2016. http://www.theses.fr/2016GREAM044/document.

Full text

Abstract:

Le domaine du calcul haute performance (i.e. la science des super-calculateurs)est caractérisé par l’évolution continuelle des architectures de calcul, la proliférationdes ressources de calcul et la complexité croissante des problèmes que les utilisateursveulent résoudre. Un des logiciels les plus importants de la pile logicielle dessupercalculateurs est le Système de Gestion des Ressources et des Tâches. Il est lelien entre la charge de travail donnée par les utilisateurs et la plateforme de calcul. Cetype de logiciels spécialisés fournit des fonctions pour construire, soumettre, planifieret surveiller les tâches dans un environnent de calcul complexe et dynamique.Pour pouvoir atteindre des supercalculateurs exaflopiques, de nouvelles con-traintes et objectifs ont été inventés. Cette thèse développe et teste l’idée que lesutilisateurs de ces systèmes peuvent aider à atteindre l’échelle exaflopique. Spé-cifiquement, nous montrons des techniques qui utilisent les comportements desutilisateurs pour améliorer la consommation énergétique et les performances glob-ales des supercalculateurs.Pour tester ces nouvelles techniques, nous avons besoin de nouveaux outils etméthodes qui sont capables d’aller jusqu’à l’échelle exaflopique. Nous proposonsdonc des outils qui permettent de tester de nouveaux algorithmes capables des’exécuter sur ces systèmes. Ces outils sont capables de fonctionner sur de petitssupercalculateurs en émulant ou simulant des systèmes plus puissants. Après avoirévalué différentes techniques pour mesurer l’énergie dans les supercalculateurs, nousproposons une nouvelle heuristique, basée sur un algorithme répandu (Easy Backfill-ing), pour pouvoir contrôler la puissance électrique de ces énormes systèmes. Nousmontrons aussi comment, en utilisant la même méthode, contrôler la consommationénergétique pendant une période de temps. Le mécanisme proposé peut limiterla consommation énergétique tout en gardant des performances satisfaisantes. Sil’énergie est une ressource limitée, il faut la partager équitablement. Nous présen-tons de plus un mécanisme permettant de partager la consommation énergétiqueentre les utilisateurs. Nous soutenons que cette méthode va motiver les utilisateursà réduire la consommation énergétique de leurs calculs. Finalement, nous analysonsle comportement actuel et passé des utilisateurs pour améliorer les performancesdes supercalculateurs. Cette approche non seulement surpasse les performances destravaux existants, mais aussi ouvre la voie à l’utilisation de méthodes semblablesdans d’autres aspects des Systèmes de Gestion des Ressources et des Tâches
The field of High Performance Computing (HPC) is characterized by the contin-uous evolution of computing architectures, the proliferation of computing resourcesand the increasing complexity of applications users wish to solve. One of the mostimportant software of the HPC stack is the Resource and Job Management System(RJMS) which stands between the user workloads and the platform, the applica-tions and the resources. This specialized software provides functions for building,submitting, scheduling and monitoring jobs in a dynamic and complex computingenvironment.In order to reach exaflops HPC systems, new constraints and objectives havebeen introduced. This thesis develops and tests the idea that the users of suchsystems can help reaching the exaflopic scale. Specifically, we show and introducenew techniques that employ users behaviors to improve energy consumption andoverall cluster performances.To test the proposed techniques, we need to develop new tools and method-ologies that scale up to large HPC clusters. Thus, we designed adequate tools thatassess new RJMS scheduling algorithms of such large systems. These tools areable to run on small clusters by emulating or simulating bigger platforms. Afterevaluating different techniques to measure the energy consumption of HPC clusters,we propose a new heuristic, based on the popular Easy Backfilling algorithm, inorder to control the power consumption of such huge systems. We also demonstrate,using the same idea, how to control the energy consumption during a time period.The proposed mechanism is able to limit the energy consumption while keepingsatisfying performances. If energy is a limited resource, it has to be shared fairly.We also present a mechanism which shares energy consumption among users. Weargue that sharing fairly the energy among users should motivate them to reducethe energy consumption of their applications. Finally, we analyze past and presentbehaviors of users using learning algorithms in order to improve the performancesof the parallel platforms. This approach does not only outperform state of the artmethods, it also shows promising insight on how such method can improve otheraspects of RJMS

APA, Harvard, Vancouver, ISO, and other styles

21

Bleuse, Raphaël. "Appréhender l'hétérogénéité à (très) grande échelle." Thesis, Université Grenoble Alpes (ComUE), 2017. http://www.theses.fr/2017GREAM053/document.

Full text

Abstract:

Le besoin de simuler des phénomènes toujours plus complexes accroît les besoinsen puissance de calcul, tout en consommant et produisant de plus en plus dedonnées.Pour répondre à cette demande, la taille et l'hétérogénéité des plateformes decalcul haute performance augmentent.L'hétérogénéité permet en effet de découper les problèmes en sous-problèmes,pour lesquels du matériel ou des algorithmes ad hoc sont plus efficients.Cette hétérogénéité se manifeste dans l'architecture des plateformes et dans lavariété des applications exécutées.Aussi, les performances sont de plus en plus sensibles au contexte d'exécution.L'objet de cette thèse est de considérer, qualitativement et à faible coût,l'impact du contexte d'exécution dans les politiques d'allocation etd'ordonnancement.Cette étude est menée à deux niveaux: au sein d'applications uniques, et àl'échelle des plateformes au niveau inter-applications.Nous étudions en premier lieu la minimisation du temps de complétion pour destâches séquentielles sur des plateformes hybrides intégrant des CPU et des GPU.Nous proposons de tenir compte du contexte d'exécution grâce à un mécanismed'affinité améliorant le comportement local des politiques d'ordonnancement.Ce mécanisme a été implémenté dans un run-time parallèle.Une campagne d'expérience montre qu'il permet de diminuer les transferts dedonnées tout en conservant un faible temps de complétion.Puis, afin de prendre implicitement en compte le parallélisme sur les CPU, nousenrichissons le modèle en considérant les tâches comme moldables sur CPU.Nous proposons un algorithme basé sur la programmation linéaire en nombresentiers.Cet algorithme efficace a un rapport de compétitivité de 3/2+ε.Dans un second temps, nous proposons un nouveau cadre de modélisation danslequel les contraintes sont des outils de premier ordre.Plutôt que d'étendre les modèles existants en considérant toutes lesinteractions possibles, nous réduisons l'espace des ordonnancements réalisablesvia l'ajout de contraintes.Nous proposons des contraintes raisonnables pour modéliser l'étalement desapplications ainsi que les flux d'E/S.Nous proposons ensuite une étude de cas exhaustive dans le cadre de laminimisation du temps de complétion pour des topologies unidimensionnelles,sous les contraintes de convexité et de localité
The demand for computation power is steadily increasing, driven by the need tosimulate more and more complex phenomena with an increasing amount ofconsumed/produced data.To meet this demand, the High Performance Computing platforms grow in both sizeand heterogeneity.Indeed, heterogeneity allows splitting problems for a more efficient resolutionof sub-problems with ad hoc hardware or algorithms.This heterogeneity arises in the platforms' architecture and in the variety ofprocessed applications.Consequently, the performances become more sensitive to the execution context.We study in this thesis how to qualitatively bring—at a reasonablecost—context-awareness/obliviousness into allocation and scheduling policies.This study is conducted from two standpoints: within single applications, andat the whole platform scale from an inter-applications perspective.We first study the minimization of the makespan of sequential tasks onplatforms with a mixed architecture composed of multiple CPUs and GPUs.We integrate context-awareness into schedulers with an affinity mechanism thatimproves local behavior.This mechanism has been implemented in a parallel run-time, and experimentsshow that it is able to reduce the memory transfers while maintaining a lowmakespan.We then extend the model to implicitly consider parallelism on the CPUs withthe moldable-task model.We propose an efficient algorithm formulated as an integer linear program witha constant performance guarantee of 3/2+ε.Second, we devise a new modeling framework where constraints are a first-classtool.Rather than extending existing models to consider all possible interactions, wereduce the set of feasible schedules by further constraining existing models.We propose a set of reasonable constraints to model application spreading andI/O traffic.We then instantiate this framework for unidimensional topologies, and propose acomprehensive case study of the makespan minimization under convex and localconstraints

APA, Harvard, Vancouver, ISO, and other styles

22

Diakhaté, François. "Contribution à l'élaboration de supports exécutifs exploitant la virtualisation pour le calcul hautes performances." Phd thesis, Université Sciences et Technologies - Bordeaux I, 2010. http://tel.archives-ouvertes.fr/tel-00798832.

Full text

Abstract:

Ces dernières années, la virtualisation a connu un important regain d'intérêt dans les centres de traitement de données. Elle séduit par la grande flexibilité qu'elle apporte, par ses propriétés d'isolation et de tolérance aux pannes ainsi que par sa capacité à tirer partie des processeurs multicoeurs. Toutes ces caractéristiques en font une solution intéressante pour répondre aux problèmes liés aux évolutions matérielles des grappes de calcul. Cependant, la virtualisation est encore peu mise en oeuvre dans ce cadre, notamment car son impact sur les performances des applications parallèles est considéré comme prohibitif. Pour pallier ce problème, nous avons conçu un périphérique virtuel de communication permettant l'exécution efficace d'applications parallèles dans une grappe de machines virtuelles. Nous proposons en outre un ensemble de techniques permettant de faciliter le déploiement d'applications virtualisées. Ces fonctionnalités ont été regroupées au sein d'un support exécutif permettant de bénéficier des avantages de la virtualisation de la manière la plus transparente possible pour l'utilisateur, et ce en minimisant l'impact sur les performances.

APA, Harvard, Vancouver, ISO, and other styles

23

Augonnet, Cédric. "Scheduling Tasks over Multicore machines enhanced with Accelerators : a Runtime System’s Perspective." Thesis, Bordeaux 1, 2011. http://www.theses.fr/2011BOR14460/document.

Full text

Abstract:

Bien que les accélérateurs fassent désormais partie intégrante du calcul haute performance, les gains observés ont un impact direct sur la programmabilité, de telle sorte qu'un support proposant des abstractions portables est indispensable pour tirer pleinement partie de toute la puissance de calcul disponible de manière portable, malgré la complexité de la machine sous-jacente. Dans cette thèse, nous proposons un modèle de support exécutif offrant une interface expressive permettant notamment de répondre aux défis soulevés en termes d'ordonnancement et de gestion de données. Nous montrons la pertinence de notre approche à l'aide de la plateforme StarPU conçue à l'occasion de cette thèse
Multicore machines equipped with accelerators are becoming increasingly popular in the HighPerformance Computing ecosystem. Hybrid architectures provide significantly improved energyefficiency, so that they are likely to generalize in the Manycore era. However, the complexity introducedby these architectures has a direct impact on programmability, so that it is crucial toprovide portable abstractions in order to fully tap into the potential of these machines. Pure offloadingapproaches, that consist in running an application on regular processors while offloadingpredetermined parts of the code on accelerators, are not sufficient. The real challenge is to buildsystems where the application would be spread across the entire machine, that is, where computationwould be dynamically scheduled over the full set of available processing units.In this thesis, we thus propose a new task-based model of runtime system specifically designedto address the numerous challenges introduced by hybrid architectures, especially in terms of taskscheduling and of data management. In order to demonstrate the relevance of this model, we designedthe StarPU platform. It provides an expressive interface along with flexible task schedulingcapabilities tightly coupled to an efficient data management. Using these facilities, together witha database of auto-tuned per-task performance models, it for instance becomes straightforward todevelop efficient scheduling policies that take into account both computation and communicationcosts. We show that our task-based model is not only powerful enough to provide support forclusters, but also to scale on hybrid manycore architectures.We analyze the performance of our approach on both synthetic and real-life workloads, andshow that we obtain significant speedups and a very high efficiency on various types of multicoreplatforms enhanced with accelerators

APA, Harvard, Vancouver, ISO, and other styles

24

Didelot, Sylvain. "Improving memory consumption and performance scalability of HPC applications with multi-threaded network communications." Thesis, Versailles-St Quentin en Yvelines, 2014. http://www.theses.fr/2014VERS0029/document.

Full text

Abstract:

La tendance en HPC est à l'accroissement du nombre de coeurs par noeud de calcul pour une quantité totale de mémoire par noeud constante. A large échelle, l'un des principaux défis pour les applications parallèles est de garder une faible consommation mémoire. Cette thèse présente une couche de communication multi-threadée sur Infiniband, laquelle fournie de bonnes performances et une faible consommation mémoire. Nous ciblons les applications scientifiques parallélisées grâce à la bibliothèque MPI ou bien combinées avec un modèle de programmation en mémoire partagée. En partant du constat que le nombre de connexions réseau et de buffers de communication est critique pour la mise à l'échelle des bibliothèques MPI, la première contribution propose trois approches afin de contrôler leur utilisation. Nous présentons une topologie virtuelle extensible et entièrement connectée pour réseaux rapides orientés connexion. Dans un contexte agrégeant plusieurs cartes permettant d'ajuster dynamiquement la configuration des buffers réseau utilisant la technologie RDMA. La seconde contribution propose une optimisation qui renforce le potentiel d'asynchronisme des applications MPI, laquelle montre une accélération de deux des communications. La troisième contribution évalue les performances de plusieurs bibliothèques MPI exécutant une application de modélisation sismique en contexte hybride. Les expériences sur des noeuds de calcul jusqu'à 128 coeurs montrent une économie de 17 % sur la mémoire. De plus, notre couche de communication multi-threadée réduit le temps d'exécution dans le cas où plusieurs threads OpenMP participent simultanément aux communications MPI
A recent trend in high performance computing shows a rising number of cores per compute node, while the total amount of memory per compute node remains constant. To scale parallel applications on such large machines, one of the major challenges is to keep a low memory consumption. This thesis develops a multi-threaded communication layer over Infiniband which provides both good performance of communications and a low memory consumption. We target scientific applications parallelized using the MPI standard in pure mode or combined with a shared memory programming model. Starting with the observation that network endpoints and communication buffers are critical for the scalability of MPI runtimes, the first contribution proposes three approaches to control their usage. We introduce a scalable and fully-connected virtual topology for connection-oriented high-speed networks. In the context of multirail configurations, we then detail a runtime technique which reduces the number of network connections. We finally present a protocol for dynamically resizing network buffers over the RDMA technology. The second contribution proposes a runtime optimization to enforce the overlap potential of MPI communications, showing a 2x improvement factor on communications. The third contribution evaluates the performance of several MPI runtimes running a seismic modeling application in a hybrid context. On large compute nodes up to 128 cores, the introduction of OpenMP in the MPI application saves up to 17 % of memory. Moreover, we show a performance improvement with our multi-threaded communication layer where the OpenMP threads concurrently participate to the MPI communications

APA, Harvard, Vancouver, ISO, and other styles

25

Vasseur, Romain. "Développements HPC pour une nouvelle méthode de docking inverse : applications aux protéines matricielles." Thesis, Reims, 2015. http://www.theses.fr/2015REIMS036.

Full text

Abstract:

Ce travail de thèse consiste au développement méthodologique et logiciel d'une méthode de docking moléculaire dite inverse. Cette méthode propose à travers le programme AMIDE — Automatic Inverse Docking Engine — de distribuer un grand nombres de simulations d'amarrage moléculaire sur des architectures HPC (clusters de calcul) avec les applications AutoDock 4.2 et AutoDock Vina. Le principe de cette méthode consiste à tester de petites molécules sur un ensemble de protéines cibles potentielles. Les paramètres optimaux ont été définis à partir d'une étude pilote et le protocole a été validé sur des ligands et peptides liants les protéines MMPs et EBP de la matrice extracellulaire. Cette méthode montre qu'elle permet d‘améliorer la recherche conformationnelle lors du calcul de docking sur des structures expérimentales par rapport à des protocoles existants (blind docking). Il est montré que le programme AMIDE permet de discriminer des sites de fixation privilégiés lors d'expériences de criblage inverse de protéines de manière plus performante que par blind docking. Ces résultats sont obtenus par la mise en place de méthodes de partitionnement de l'espace de recherche qui permettent également à travers un système de distribution hybride de déployer un ensemble de tâches indépendantes pour un traitement autorisant le passage d'échelle
This work is a methodological and software development of so-called inverse molecular docking method. This method offers through an in house program AMIDE — Automatic Reverse Docking Engine — to distribute large numbers of molecular docking simulations on HPC architectures (com- puting clusters) with AutoDock 4.2 and AutoDock Vina applications. The principle of this method is to test small molecules on a set of potential target proteins. The program optimum parameters were defined from a pilot study and the protocol was validated on ligands and peptides binding MMPs and EBP extracellular matrix proteins. This method improves the conformational search in docking computation on experimental structures compared to existing protocols (blind docking). It is shown that the AMIDE program is more efficient to discriminate preferred binding sites in inverse proteins screening experiments than blind docking. These results are obtained by the implemen- tation of methods for partitioning the search space that also allow through a hybrid distribution system to deploy a set of independent embarassingly parallel tasks perfectly scalable

APA, Harvard, Vancouver, ISO, and other styles

26

Martsinkevich, Tatiana V. "Improving message logging protocols towards extreme-scale HPC systems." Thesis, Paris 11, 2015. http://www.theses.fr/2015PA112215.

Full text

Abstract:

Les machines pétascale qui existent aujourd'hui ont un temps moyen entre pannes de plusieurs heures. Il est prévu que dans les futurs systèmes ce temps diminuera. Pour cette raison, les applications qui fonctionneront sur ces systèmes doivent être capables de tolérer des défaillances fréquentes. Aujourd'hui, le moyen le plus commun de le faire est d'utiliser le mécanisme de retour arrière global où l'application fait des sauvegardes périodiques à partir d’un point de reprise. Si un processus s'arrête à cause d'une défaillance, tous les processus reviennent en arrière et se relancent à partir du dernier point de reprise. Cependant, cette solution deviendra infaisable à grande échelle en raison des coûts de l'énergie et de l'utilisation inefficace des ressources. Dans le contexte des applications MPI, les protocoles de journalisation des messages offrent un meilleur confinement des défaillances car ils ne demandent que le redémarrage du processus qui a échoué, ou parfois d’un groupe de processus limité. Par contre, les protocoles existants ont souvent un surcoût important en l’absence de défaillances qui empêchent leur utilisation à grande échelle. Ce surcoût provient de la nécessité de sauvegarder de façon fiable tous les événements non-déterministes afin de pouvoir correctement restaurer l'état du processus en cas de défaillance. Ensuite, comme les journaux de messages sont généralement stockés dans la mémoire volatile, la journalisation risque de nécessiter une large utilisation de la mémoire. Une autre tendance importante dans le domaine des HPC est le passage des applications MPI simples aux nouveaux modèles de programmation hybrides tels que MPI + threads ou MPI + tâches en réponse au nombre croissant de cœurs par noeud. Cela offre l’opportunité de gérer les défaillances au niveau du thread / de la tâche contrairement à l'approche conventionnelle qui traite les défaillances au niveau du processus. Par conséquent, le travail de cette thèse se compose de trois parties. Tout d'abord, nous présentons un protocole de journalisation hiérarchique pour atténuer une défaillance de processus. Le protocole s'appelle Scalable Pattern-Based Checkpointing et il exploite un nouveau modèle déterministe appelé channel-determinism ainsi qu’une nouvelle relation always-happens-before utilisée pour mettre partiellement en ordre les événements de l'application. Le protocole est évolutif, son surcoût pendant l'exécution sans défaillance est limité, il n'exige l'enregistrement d'aucun évènement et, enfin, il a une reprise entièrement distribuée. Deuxièmement, afin de résoudre le problème de la limitation de la mémoire sur les nœuds de calcul, nous proposons d'utiliser des ressources dédiées supplémentaires, appelées logger nodes. Tous les messages qui ne rentrent pas dans la mémoire du nœud de calcul sont envoyés aux logger nodes et sauvegardés dans leur mémoire. À travers de nos expériences nous montrons que cette approche est réalisable et, associée avec un protocole de journalisation hiérarchique comme le SPBC, les logger nodes peuvent être une solution ultime au problème de mémoire limitée sur les nœuds de calcul. Troisièmement, nous présentons un protocole de tolérance aux défaillances pour des applications hybrides qui adoptent le modèle de programmation MPI + tâches. Ce protocole s'utilise pour tolérer des erreurs détectées non corrigées qui se produisent lors de l'exécution d'une tâche. Normalement, une telle erreur provoque une exception du système ce qui provoque un arrêt brutal de l'application. Dans ce cas, l'application doit redémarrer à partir du dernier point de reprise. Nous combinons la sauvegarde des données de la tâche avec une journalisation des messages afin d’aider à la reprise de la tâche qui a subi une défaillance. Ainsi, nous évitons le redémarrage au niveau du processus, plus coûteux. Nous démontrons les avantages de ce protocole avec l'exemple des applications hybrides MPI + OmpSs
Existing petascale machines have a Mean Time Between Failures (MTBF) in the order of several hours. It is predicted that in the future systems the MTBF will decrease. Therefore, applications that will run on these systems need to be able to tolerate frequent failures. Currently, the most common way to do this is to use global application checkpoint/restart scheme: if some process fails the whole application rolls back the its last checkpointed state and re-executes from that point. This solution will become infeasible at large scale, due to its energy costs and inefficient resource usage. Therefore fine-grained failure containment is a strongly required feature for the fault tolerance techniques that target large-scale executions. In the context of message passing MPI applications, message logging fault tolerance protocols provide good failure containment as they require restart of only one process or, in some cases, a bounded number of processes. However, existing logging protocols experience a number of issues which prevent their usage at large scale. In particular, they tend to have high failure-free overhead because they usually need to store reliably any nondeterministic events happening during the execution of a process in order to correctly restore its state in recovery. Next, as message logs are usually stored in the volatile memory, logging may incur large memory footprint, especially in communication-intensive applications. This is particularly important because the future exascale systems expect to have less memory available per core. Another important trend in HPC is switching from MPI-only applications to hybrid programming models like MPI+threads and MPI+tasks in response to the increasing number of cores per node. This gives opportunities for employing fault tolerance solutions that handle faults on the level of threads/tasks. Such approach has even better failure containment compared to message logging protocols which handle failures on the level of processes. Thus, the work in these dissertation consists of three parts. First, we present a hierarchical log-based fault tolerance solution, called Scalable Pattern-Based Checkpointing (SPBC) for mitigating process fail-stop failures. The protocol leverages a new deterministic model called channel-determinism and a new always-happens-before relation for partial ordering of events in the application. The protocol is scalable, has low overhead in failure-free execution and does not require logging any events, provides perfect failure containment and has a fully distributed recovery. Second, to address the memory limitation problem on compute nodes, we propose to use additional dedicated resources, or logger nodes. All the logs that do not fit in the memory of compute nodes are sent to the logger nodes and kept in their memory. In a series of experiments we show that not only this approach is feasible, but, combined with a hierarchical logging scheme like the SPBC, logger nodes can be an ultimate solution to the problem of memory limitation for logging protocols. Third, we present a log-based fault tolerance protocol for hybrid applications adopting MPI+tasks programming model. The protocol is used to tolerate detected uncorrected errors (DUEs) that happen during execution of a task. Normally, a DUE caused the system to raise an exception which lead to an application crash. Then, the application has to restart from a checkpoint. In the proposed solution, we combine task checkpointing with message logging in order to support task re-execution. Such task-level failure containment can be beneficial in large-scale executions because it avoids the more expensive process-level restart. We demonstrate the advantages of this protocol on the example of hybrid MPI+OmpSs applications

APA, Harvard, Vancouver, ISO, and other styles

27

Le, Fevre Valentin. "Resilient scheduling algorithms for large-scale platforms." Thesis, Lyon, 2020. http://www.theses.fr/2020LYSEN019.

Full text

Abstract:

Cette thèse se concentre sur un problème majeur dans le contexte du calcul haute performance : la résilience. Les machines de calcul étant de plus en plus grosses pour viser les 10^18 opérations de calcul par seconde (exascale), celles-ci sont sujettes à de nombreuses pannes. La réduction du temps de calcul et la gestion du nombre de fautes sont deux problématiques étroitement liées : par exemple la réplication (redondance de calcul) permet de subir moins d'erreurs mais induit uneune diminution du nombre de ressources disponibles. En particulier, cette thèse se concentre sur divers mécanismes de « checkpoint/restart » (sauvegarde de l'état d'une application pour repartir de celle-ci lors d'une panne): la première partie traite de checkpoints sur plusieurs niveaux, de l'utilisation de ressources supplémentaires pour palier la latence des systèmes, et de checkpoint dans des graphes de tâches quelconques. La deuxième partie traite de stratégies optimales de checkpoint quand elles sont couplées avec de la réplication (dans des chaines de tâches, sur des plates-formes hétérogènes et enfin avec de la duplication de processus). La dernière partie explore quelques problèmes d'ordonnancement liés aux perturbations croissantes dans les plates-formes à large échelle
This thesis focuses on a major problem for the HPC community: resilience. Computing platforms are bigger and bigger in order to reach what we call exascale, i.e. a computing capacity of 10^18 FLOP/s but they suffer numerous failures. Reducing the execution time and handling the errors are two linked problems: for instance, replication (computing redudancy) decreases the number of critical failures but also decreases the number of available resources. In particular, this thesis focuses on several “checkpoint/restart” mechanisms.(saving the state of an application to restart from that save when a failure occurs): the first part investigates checkpointing on several levels, the use of additional resources to cope with system latency and checkpointing in generic task-graphs. The second part deals with optimal checkpointing strategies when coupled with replication (in linear task graphs, on heterogeneous platforms and with process duplication). The last part explores several scheduling problems linked to increasing disruptions in large-scale platforms

APA, Harvard, Vancouver, ISO, and other styles

28

Emeras, Joseph. "Analyse et rejeu de traces de charge dans les grands systèmes de calcul distribués." Phd thesis, Université de Grenoble, 2013. http://tel.archives-ouvertes.fr/tel-00940055.

Full text

Abstract:

High Performance Computing is preparing the era of the transition from Petascale to Exascale. Distributed computing systems are already facing new scalability problems due to the increasing number of computing resources to manage. It is now necessary to study in depth these systems and comprehend their behaviors, strengths and weaknesses to better build the next generation. The complexity of managing users applications on the resources conducted to the analysis of the workload the platform has to support, this to provide them an efficient service. The need for workload comprehension has led to the collection of traces from production systems and to the proposal of a standard workload format. These contributions enabled the study of numerous of these traces. This also led to the construction of several models, based on the statistical analysis of the different workloads from the collection. Until recently, existing workload traces did not enabled researchers to study the consumption of resources by the jobs in a temporal way. This is now changing with the need for characterization of jobs consumption patterns. In the first part of this thesis we propose a study of existing workload traces. Then we contribute with an observation of cluster workloads with the consideration of the jobs resource consumptions over time. This highlights specific and unattended patterns in the usage of resources from users. Finally, we propose an extension of the former standard workload format that enables to add such temporal consumptions without loosing the benefit of the existing works. Experimental approaches based on workload models have also served the goal of distributed systems evaluation. Existing models describe the average behavior of observed systems. However, although the study of average behaviors is essential for the understanding of distributed systems, the study of critical cases and particular scenarios is also necessary. This study would give a more complete view and under- standing of the performance of resource and job management. In the second part of this thesis we propose an experimental method for performance evaluation of distributed systems based on the replay of production workload trace extracts. These extracts, replaced in their original context, enable to experiment the change of configuration of the system in an online workload and observe the different configurations results. Our technical contribution in this experimental approach is twofold. We propose a first tool to construct the environment in which the experi- mentation will take place, then we propose a second set of tools that automatize the experiment setup and that replay the trace extract within its original context. Finally, these contributions conducted together, enable to gain a better knowledge of HPC platforms. As future works, the approach proposed in this thesis will serve as a basis to further study larger infrastructures.

APA, Harvard, Vancouver, ISO, and other styles

29

Haferssas, Ryadh Mohamed. "Espaces grossiers pour les méthodes de décomposition de domaine avec conditions d'interface optimisées." Thesis, Paris 6, 2016. http://www.theses.fr/2016PA066450.

Full text

Abstract:

L'objectif de cette thèse est la conception, l'analyse et l'implémentation d'une méthode de décomposition de domaine efficiente pour des problèmes de la mécanique des solides et des fluides. Pour cela les méthodes de Schwarz optimisée (OSM) sont considérées et révisées. Les méthodes de décomposition de domaine de Schwarz optimisées ont été introduites par P.L. Lions, elles apportent une amélioration aux méthodes de Schwarz classiques en substituant les conditions d'interface de Dirichlet par des conditions de type Robin et cela pour les méthodes avec ou sans recouvrement. Les conditions de Robin offrent un très bon levier qui nous permet d'aller vers l'optimalité des méthodes de Schwarz ainsi que la conception d'une méthode de décomposition de domaine robuste pour des problèmes de mécanique complexes comportant une nature presque incompressible. Dans cette thèse un nouveau cadre mathématique est introduit qui consiste à munir les méthodes de Schwarz optimisées (e.g. L'algorithme de Lions ) d'une théorie semblable à celle déjà existante pour des méthodes de Schwarz additives, on définit un espace grossier pour lequel le taux de convergence de la méthode à deux niveaux peut être prescrit, indépendamment des éventuelles hétérogénéités du problème traité. Une formulation sous forme de preconditioneur de la méthode à deux niveaux est proposée qui permettra la simulation parallèle d'un large spectre de problèmes mécanique, tel que le problème d'élasticité presque incompressible, le problème de Stokes incompressible ainsi que le problème instationnaire de Navier-Stokes. Des résultats numériques issues de simulations parallèles à grande échelle sur plusieurs milliers de processeurs sont présentés afin de montrer la robustesse de l'approche proposée
The objective of this thesis is to design an efficient domain decomposition method to solve solid and fluid mechanical problems, for this, Optimized Schwarz methods (OSM) are considered and revisited. The optimized Schwarz methods were introduced by P.L. Lions. They consist in improving the classical Schwarz method by replacing the Dirichlet interface conditions by a Robin interface conditions and can be applied to both overlapping and non overlapping subdomains. Robin conditions provide us an another way to optimize these methods for better convergence and more robustness when dealing with mechanical problem with almost incompressibility nature. In this thesis, a new theoretical framework is introduced which consists in providing an Additive Schwarz method type theory for optimized Schwarz methods, e.g. Lions' algorithm. We define an adaptive coarse space for which the convergence rate is guaranteed regardless of the regularity of the coefficients of the problem. Then we give a formulation of a two-level preconditioner for the proposed method. A broad spectrum of applications will be covered, such as incompressible linear elasticity, incompressible Stokes problems and unstationary Navier-Stokes problem. Numerical results on a large-scale parallel experiments with thousands of processes are provided. They clearly show the effectiveness and the robustness of the proposed approach

APA, Harvard, Vancouver, ISO, and other styles

30

Emeras, Joseph. "Workload Traces Analysis and Replay in Large Scale Distributed Systems." Thesis, Grenoble, 2013. http://www.theses.fr/2013GRENM081/document.

Full text

Abstract:

L'auteur n'a pas fourni de résumé en français
High Performance Computing is preparing the era of the transition from Petascale to Exascale. Distributed computing systems are already facing new scalability problems due to the increasing number of computing resources to manage. It is now necessary to study in depth these systems and comprehend their behaviors, strengths and weaknesses to better build the next generation.The complexity of managing users applications on the resources conducted to the analysis of the workload the platform has to support, this to provide them an efficient service.The need for workload comprehension has lead to the collection of traces from production systems and to the proposal of a standard workload format. These contributions enabled the study of numerous of these traces. This also lead to the construction of several models, based on the statistical analysis of the different workloads from the collection.Until recently, existing workload traces did not enabled researchers to study the consumption of resources by the jobs in a temporal way. This is now changing with the need for characterization of jobs consumption patterns.In the first part of this thesis we propose a study of existing workload traces. Then we contribute with an observation of cluster workloads with the consideration of the jobs resource consumptions over time. This highlights specific and unattended patterns in the usage of resources from users.Finally, we propose an extension of the former standard workload format that enables to add such temporal consumptions without loosing the benefit of the existing works.Experimental approaches based on workload models have also served the goal of distributed systems evaluation. Existing models describe the average behavior of observed systems.However, although the study of average behaviors is essential for the understanding of distributed systems, the study of critical cases and particular scenarios is also necessary. This study would give a more complete view and understanding of the performance of the resources and jobs management. In the second part of this thesis we propose an experimental method for performance evaluation of distributed systems based on the replay of production workload trace extracts. These extracts, replaced in their original context, enable to experiment the change of configuration of the system in an online workload and observe the different configurations results. Our technical contribution in this experimental approach is twofold. We propose a first tool to construct the environment in which the experimentation will take place, then we propose a second set of tools that automatize the experiment setup and that replay the trace extract within its original context.Finally, these contributions conducted together, enable to gain a better knowledge of HPC platforms. As future works, the approach proposed in this thesis will serve as a basis to further study larger infrastructures

APA, Harvard, Vancouver, ISO, and other styles

31

Said, Issam. "Apports des architectures hybrides à l'imagerie profondeur : étude comparative entre CPU, APU et GPU." Thesis, Paris 6, 2015. http://www.theses.fr/2015PA066531/document.

Full text

Abstract:

Les compagnies pétrolières s'appuient sur le HPC pour accélérer les algorithmes d'imagerie profondeur. Les grappes de CPU et les accélérateurs matériels sont largement adoptés par l'industrie. Les processeurs graphiques (GPU), avec une grande puissance de calcul et une large bande passante mémoire, ont suscité un vif intérêt. Cependant le déploiement d'applications telle la Reverse Time Migration (RTM) sur ces architectures présente quelques limitations. Notamment, une capacité mémoire réduite, des communications fréquentes entre le CPU et le GPU présentant un possible goulot d'étranglement à cause du bus PCI, et des consommations d'énergie élevées. AMD a récemment lancé l'Accelerated Processing Unit (APU) : un processeur qui fusionne CPU et GPU sur la même puce via une mémoire unifiée. Dans cette thèse, nous explorons l'efficacité de la technologie APU dans un contexte pétrolier, et nous étudions si elle peut surmonter les limitations des solutions basées sur CPU et sur GPU. L'APU est évalué à l'aide d'une suite OpenCL de tests mémoire, applicatifs et d'efficacité énergétique. La faisabilité de l'utilisation hybride de l'APU est explorée. L'efficacité d'une approche par directives de compilation est également étudiée. En analysant une sélection d'applications sismiques (modélisation et RTM) au niveau du noeud et à grande échelle, une étude comparative entre CPU, APU et GPU est menée. Nous montrons la pertinence du recouvrement des entrées-sorties et des communications MPI par le calcul pour les grappes d'APU et de GPU, que les APU délivrent des performances variant entre celles du CPU et celles du GPU, et que l'APU peut être aussi énergétiquement efficace que le GPU
In an exploration context, Oil and Gas (O&G) companies rely on HPC to accelerate depth imaging algorithms. Solutions based on CPU clusters and hardware accelerators are widely embraced by the industry. The Graphics Processing Units (GPUs), with a huge compute power and a high memory bandwidth, had attracted significant interest.However, deploying heavy imaging workflows, the Reverse Time Migration (RTM) being the most famous, on such hardware had suffered from few limitations. Namely, the lack of memory capacity, frequent CPU-GPU communications that may be bottlenecked by the PCI transfer rate, and high power consumptions. Recently, AMD has launched theAccelerated Processing Unit (APU): a processor that merges a CPU and a GPU on the same die, with promising features notably a unified CPU-GPU memory. Throughout this thesis, we explore how efficiently may the APU technology be applicable in an O&G context, and study if it can overcome the limitations that characterize the CPU and GPU based solutions. The APU is evaluated with the help of memory, applicative and power efficiency OpenCL benchmarks. The feasibility of the hybrid utilization of the APUs is surveyed. The efficiency of a directive based approach is also investigated. By means of a thorough review of a selection of seismic applications (modeling and RTM) on the node level and on the large scale level, a comparative study between the CPU, the APU and the GPU is conducted. We show the relevance of overlapping I/O and MPI communications with computations for the APU and GPUclusters, that APUs deliver performances that range between those of CPUs and those of GPUs, and that the APU can be as power efficient as the GPU

APA, Harvard, Vancouver, ISO, and other styles

32

Bouguerra, Mohamed Slim. "Tolérance aux pannes dans des environnements de calcul parallèle et distribué : optimisation des stratégies de sauvegarde/reprise et ordonnancement." Thesis, Grenoble, 2012. http://www.theses.fr/2012GRENM023/document.

Full text

Abstract:

Le passage de l'échelle des nouvelles plates-formes de calcul parallèle et distribué soulève de nombreux défis scientifiques. À terme, il est envisageable de voir apparaître des applications composées d'un milliard de processus exécutés sur des systèmes à un million de coeurs. Cette augmentation fulgurante du nombre de processeurs pose un défi de résilience incontournable, puisque ces applications devraient faire face à plusieurs pannes par jours. Pour assurer une bonne exécution dans ce contexte hautement perturbé par des interruptions, de nombreuses techniques de tolérance aux pannes telle que l'approche de sauvegarde et reprise (checkpoint) ont été imaginées et étudiées. Cependant, l'intégration de ces approches de tolérance aux pannes dans le couple formé par l'application et la plate-forme d'exécution soulève des problématiques d'optimisation pour déterminer le compromis entre le surcoût induit par le mécanisme de tolérance aux pannes d'un coté et l'impact des pannes sur l'exécution d'un autre coté. Dans la première partie de cette thèse nous concevons deux modèles de performance stochastique (minimisation de l'impact des pannes et du surcoût des points de sauvegarde sur l'espérance du temps de complétion de l'exécution en fonction de la distribution d'inter-arrivées des pannes). Dans la première variante l'objectif est la minimisation de l'espérance du temps de complétion en considérant que l'application est de nature préemptive. Nous exhibons dans ce cas de figure tout d'abord une expression analytique de la période de sauvegarde optimale quand le taux de panne et le surcoût des points de sauvegarde sont constants. Par contre dans le cas où le taux de panne ou les surcoûts des points de sauvegarde sont arbitraires nous présentons une approche numérique pour calculer l'ordonnancement optimal des points de sauvegarde. Dans la deuxième variante, l'objectif est la minimisation de l'espérance de la quantité totale de temps perdu avant la première panne en considérant les applications de nature non-préemptive. Dans ce cas de figure, nous démontrons tout d'abord que si les surcoûts des points sauvegarde sont arbitraires alors le problème du meilleur ordonnancement des points de sauvegarde est NP-complet. Ensuite, nous exhibons un schéma de programmation dynamique pour calculer un ordonnancement optimal. Dans la deuxième partie de cette thèse nous nous focalisons sur la conception des stratégies d'ordonnancement tolérant aux pannes qui optimisent à la fois le temps de complétion de la dernière tâche et la probabilité de succès de l'application. Nous mettons en évidence dans ce cas de figure qu'en fonction de la nature de la distribution de pannes, les deux objectifs à optimiser sont tantôt antagonistes, tantôt congruents. Ensuite en fonction de la nature de distribution de pannes nous donnons des approches d'ordonnancement avec des ratios de performance garantis par rapport aux deux objectifs
The parallel computing platforms available today are increasingly larger. Typically the emerging parallel platforms will be composed of several millions of CPU cores running up to a billion of threads. This intensive growth of the number of parallel threads will make the application subject to more and more failures. Consequently it is necessary to develop efficient strategies providing safe and reliable completion for HPC parallel applications. Checkpointing is one of the most popular and efficient technique for developing fault-tolerant applications on such a context. However, checkpoint operations are costly in terms of time, computation and network communications. This will certainly affect the global performance of the application. In the first part of this thesis, we propose a performance model that expresses formally the checkpoint scheduling problem. Two variants of the problem have been considered. In the first variant, the objective is the minimization of the expected completion time. Under this model we prove that when the failure rate and the checkpoint cost are constant the optimal checkpoint strategy is necessarily periodic. For the general problem when the failure rate and the checkpoint cost are arbitrary we provide a numerical solution for the problem. In the second variant if the problem, we exhibit the tradeoff between the impact of the checkpoints operations and the lost computation due to failures. In particular, we prove that the checkpoint scheduling problem is NP-hard even in the simple case of uniform failure distribution. We also present a dynamic programming scheme for determining the optimal checkpointing times in all the variants of the problem. In the second part of this thesis, we design several fault tolerant scheduling algorithms that minimize the application makespan and in the same time maximize the application reliability. Mainly, in this part we point out that the growth rate of the failure distribution determines the relationship between both objectives. More precisely we show that when the failure rate is decreasing the two objectives are antagonist. In the second hand when the failure rate is increasing both objective are congruent. Finally, we provide approximation algorithms for both failure rate cases

APA, Harvard, Vancouver, ISO, and other styles

33

Heinrich, Franz. "Modélisation, prédiction et optimisation de la consommation énergétique d'applications MPI à l'aide de SimGrid." Thesis, Université Grenoble Alpes (ComUE), 2019. http://www.theses.fr/2019GREAM018/document.

Full text

Abstract:

Les changements technologiques dans la communauté du calcul hauteperformance (HPC) sont importants, en particulier dans le secteurdu parallélisme massif avec plusieurs milliers de cœurs de calcul sur unGPU unique ou accélérateur, et aussi des nouveaux réseaux complexes.La consommation d’énergie de ces machines continuera de croître dans les années à venir,faisant de l’énergie l’un des principaux facteurs de coût.Cela explique pourquoi même la métrique classique"flop / s", généralement utilisé pour évaluer les applications HPC etles machines, est progressivement remplacé par une métrique centré surl’énergie en "flop / watt".Une approche pour prédire la consommation d'énergie se fait parsimulation, cependant, une prédiction précise de la performance estcruciale pour estimer l’énergie. Dans cette thèse, nouscontribuons à la prédiction de performance et d'énergie des architectures HPC.Nous proposons un modèle énergétique qui a été implémenté dans unsimulateur open source, sg. Nous validons ce modèle avec soin eten le comparant systématiquement avec des expériences réelles.Nous utilisons cette contribution pour évaluer les projetsexistants et nous proposons de nouveaux governors DVFS spécialementconçus pour le contexte HPC
The High-Performance Computing (HPC) community is currently undergoingdisruptive technology changes in almost all fields, including a switch towardsmassive parallelism with several thousand compute cores on a single GPU oraccelerator and new, complex networks. Powering a massively parallel machinebecomesThe energy consumption of these machines will continue to grow in the future,making energy one of the principal cost factors of machine ownership. This explainswhy even the classic metric "flop/s", generally used to evaluate HPC applicationsand machines, is widely regarded as to be replaced by an energy-centric metric"flop/watt".One approach to predict energy consumption is through simulation, however, a pre-cise performance prediction is crucial to estimate the energy faithfully. In this thesis,we contribute to the performance and energy prediction of HPC architectures. Wepropose an energy model which we have implemented in the open source SimGridsimulator. We validate this model by carefully and systematically comparing itwith real experiments. We leverage this contribution to both evaluate existingand propose new DVFS governors that are part*icularly designed to suit the HPCcontext

APA, Harvard, Vancouver, ISO, and other styles

34

Genet, Damien. "Conception et réalisation d'un solveur pour les problèmes de dynamique des fluides pour les architectures many-core." Thesis, Bordeaux, 2014. http://www.theses.fr/2014BORD0379/document.

Full text

Abstract:

La simulation numérique fait partie intégrante du processus d'analyse. Que l'on veuille concevoir le profil d'un véhicule, ou chercher à prévoir le résultat d'un forage pétrolier, la simulation numérique est devenue un outil complémentaire à la théorie et aux expérimentations. Cet outildoit produire des résultats précis en un minimum de temps. Pour cela, nous avons à disposition des méthodes numériques précises, et des machines de calcul aux performances importantes. Cet outil doit être générique sur les maillages, l'ordre de la solution, les méthodes numériques, et doitmaintenir ses performances sur les machines de calculs modernes avec une hiérarchie complexes d'unité de calculs. Nous présentons dans cette thèse le background mathématiques de deux classes de schémas numériques, les méthodes aux éléments finis continus et discontinus. Puis nous présentons les enjeux de la conception d'une plateforme en prenant en compte l'ensemble de ces contraintes. Ensuite nous nous intéressons au sous-problème de l'assemblage au dessus d'un support d'exécution. L'opération d'assemblage se retrouve en algèbre linéaire dans les méthodes multi-frontales ou dans les applications de simulations assemblant un système linéaire. Puis, nous concluons en dressant un bilan sur la plateforme AeroSol et donnons des pistes d'évolution possibles
Numerical simulation is nowadays an essential part of engineering analysis, be it to design anew plane, or to detect underground oil reservoirs. Numerical simulations have indeed become an important complement to theoretical and experimental investigation, allowing one to reduce the cost of engineering design processes. In order to achieve a high level of precision, one need to increase the resolution of his computational domain. So to keep getting results in reasonable time, one shall nd a way to speed-up computations. To do this, we use high performance computing, HPC, to exploit the complex architecture of modern supercomputers. Under these two constraints, and some other like the genericity of finite elements, or the mesh dimension, we developed a new platform AeroSol. In this thesis, we present the mathematical background, and the two types of schemes that are implemented in the platform, the continuous finite elements method, and the discontinuous one. Then, we present the design choices made in the platform,then, we study a sub-problem, the assembly operation, which can be found in linear algebra multi-frontal methods

APA, Harvard, Vancouver, ISO, and other styles

35

Ho, Minh Quan. "Optimisation de transfert de données pour les processeurs pluri-coeurs, appliqué à l'algèbre linéaire et aux calculs sur stencils." Thesis, Université Grenoble Alpes (ComUE), 2018. http://www.theses.fr/2018GREAM042/document.

Full text

Abstract:

La prochaine cible de Exascale en calcul haute performance (High Performance Computing - HPC) et des récent accomplissements dans l'intelligence artificielle donnent l'émergence des architectures alternatives non conventionnelles, dont l'efficacité énergétique est typique des systèmes embarqués, tout en fournissant un écosystème de logiciel équivalent aux plateformes HPC classiques. Un facteur clé de performance de ces architectures à plusieurs cœurs est l'exploitation de la localité de données, en particulier l'utilisation de mémoire locale (scratchpad) en combinaison avec des moteurs d'accès direct à la mémoire (Direct Memory Access - DMA) afin de chevaucher le calcul et la communication. Un tel paradigme soulève des défis de programmation considérables à la fois au fabricant et au développeur d'application. Dans cette thèse, nous abordons les problèmes de transfert et d'accès aux mémoires hiérarchiques, de performance de calcul, ainsi que les défis de programmation des applications HPC, sur l'architecture pluri-cœurs MPPA de Kalray. Pour le premier cas d'application lié à la méthode de Boltzmann sur réseau (Lattice Boltzmann method - LBM), nous fournissons des techniques génériques et réponses fondamentales à la question de décomposition d'un domaine stencil itérative tridimensionnelle sur les processeurs clusterisés équipés de mémoires locales et de moteurs DMA. Nous proposons un algorithme de streaming et de recouvrement basé sur DMA, délivrant 33% de gain de performance par rapport à l'implémentation basée sur la mémoire cache par défaut. Le calcul de stencil multi-dimensionnel souffre d'un goulot d'étranglement important sur les entrées/sorties de données et d'espace mémoire sur puce limitée. Nous avons développé un nouvel algorithme de propagation LBM sur-place (in-place). Il consiste à travailler sur une seule instance de données, au lieu de deux, réduisant de moitié l'empreinte mémoire et cède une efficacité de performance-par-octet 1.5 fois meilleur par rapport à l'algorithme traditionnel dans l'état de l'art. Du côté du calcul intensif avec l'algèbre linéaire dense, nous construisons un benchmark de multiplication matricielle optimale, basé sur exploitation de la mémoire locale et la communication DMA asynchrone. Ces techniques sont ensuite étendues à un module DMA générique du framework BLIS, ce qui nous permet d'instancier une bibliothèque BLAS3 (Basic Linear Algebra Subprograms) portable et optimisée sur n'importe quelle architecture basée sur DMA, en moins de 100 lignes de code. Nous atteignons une performance maximale de 75% du théorique sur le processeur MPPA avec l'opération de multiplication de matrices (GEMM) de BLAS, sans avoir à écrire des milliers de lignes de code laborieusement optimisé pour le même résultat
Upcoming Exascale target in High Performance Computing (HPC) and disruptive achievements in artificial intelligence give emergence of alternative non-conventional many-core architectures, with energy efficiency typical of embedded systems, and providing the same software ecosystem as classic HPC platforms. A key enabler of energy-efficient computing on many-core architectures is the exploitation of data locality, specifically the use of scratchpad memories in combination with DMA engines in order to overlap computation and communication. Such software paradigm raises considerable programming challenges to both the vendor and the application developer. In this thesis, we tackle the memory transfer and performance issues, as well as the programming challenges of memory- and compute-intensive HPC applications on he Kalray MPPA many-core architecture. With the first memory-bound use-case of the lattice Boltzmann method (LBM), we provide generic and fundamental techniques for decomposing three-dimensional iterative stencil problems onto clustered many-core processors fitted withs cratchpad memories and DMA engines. The developed DMA-based streaming and overlapping algorithm delivers 33%performance gain over the default cache-based implementation.High-dimensional stencil computation suffers serious I/O bottleneck and limited on-chip memory space. We developed a new in-place LBM propagation algorithm, which reduces by half the memory footprint and yields 1.5 times higher performance-per-byte efficiency than the state-of-the-art out-of-place algorithm. On the compute-intensive side with dense linear algebra computations, we build an optimized matrix multiplication benchmark based on exploitation of scratchpad memory and efficient asynchronous DMA communication. These techniques are then extended to a DMA module of the BLIS framework, which allows us to instantiate an optimized and portable level-3 BLAS numerical library on any DMA-based architecture, in less than 100 lines of code. We achieve 75% peak performance on the MPPA processor with the matrix multiplication operation (GEMM) from the standard BLAS library, without having to write thousands of lines of laboriously optimized code for the same result

APA, Harvard, Vancouver, ISO, and other styles

36

TANGHERLONI, ANDREA. "High-Performance Computing to tackle complex problems in life sciences." Doctoral thesis, Università degli Studi di Milano-Bicocca, 2019. http://hdl.handle.net/10281/241217.

Full text

Abstract:

Nuovi ed efficienti metodi computazionali sono attualmente necessari per elaborare la ingente mole di dati generata dalle più recenti tecnologie sviluppate in svariati settori delle scienze della vita, tra cui la biologia computazionale e l’imaging medicale. In altre discipline, come la biologia dei sistemi in cui si modellano matematicamente le reti biochimiche, è necessario affrontare problemi relativi alla mancanza di dati quantitativi, e allo stesso tempo simulare efficacemente le dinamiche emergenti di queste reti. In questi contesti applicativi, le infrastrutture di calcolo ad elevate prestazioni si stanno rivelando uno strumento fondamentale per affrontare e risolvere i problemi che insorgono, in quanto permettono sia di elaborare in tempo reale ingenti quantità di dati sia di eseguire simulazioni in modo efficace ed efficiente. Durante gli ultimi anni si sta sempre di più radicando l’uso di dispositivi general-purpose caratterizzati da decine, centinaia o migliaia di core di calcolo, come ad esempio i coprocessori Many Integrated Cores e le Graphics Processing Units (GPU). L’uso delle GPU è motivato sia dalla efficienza computazionale che possono raggiungere (nell’ordine dei teraflop) grazie alle migliaia di core a disposizione sia dall’efficienza energetica che le contraddistingue. Oltre al calcolo ad elevate prestazioni, in questa tesi si sono sfruttate tecniche di intelligenza computazionale per affrontare problemi di ottimizzazione, come ad esempio la stima di parametri nella biologia dei sistemi, l’inferenza degli aplotipi nella bioinformatica, l’enhancement e la segmentazione di immagini medicali caratterizzate da istogrammi bimodali dei livelli di grigio che costituiscono le immagini stesse. La stima di parametri è stata affrontata sfruttando approcci di computazione evolutiva e di swarm intelligence insieme a nuovi simulatori accelerati su GPU - sviluppati appositamente per eseguire in parallelo sia molte simulazioni corrispondenti a diverse parametrizzazione dei modelli matematici che una singola simulazione di reti biochimiche a larga scala - permettendo di ridurre drasticamente il tempo di calcolo richiesto per calcolare le funzioni di fitness di questi approcci. Grazie alla loro efficacia nel risolvere i problemi combinatori, gli Algoritmi Genetici sono stati utilizzati per risolvere i problemi relativi alla ricostruzione degli aplotipi e l’enhancement delle immagini medicali. I due metodi proposti sono stati sviluppati sfruttando il paradigma Master-Slave che permette di distribuire il gravoso carico computazionale richiesto per risolvere questi problemi, riducendo notevolmente i tempi di calcolo. I risultati ottenuti in questa tesi mostrano come l’utilizzo del calcolo ad elevate prestazioni, unito alle tecniche di intelligenza computazionale, rappresenti una strategia efficace per la risoluzione di questi problemi, permettendo di effettuare analisi computazionali complesse richieste nelle scienze della vita.
Recent advances in several research fields of Life Sciences, such as Bioinformatics, Computational Biology and Medical Imaging, are generating huge amounts of data that require effective computational tools to be analyzed, while other disciplines, like Systems Biology, typically deal with mathematical models of biochemical networks, where issues related to the lack of quantitative parameters and the efficient description of the emergent dynamics must be faced. In these contexts, High-Performance Computing (HPC) infrastructures represent a fundamental means to tackle these problems, allowing for both real-time processing of data and fast simulations. In the latest years, the use of general-purpose many-core devices, such as Many Integrated Core coprocessors and Graphics Processing Units (GPUs), gained ground. The second ones, which are pervasive, relatively cheap and extremely efficient parallel many-core coprocessors capable of achieving tera-scale performance on common workstations, have been extensively exploited in the work presented in this thesis. Moreover, some of the problems described here require the application of Computational Intelligence (CI) methods. As a matter fact, the Parameter Estimation problem in Systems Biology, the Haplotype Assembly problem in Genome Analysis as well as the enhancement and segmentation of medical images characterized by a bimodal gray level intensity histogram can be viewed as optimization problems, which can be effectively addressed by relying on CI approaches. In the case of the Parameter Estimation problem, Evolutionary and Swarm Intelligence techniques were exploited and coupled with novel GPU-powered simulators-designed and developed in this thesis to execute both coarse-grained and fine-grained simulations-which were used to perform in a parallel fashion the biochemical simulations underlying the fitness functions required by these population-based approaches. The Haplotype Assembly and the enhancement of medical images problems were both addressed by means of Genetic Algorithms (GAs), which were shown to be very effective in solving combinatorial problems. Since the proposed approaches based on GAs are computationally demanding, a Master-Slave paradigm was exploited to distribute the workload, reducing the required running time. The overall results show that coupling HPC and CI techniques is advantageous to address these problems and speed up the computational analyses in these research fields.

APA, Harvard, Vancouver, ISO, and other styles

37

Galia, Antonio. "A Dynamic Homogenization Method for Nuclear Reactor Core Calculations." Thesis, université Paris-Saclay, 2020. http://www.theses.fr/2020UPASP042.

Full text

Abstract:

Dans les calculs de réacteurs à trois dimensions, nombreuses techniques d'homogénéisation ont été développées pour l'utilisation du schéma de calcul classique à deux étapes, basé sur les sections efficaces homogénéisées au préalable et utilisées ensuite par interpolation pour un état physique donné.D'autre part, les schémas de calcul basées principalement sur les méthodes des caractéristiques, qui visent le calcul direct du réacteur sans homogénéisation, ont des performances encore limitées en raison des capacités des machines et font alors le recours à des solutions de transport simplifiées. Ce travail a pour objectif d'étudier une nouvelle approche dans laquelle l'homogénéisation dynamique est utilisée pourproduire le flux neutronique de pondération sur les modèles d'assemblage tridimensionnels. L'application de la méthode pour un calcul d'un REP en 3D est comparée aux résultats issus d'un calcul de référence numérique en transport 3D et d'un calcul classique à deux-étapes. La réalisation repose sur le calcul de haute performance et avec un haut niveau de parallélisme
Three-dimensional deterministic core calculations are typically based on the classical two-step approach, where the homogenized cross sections of an assembly type are pre-calculated and then interpolated to the actual state in the reactor. The weighting flux used for cross-section homogenization is determined assuming the fundamental mode condition and using a critical-leakage modelthat does not account for the actual environment of an assembly. On the other hand, 3D direct transport calculations and the 2D/1D Fusion method, mostly based on the method of characteristics, have recently been applied showing excellent agreement with reference Monte-Carlo code, but still remaining computationally expensive for multiphysics applications and core depletioncalculations.In the present work, we propose a method of Dynamic Homogenization as an alternative technique for 3D core calculations, in the framework of domain decomposition method that can be massively parallelized. It consists of an iterative process between core and assembly calculationsthat preserves assembly exchanges. The main features of this approach are:i) cross-sections homogenization takes into account the environment of each assembly in the core;ii) the reflector can be homogenized with its realistic 2D geometry and its environment;iii) the method avoids expensive 3D transport calculations;iv) no “off-line” calculation and therefore v) no cross-section interpolation is required.The verification tests on 2D and 3D full core problems are presented applying several homogenization and equivalence techniques, comparing against direct 3D transport calculation. For this analysis, we solved the NEA “PWR MOX/UO2 Core Benchmark” problem, which is characterized by strong radial heterogeneities due to the presence of different types of UOx and MOx assemblies at different burnups. The obtained results show the advantages of the proposed method in terms of precision with respect to two-step and performances with respect to the direct approach

APA, Harvard, Vancouver, ISO, and other styles

38

Yildiz, Orcun. "Efficient Big Data Processing on Large-Scale Shared Platforms ˸ managing I/Os and Failure." Thesis, Rennes, École normale supérieure, 2017. http://www.theses.fr/2017ENSR0009/document.

Full text

Abstract:

En 2017 nous vivons dans un monde régi par les données. Les applications d’analyse de données apportent des améliorations fondamentales dans de nombreux domaines tels que les sciences, la santé et la sécurité. Cela a stimulé la croissance des volumes de données (le déluge du Big Data). Pour extraire des informations utiles à partir de cette quantité énorme d’informations, différents modèles de traitement des données ont émergé tels que MapReduce, Hadoop, et Spark. Les traitements Big Data sont traditionnellement exécutés à grande échelle (les systèmes HPC et les Clouds) pour tirer parti de leur puissance de calcul et de stockage. Habituellement, ces plateformes à grande échelle sont utilisées simultanément par plusieurs utilisateurs et de multiples applications afin d’optimiser l’utilisation des ressources. Bien qu’il y ait beaucoup d’avantages à partager de ces plateformes, plusieurs problèmes sont soulevés dès lors qu’un nombre important d’utilisateurs et d’applications les utilisent en même temps, parmi lesquels la gestion des E / S et des défaillances sont les principales qui peuvent avoir un impact sur le traitement efficace des données.Nous nous concentrons tout d’abord sur les goulots d’étranglement liés aux performances des E/S pour les applications Big Data sur les systèmes HPC. Nous commençons par caractériser les performances des applications Big Data sur ces systèmes. Nous identifions les interférences et la latence des E/S comme les principaux facteurs limitant les performances. Ensuite, nous nous intéressons de manière plus détaillée aux interférences des E/S afin de mieux comprendre les causes principales de ce phénomène. De plus, nous proposons un système de gestion des E/S pour réduire les dégradations de performance que les applications Big Data peuvent subir sur les systèmes HPC. Par ailleurs, nous introduisons des modèles d’interférence pour les applications Big Data et HPC en fonction des résultats que nous obtenons dans notre étude expérimentale concernant les causes des interférences d’E/S. Enfin, nous exploitons ces modèles afin de minimiser l’impact des interférences sur les performances des applications Big Data et HPC. Deuxièmement, nous nous concentrons sur l’impact des défaillances sur la performance des applications Big Data en étudiant la gestion des pannes dans les clusters MapReduce partagés. Nous présentons un ordonnanceur qui permet un recouvrement rapide des pannes, améliorant ainsi les performances des applications Big Data
As of 2017, we live in a data-driven world where data-intensive applications are bringing fundamental improvements to our lives in many different areas such as business, science, health care and security. This has boosted the growth of the data volumes (i.e., deluge of Big Data). To extract useful information from this huge amount of data, different data processing frameworks have been emerging such as MapReduce, Hadoop, and Spark. Traditionally, these frameworks run on largescale platforms (i.e., HPC systems and clouds) to leverage their computation and storage power. Usually, these largescale platforms are used concurrently by multiple users and multiple applications with the goal of better utilization of resources. Though benefits of sharing these platforms exist, several challenges are raised when sharing these large-scale platforms, among which I/O and failure management are the major ones that can impact efficient data processing.To this end, we first focus on I/O related performance bottlenecks for Big Data applications on HPC systems. We start by characterizing the performance of Big Data applications on these systems. We identify I/O interference and latency as the major performance bottlenecks. Next, we zoom in on I/O interference problem to further understand the root causes of this phenomenon. Then, we propose an I/O management scheme to mitigate the high latencies that Big Data applications may encounter on HPC systems. Moreover, we introduce interference models for Big Data and HPC applications based on the findings we obtain in our experimental study regarding the root causes of I/O interference. Finally, we leverage these models to minimize the impact of interference on the performance of Big Data and HPC applications. Second, we focus on the impact of failures on the performance of Big Data applications by studying failure handling in shared MapReduce clusters. We introduce a failure-aware scheduler which enables fast failure recovery while optimizing data locality thus improving the application performance

APA, Harvard, Vancouver, ISO, and other styles

39

Ponsard, Raphael. "Traitement en temps réel, haut débit et faible latence, d'images par coprocesseurs GPU & FPGA utilisant les techniques d'accès direct à la mémoire distante." Thesis, Université Grenoble Alpes, 2020. http://www.theses.fr/2020GRALT071.

Full text

Abstract:

L'amélioration permanente des sources de rayonnement X, ansi que les gains en performances des détecteurs de dernière géneration rendent possibles des experiences très performantes, qui peuvent produire des quantités énormes de données à haut débit, aussi difficiles à gérer qu'à stocker.Dans ce contexte, il devient indispensable d'améliorer les systèmes de calculs et de permettre le pré-traitement en temps réel des données brutes, la réjection de celles qui sont inutiles, la compression et la supervision en temps réel.Ces problématiques de gestion des flux de données n'ont pas encore reçu de réponse pleinement satisfaisante, en tous cas pas de façon générale.Cette thèse fait partie d'un projet plus vaste, le projet RASHPA de l'ESRF, visant à développer un système d'acquisition haute performance basé sur le RDMA.Une des caractéristiques essentielle de ce projet RASHPA est sa capacité à transférer directement des données de la tête du détecteur vers la mémoire de l'unité de calcul, au plus haut débit possible, en utilisant les techniques d'accès direct à la mémoire, sans copies inutiles, et minimisant le recours à un processeur (CPU).Le travail réalisé pendant cette thèse est une contribution au système RASHPA, qui rend possible le transfert direct de données dans la mémoire interne de cartes accélératrices.Un mécanisme de synchronisation à faible latence entre carte réseau RDMA et unité de calcul est proposé, déclenchant les opérations au rythme du détecteur.Cela permet de fournir une solution globale au traitement de données en temps réel, tant sur ordinateurs classiques que sur accélérateurs massivement paralleles.Pour illustrer la souplesse et l'extensibilité de l'approche proposée, plusieurs simulateurs de détecteurs ont été réalisés, s'appuyant sur les protocoles RoCEv2 ou PCI Express pour la partie transport ainsi que des unités de calcul RASHPA (RPU) à base de cartes graphiques (GPU) ou de circuits reconfigurables (FPGA).Le traitement de données en temps réel sur FPGA, encore peu pratiqué dans les sciences du rayon X, est évalué en utilisant les techniques de synthèse de haut niveau (HLS).Le projet est complété par un allocateur de mémoire centrale par grands blocs contigus, et par un système de translation d'adresses, tous deux destinés au contrôleur DMA.La qualification du pipeline de calcul proposé a été faite en s'inpirant d'expériences de cristallographie en série (SSX).Il comprend un pré-traitement des données brutes comme prévu pour un détecteur à gain adaptatif, la réjection d'images en fonction du nombre de pics de Bragg, et la compression des données au format matrice creuse
The constant evolution of X-ray photon sources associated to the increasing performance of high-end X-ray detectors allows cutting-edge experiments that can produce very high throughput data streams and generate large volumes of data that are challenging to manage and store.In this context, it becomes fundamental to optimize processing architectures that allow real-time image processing such as raw data pre-treatment, data reduction, data compression, fast-feedback.These data management challenges have still not been addressed in a fully satisfactory way as of today, and in any case, not in a generic manner.This thesis is part of the ESRF RASHPA project that aims at developing a RDMA-based Acquisition System for High Performance Applications.One of the main characteristics of this framework is the direct data placement, straight from the detector head (data producer) to the processing computing infrastructure (data receiver), at the highest acceptable throughput, using Remote Direct Memory Access (RDMA) and zero-copy techniques with minimal Central Processing Unit (CPU) interventions.The work carried out in this thesis is a contribution to the RASHPA framework, enabling data transfer directly to the internal memory of accelerator boards.A low-latency synchronisation mechanism between the RDMA network interface cards (RNIC) and the processing unit is proposed to trigger data processing while keeping pace with detector.Thus, a comprehensive solution fulfilling the online data analysis challenges is proposed on standard computer and massively parallel coprocessors as well.Scalability and versatility of the proposed approach is exemplified by detector emulators, leveraging RoCEv2 (RDMA over Converged Ethernet) or PCI-Express links and RASHPA Processing Units (RPUs) such as Graphic Processor Units (GPUs) and Field Gate Programmable Arrays (FPGAs).Real-time data processing on FPGA, seldom adopted in X ray science, is evaluated and the benefits of high level synthesis are exhibited.The framework is supplemented with an allocator of large contiguous memory chunk in main memory and an address translation system for accelerators, both geared towards DMA transfer.The assessment of the proposed pipeline was performed with online data analysis as found in serial diffraction experiments.This includes raw data pre-treatment as foreseen with adaptive gain detectors, image rejection using Bragg's peaks counting and data compression to sparse matrix format

APA, Harvard, Vancouver, ISO, and other styles

40

Palomares, Vincent. "Combiner approches statique et dynamique pour modéliser la performance de boucles HPC." Thesis, Versailles-St Quentin en Yvelines, 2015. http://www.theses.fr/2015VERS040V/document.

Full text

Abstract:

La complexité des CPUs s’est accrue considérablement depuis leurs débuts, introduisant des mécanismes comme le renommage de registres, l’exécution dans le désordre, la vectorisation, les préfetchers et les environnements multi-coeurs pour améliorer les performances avec chaque nouvelle génération de processeurs. Cependant, la difficulté a suivi la même tendance pour ce qui est a) d’utiliser ces mêmes mécanismes à leur plein potentiel, b) d’évaluer si un programme utilise une machine correctement, ou c) de savoir si le design d’un processeur répond bien aux besoins des utilisateurs.Cette thèse porte sur l’amélioration de l’observabilité des facteurs limitants dans les boucles de calcul intensif, ainsi que leurs interactions au sein de microarchitectures modernes.Nous introduirons d’abord un framework combinant CQA et DECAN (des outils d’analyse respectivement statique et dynamique) pour obtenir des métriques détaillées de performance sur des petits codelets et dans divers scénarios d’exécution.Nous présenterons ensuite PAMDA, une méthodologie d’analyse de performance tirant partie de l’analyse de codelets pour détecter d’éventuels problèmes de performance dans des applications de calcul à haute performance et en guider la résolution.Un travail permettant au modèle linéaire Cape de couvrir la microarchitecture Sandy Bridge de façon détaillée sera décrit, lui donnant plus de flexibilité pour effectuer du codesign matériel / logiciel. Il sera mis en pratique dans VP3, un outil évaluant les gains de performance atteignables en vectorisant des boucles.Nous décrirons finalement UFS, une approche combinant analyse statique et simulation au cycle près pour permettre l’estimation rapide du temps d’exécution d’une boucle en prenant en compte certaines des limites de l’exécution en désordre dans des microarchitectures modernes
The complexity of CPUs has increased considerably since their beginnings, introducing mechanisms such as register renaming, out-of-order execution, vectorization,prefetchers and multi-core environments to keep performance rising with each product generation. However, so has the difficulty in making proper use of all these mechanisms, or even evaluating whether one’s program makes good use of a machine,whether users’ needs match a CPU’s design, or, for CPU architects, knowing how each feature really affects customers.This thesis focuses on increasing the observability of potential bottlenecks inHPC computational loops and how they relate to each other in modern microarchitectures.We will first introduce a framework combining CQA and DECAN (respectively static and dynamic analysis tools) to get detailed performance metrics on smallcodelets in various execution scenarios.We will then present PAMDA, a performance analysis methodology leveraging elements obtained from codelet analysis to detect potential performance problems in HPC applications and help resolve them. A work extending the Cape linear model to better cover Sandy Bridge and give it more flexibility for HW/SW codesign purposes will also be described. It will bedirectly used in VP3, a tool evaluating the performance gains vectorizing loops could provide.Finally, we will describe UFS, an approach combining static analysis and cycle accurate simulation to very quickly estimate a loop’s execution time while accounting for out-of-order limitations in modern CPUs

APA, Harvard, Vancouver, ISO, and other styles

41

Gouin, Florian. "Méthodologie de placement d'algorithmes de traitement d'images sur architecture massivement parallèle." Thesis, Paris Sciences et Lettres (ComUE), 2019. http://www.theses.fr/2019PSLEM075.

Full text

Abstract:

Dans le secteur industriel, la course à l’amélioration des définitions des capteurs vidéos se répercute directement dans le domaine du traitement d’images par une augmentation des quantités de données à traiter. Dans le cadre de l’embarqué, les mêmes algorithmes ont fréquemment pour contrainte supplémentaire de devoir supporter le temps réel. L’enjeu est alors de trouver une solution présentant une consommation énergétique modérée, une puissance calculatoire soutenue et une bande passante élevée pour l’acheminement des données.Le GPU est une architecture adaptée pour ce genre de tâches notamment grâce à sa conception basée sur le parallélisme massif. Cependant, le fait qu’un accélérateur tel que le GPU prenne place dans une architecture globale hétérogène, ou encore ait de multiples niveaux hiérarchiques, complexifient sa mise en œuvre. Ainsi, les transformations de code visant à placer un algorithme sur GPU tout en optimisant l’exploitation des capacités de ce dernier, ne sont pas des opérations triviales. Dans le cadre de cette thèse, nous avons développé une méthodologie permettant de porter des algorithmes sur GPU. Cette méthodologie est guidée par un ensemble de critères de transformations de programme. Certains d’entre-eux sont définis afin d’assurer la légalité du portage, tandis que d’autres sont utilisés pour améliorer les temps d’exécution sur cette architecture. En complément, nous avons étudié les performances des différentes mémoires ainsi que la gestion du parallélisme gros grain sur les architectures GPU Nvidia.Ces travaux sont une étape préalable à l’ajout de nouveaux critères dans notre méthodologie, visant à maximiser l’exploitation des capacités de ces GPUs. Les résultats expérimentaux obtenus montrent non seulement la fiabilité du placement mais aussi une accélération des temps d’exécution sur plusieurs applications industrielles de traitement d’images écrites en langage C ou C++
In industries, the curse of image sensors for higher definitions increases the amount of data to be processed in the image processing domain. The concerned algorithms, applied to embedded solutions, also have to frequently accept real-time constraints. So, the main issues are to moderate power consumption, to attain high performance computings and high memory bandwidth for data delivery.The massively parallel conception of GPUs is especially well adapted for this kind of tasks. However, this achitecture is complex to handle. Some reasons are its multiple memory and computation hierachical levels or the usage of this accelerator inside a global heterogeneous architecture. Therefore, mapping algorithms on GPUs, while exploiting high performance capacities of this architecture, aren’t trivial operations.In this thesis, we have developped a mapping methodology for sequential algorithms and designed it for GPUs. This methodology is made up of code analysis phases, mapping criteria verifications, code transformations and a final code generation phase. Part of the defined mapping criteria has been designed to assure the mapping legality, by considering GPU hardware specifities, whereas the other part are used to improve runtimes. In addition, we have studied GPU memories performances and the capacity of GPU to efficiently support coarse grain parallellism. This complementary work is a foundation for further improvments of GPU resources exploitation inside this mapping methodology.Last, the experimental results have revealed the functional reliability of the codes mapped on GPU and a speedup on the runtime of many C and C++ image processing applications used in industry

APA, Harvard, Vancouver, ISO, and other styles

42

Lasry, Jérémie. "Calculs de plaques fissurées en flexion avec la méthode des éléments finis étendue (XFEM)." Phd thesis, INSA de Toulouse, 2009. http://tel.archives-ouvertes.fr/tel-00465635.

Full text

Abstract:

Cette thèse est consacrée au développement de méthodes numériques pour la simulation de plaques et coques fissurées. Pour ce problème, les méthodes classiques sont basées sur la Méthode des Elements Finis (MEF). En raison de la présence d'une singularité en fond de fissure, la MEF souffre de plusieurs défauts. Son taux de convergence n'est pas optimal. De plus, en cas de propagation de la fissure, le domaine doit être remaillé. Une nouvelle méthode d'éléments finis, introduite en 1999 et baptisée XFEM, permet de s'affranchir de ces inconvénients. Dans cette méthode, la base éléments finis est enrichie par des fonctions de forme spécifiques qui représentent la séparation du matériau et la singularité de fond de fissure. Ainsi, domaine et fissure sont indépendants et le taux de convergence est optimal. Dans cette thèse, on développe deux formulations XFEM adaptées à un modèle de plaques minces. Ces méthodes ont pu être implémentées dans la bibliothèque d'éléments finis Getfem++, et testées sur des exemples où la solution exacte est connue. L'étude d'erreur montre que la méthode XFEM possède un taux de convergence optimal, alors que la MEF montre une convergence plus lente. L'autre contribution de cette thèse concerne le calcul de Facteurs d'Intensité de Contraintes (FIC) : ces grandeurs indiquent le risque de propagation de la fissure. Nous proposons deux méthodes de calcul originales, basées sur nos formulations XFEM. La première méthode utilise l'intégrale-J, et la deuxième fournit une estimation directe, sans post-traitement.

APA, Harvard, Vancouver, ISO, and other styles

43

Moustafa, Salli. "Massively Parallel Cartesian Discrete Ordinates Method for Neutron Transport Simulation." Thesis, Bordeaux, 2015. http://www.theses.fr/2015BORD0408/document.

Full text

Abstract:

La simulation haute-fidélité des coeurs de réacteurs nucléaires nécessite une évaluation précise du flux neutronique dans le coeur du réacteur. Ce flux est modélisé par l’équation de Boltzmann ou équation du transport neutronique. Dans cette thèse, on s’intéresse à la résolution de cette équation par la méthode des ordonnées discrètes (SN) sur des géométries cartésiennes. Cette méthode fait intervenir un schéma d’itérations à source, incluant un algorithme de balayage sur le domaine spatial qui regroupe l’essentiel des calculs effectués. Compte tenu du très grand volume de calcul requis par la résolution de l’équation de Boltzmann, de nombreux travaux antérieurs ont été consacrés à l’utilisation du calcul parallèle pour la résolution de cette équation. Jusqu’ici, ces algorithmes de résolution parallèles de l’équation du transport neutronique ont été conçus en considérant la machine cible comme une collection de processeurs mono-coeurs indépendants, et ne tirent donc pas explicitement profit de la hiérarchie mémoire et du parallélisme multi-niveaux présents sur les super-calculateurs modernes. Ainsi, la première contribution de cette thèse concerne l’étude et la mise en oeuvre de l’algorithme de balayage sur les super-calculateurs massivement parallèles modernes. Notre approche combine à la fois la vectorisation par des techniques de la programmation générique en C++, et la programmation hybride par l’utilisation d’un support d’exécution à base de tâches: PaRSEC. Nous avons démontré l’intérêt de cette approche grâce à des modèles de performances théoriques, permettant également de prédire le partitionnement optimal. Par ailleurs, dans le cas de la simulation des milieux très diffusifs tels que le coeur d’un REP, la convergence du schéma d’itérations à source est très lente. Afin d’accélérer sa convergence, nous avons implémenté un nouvel algorithme (PDSA), adapté à notre implémentation hybride. La combinaison de ces techniques nous a permis de concevoir une version massivement parallèle du solveur SN Domino. Les performances de la partie Sweep du solveur atteignent 33.9% de la performance crête théorique d’un super-calculateur à 768 cores. De plus, un calcul critique d’un réacteur de type REP 900MW à 26 groupes d’énergie mettant en jeu 1012 DDLs a été résolu en 46 minutes sur 1536 coeurs
High-fidelity nuclear reactor core simulations require a precise knowledge of the neutron flux inside the reactor core. This flux is modeled by the linear Boltzmann equation also called neutron transport equation. In this thesis, we focus on solving this equation using the discrete ordinates method (SN) on Cartesian mesh. This method involves a source iteration scheme including a sweep over the spatial mesh and gathering the vast majority of computations in the SN method. Due to the large amount of computations performed in the resolution of the Boltzmann equation, numerous research works were focused on the optimization of the time to solution by developing parallel algorithms for solving the transport equation. However, these algorithms were designed by considering a super-computer as a collection of independent cores, and therefore do not explicitly take into account the memory hierarchy and multi-level parallelism available inside modern super-computers. Therefore, we first proposed a strategy for designing an efficient parallel implementation of the sweep operation on modern architectures by combining the use of the SIMD paradigm thanks to C++ generic programming techniques and an emerging task-based runtime system: PaRSEC. We demonstrated the need for such an approach using theoretical performance models predicting optimal partitionings. Then we studied the challenge of converging the source iterations scheme in highly diffusive media such as the PWR cores. We have implemented and studied the convergence of a new acceleration scheme (PDSA) that naturally suits our Hybrid parallel implementation. The combination of all these techniques have enabled us to develop a massively parallel version of the SN Domino solver. It is capable of tackling the challenges posed by the neutron transport simulations and compares favorably with state-of-the-art solvers such as Denovo. The performance of the PaRSEC implementation of the sweep operation reaches 6.1 Tflop/s on 768 cores corresponding to 33.9% of the theoretical peak performance of this set of computational resources. For a typical 26-group PWR calculations involving 1.02×1012 DoFs, the time to solution required by the Domino solver is 46 min using 1536 cores

APA, Harvard, Vancouver, ISO, and other styles

44

Garlet, Milani Luís Felipe. "Autotuning assisté par apprentissage automatique de tâches OpenMP." Thesis, Université Grenoble Alpes, 2020. http://www.theses.fr/2020GRALM022.

Full text

Abstract:

Les architectures informatiques modernes sont très complexes, nécessitant un grand effort de programmation pour obtenir toute la performance que le matériel est capable de fournir. En effet, alors que les développeurs connaissent les optimisations potentielles, la seule façon possible de dire laquelle est le plus rapide pour une plate-forme est de le tester. En outre, les nombreuses différences entre deux plates-formes informatiques, dans le nombre de cœurs, les tailles de cache, l'interconnexion, les fréquences de processeur et de mémoire, etc, rendent très difficile la bonne exécution du même code sur plusieurs systèmes. Pour extraire le plus de performances, il est souvent nécessaire d'affiner le code pour chaque système. Par conséquent, les développeurs adoptent l'autotuning pour atteindre un certain degré de performance portable. De cette façon, les optimisations potentielles peuvent être spécifiées une seule fois et, après avoir testé chaque possibilité sur une plate-forme, obtenir une version haute performance du code pour cette plate-forme particulière. Toutefois, cette technique nécessite de régler chaque application pour chaque plate-forme quelle cible. Non seulement cela prend du temps, mais l'autotuning et l'exécution réelle de l'application diffèrent. Des différences dans les données peuvent déclencher un comportement différent, ou il peut y avoir différentes interactions entre les fils dans l'autotuning et l'exécution réelle. Cela peut conduire à des décisions sous-optimales si l'autotuner choisit une version qui est optimale pour la formation, mais pas pour l'exécution réelle de l'application. Nous proposons l'utilisation d'autotuning pour sélectionner les versions du code pertinentes pour une gamme de plates-formes et, lors de l'exécution de l'application, le système de temps d'exécution identifie la meilleure version à utiliser à l'aide de l'une des trois politiques que nous proposons: Mean, Upper Confidence Bound et Gradient Bandit. De cette façon, l'effort de formation est diminué et il permet l'utilisation du même ensemble de versions avec différentes plates-formes sans sacrifier les performances. Nous concluons que les politiques proposées peuvent identifier la version à utiliser sans subir de pertes de performance substantielles. De plus, lorsque l'utilisateur ne connaît pas suffisamment de détails de l'application pour configurer de manière optimale la politique d'exploration puis de validation utilisée par d'autres systèmes de temps d'exécution, la politique UCB plus adaptable peut être utilisée à sa place
Modern computer architectures are highly complex, requiring great programming effort to obtain all the performance the hardware is capable of delivering. Indeed, while developers know potential optimizations, the only feasible way to tell which of them is faster for some platform is to test it. Furthermore, the many differences between two computer platforms, in the number of cores, cache sizes, interconnect, processor and memory frequencies, etc, makes it very challenging to have the same code perform well over several systems. To extract the most performance, it is often necessary to fine-tune the code for each system. Consequently, developers adopt autotuning to achieve some degree of portable performance. This way, the potential optimizations can be specified once, and, after testing each possibility on a platform, obtain a high-performance version of the code for that particular platform. However, this technique requires tuning each application for each platform it targets. This is not only time consuming but the autotuning and the real execution of the application differ. Differences in the data may trigger different behaviour, or there may be different interactions between the threads in the autotuning and the actual execution. This can lead to suboptimal decisions if the autotuner chooses a version that is optimal for the training but not for the real execution of the application. We propose the use of autotuning for selecting versions of the code relevant for a range of platforms and, during the execution of the application, the runtime system identifies the best version to use using one of three policies we propose: Mean, Upper Confidence Bound, and Gradient Bandit. This way, training effort is decreased and it enables the use of the same set of versions with different platforms without sacrificing performance. We conclude that the proposed policies can identify the version to use without incurring substantial performance losses. Furthermore, when the user does not know enough details of the application to configure optimally the explore-then-commit policy usedy by other runtime systems, the more adaptable UCB policy can be used in its place

APA, Harvard, Vancouver, ISO, and other styles

45

Ben, Hassan Saïdi Ismaïl. "Numerical simulations of the shock wave-boundary layer interactions." Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLS390/document.

Full text

Abstract:

Les situations dans lesquelles une onde de choc interagit avec une couche limite sont nombreuses dans les industries aéronautiques et spatiales. Sous certaines conditions (nombre de Mach élevé, grand angle de choc…), ces interactions entrainent un décollement de la couche limite. Des études antérieures ont montré que la zone de recirculation et le choc réfléchi sont tous deux soumis à un mouvement d'oscillation longitudinale à basse fréquence connu sous le nom d’instabilité de l’interaction onde de choc / couche limite (IOCCL). Ce phénomène appelé soumet les structures à des chargement oscillants à basse fréquence qui peuvent endommager les structures.L’objectif du travail de thèse est de réaliser des simulations instationnaires de l’IOCCL afin de contribuer à une meilleure compréhension de l’instabilité de l’IOCCL et des mécanismes physiques sous-jacents.Pour effectuer cette étude, une approche numérique originale est utilisée. Un schéma « One step » volume fini qui couple l’espace et le temps, repose sur une discrétisation des flux convectifs par le schéma OSMP développé jusqu’à l’ordre 7 en temps et en espace. Les flux visqueux sont discrétisés en utilisant un schéma aux différences finies centré standard. Une contrainte de préservation de la monotonie (MP) est utilisée pour la capture de choc. La validation de cette approche démontre sa capacité à calculer les écoulements turbulents et la grande efficacité de la procédure MP pour capturer les ondes de choc sans dégrader la solution pour un surcoût négligeable. Il est également montré que l’ordre le plus élevé du schéma OSMP testé représente le meilleur compromis précision / temps de calcul. De plus un ordre de discrétisation des flux visqueux supérieur à 2 semble avoir une influence négligeable sur la solution pour les nombres de Reynolds relativement élevés considérés.En simulant un cas d’IOCCL 3D avec une couche limite incidente laminaire, l’influence des structures turbulentes de la couche limite sur l’instabilité de l’IOCCL est supprimée. Dans ce cas, l’unique cause d’IOCCL suspectée est liée à la dynamique de la zone de recirculation. Les résultats montrent que seul le choc de rattachement oscille aux fréquences caractéristiques de la respiration basse fréquence du bulbe de recirculation. Le point de séparation ainsi que le choc réfléchi ont une position fixe. Cela montre que dans cette configuration, l’instabilité de l’IOCCL n’a pas été reproduite.Afin de reproduire l’instabilité de l’IOCCL, la simulation de l’interaction entre une onde de choc et une couche limite turbulente est réalisée. Une méthode de turbulence synthétique (Synthetic Eddy Method - SEM) est développée et utilisée à l’entrée du domaine de calcul pour initier une couche limite turbulente à moindre coût. L’analyse des résultats est effectuée en utilisant notamment la méthode snapshot-POD (Proper Orthogonal Decomposition). Pour cette simulation, l’instabilité de l’IOCCL a été reproduite. Les résultats suggèrent que la dynamique du bulbe de recirculation est dominée par une respiration à moyenne fréquence. Ces cycles successifs de remplissage / vidange de la zone séparée sont irréguliers dans le temps avec une taille maximale du bulbe de recirculation variant d’un cycle à l’autre. Ce comportement du bulbe de recirculation traduit une modulation basse fréquence des amplitudes des oscillations des points de séparation et de recollement et donc une respiration basse fréquence de la zone séparée. Ces résultats suggèrent que l’instabilité de l’IOCCL est liée à cette dynamique basse fréquence du bulbe de recirculation, les oscillations du pied du choc réfléchi étant en phase avec le point de séparation
Situations where an incident shock wave impinges upon a boundary layer are common in the aeronautical and spatial industries. Under certain circumstances (High Mach number, large shock angle...), the interaction between an incident shock wave and a boundary layer may create an unsteady separation bubble. This bubble, as well as the subsequent reflected shock wave, are known to oscillate in a low-frequency streamwise motion. This phenomenon, called the unsteadiness of the shock wave boundary layer interaction (SWBLI), subjects structures to oscillating loads that can lead to damages for the solid structure integrity.The aim of the present work is the unsteady numerical simulation of (SWBLI) in order to contribute to a better understanding of the SWBLI unsteadiness and the physical mechanism causing these low frequency oscillations of the interaction zone.To perform this study, an original numerical approach is used. The one step Finite Volume approach relies on the discretization of the convective fluxes of the Navier Stokes equations using the OSMP scheme developed up to the 7-th order both in space and time, the viscous fluxes being discretized using a standard centered Finite-Difference scheme. A Monotonicity-Preserving (MP) constraint is employed as a shock capturing procedure. The validation of this approach demonstrates the correct accuracy of the OSMP scheme to predict turbulent features and the great efficiency of the MP procedure to capture discontinuities without spoiling the solution and with an almost negligible additional cost. It is also shown that the use of the highest order tested of the OSMP scheme is relevant in term of simulation time and accuracy compromise. Moreover, an order of accuracy higher than 2-nd order for approximating the diffusive fluxes seems to have a negligible influence on the solution for such relatively high Reynolds numbers.By simulating the 3D unsteady interaction between a laminar boundary layer and an incident shock wave, we suppress the suspected influence of the large turbulent structures of the boundary layer on the SWBLI unsteadiness, the only remaining suspected cause of unsteadiness being the dynamics of the separation bubble. Results show that only the reattachment point oscillates at low frequencies characteristic of the breathing of the separation bubble. The separation point of the recirculation bubble and the foot of the reflected shock wave have a fixed location along the flat plate with respect to time. It shows that, in this configuration, the SWBLI unsteadiness is not observed.In order to reproduce and analyse the SWBLI unsteadiness, the simulation of a shock wave turbulent boundary layer interaction (SWTBLI) is performed. A Synthetic Eddy Method (SEM), adapted to compressible flows, has been developed and used at the inlet of the simulation domain for initiating the turbulent boundary layer without prohibitive additional computational costs. Analyses of the results are performed using, among others, the snapshot Proper Orthogonal Decomposition (POD) technique. For this simulation, the SWBLI unsteadiness has been observed. Results suggest that the dominant flapping mode of the recirculation bubble occurs at medium frequency. These cycles of successive enlargement and shrinkage of the separated zone are shown to be irregular in time, the maximum size of the recirculation bubble being submitted to discrepancies between successive cycles. This behaviour of the separation bubble is responsible for a low frequency temporal modulation of the amplitude of the separation and reattachment point motions and thus for the low frequency breathing of the separation bubble. These results tend to suggest that the SWBLI unsteadiness is related to this low frequency dynamics of the recirculation bubble; the oscillations of the reflected shocks foot being in phase with the motion of the separation point

APA, Harvard, Vancouver, ISO, and other styles

46

Al, Hanbali Ahmad. "Évaluation des performances des réseaux sans-fil mobiles." Nice, 2006. http://www.theses.fr/2006NICE4058.

Full text

Abstract:

Cette thèse s'intéresse à l'impact de la mobilité sur les performances des réseaux ad hoc mobiles (MANETs en anglais). Elle comporte deux parties. La première partie de la thèse dresse un état-de-l'art du protocole TCP dans MANETs. La principale conclusion est que la mobilité dégrade les performances de TCP, à cause de problèmes de routage et de partitions du réseau qu'elle occasionne. Partant de ce constat, dans la deuxième partie de la thèse nous proposons et analysons des schémas de transmission qui s'appuient sur la mobilité. Plus précisément, chaque noeud peut servir de relais en l'absence de route directe entre la source et la destination. Nous nous sommes tout d'abord intéressés aux performances des nœuds relais (débit et taille moyenne des files) en utilisant le formalisme des files d'attente. Un des résultats principaux est que le débit des nœuds relais est minimisé quand les noeuds bougent selon des modèles de mouvements aléatoires qui ont une distribution stationnaire uniforme de position. Pour optimiser les performances du protocole de relais à deux sauts, particulièrement le délai de transmission, nous avons ensuite étudié le cas où un paquet peut avoir plusieurs copies dans le réseau, sous l'hypothèse où ces copies ont des durées de vie limitée. Les performances (délai, énergie consommée) ont été obtenues en utilisant le formalisme des chaînes de Markov absorbantes, ainsi que des modèles fluides. Nous avons appliqué nos résultats pour optimiser la consommation d'énergie en présence de contraintes sur les délais
This thesis deals with the mobility impact on the performance of mobile ad hoc network (MANET). It contains two parts. The first part surveys the TCP protocol over MANET. The main conclusion is that mobility degrades the TCP performance. Since it induces frequent route failures and extended network partitions. These implications were the motivation in the second part to introduce and evaluate new transmission schemes that rely on the mobility to improve the capacity of MANET. More precisely, in the absence of a direct route between two nodes the rest of the nodes in the network can serve as the relay nodes. In the beginning, the focus was on the performance of the relay nodes (throughput and relay buffer size) using a detailed queueing analysis. One of the main results was that random mobility models that have uniform stationary distribution of nodes location achieve the lowest throughput of relaying. Next, in order to optimize the performance of the two-hop relay protocol, especially the delivery delay of packets, we evaluated the multicopy extension under the assumption that the lifetime of the packets is limited. The performance results (delivery delay, round trip time, consumed energy) were derived using the theory of absorbing Markov chains and the fluid approximations. These results were exploited to optimize the total energy consumed subject to a constraint on the delivery delay

APA, Harvard, Vancouver, ISO, and other styles

47

Al, Hanbali Ahmad Altman Eitan Nain Philippe. "Évaluation des performances des réseaux sans-fil mobiles." [S.l.] : [s.n.], 2006. http://www-sop.inria.fr/dias/Theses/phd-218.pdf.

Full text

APA, Harvard, Vancouver, ISO, and other styles

48

Gupta, Adarsh Baboo. "Numerical Simulations of the shock wave-boundary layer interaction in complex geometries." Thesis, université Paris-Saclay, 2020. http://www.theses.fr/2020UPAST013.

Full text

Abstract:

L'objectif du présent travail de thèse est de fournir une meilleure compréhension des phénomènes physiques responsables des oscillations longitudinales basse fréquence de la bulle de séparation observées dans les écoulements supersoniques.Afin d'étudier ce mouvement à basse fréquence, des calculs (DNS) de l'interaction entre l'onde de choc et la couche limite laminaire dans des géométries complexes ont été réalisés. Pour effectuer ces simulations, la prise en compte des coordonnées curvilignes a été implémentée dans le solveur CHORUS massivement parallèle (MPI), basé sur la méthode des volumes finis et développé au LIMSI-CNRS.La première partie manuscrit est la validation de l'approche numérique. L'influence de la distorsion du maillage a été analysée à partir de plusieurs cas-test. Les erreurs introduites par différents types de déformation pour les trois cas-test considérés (advection, turbulence et écoulement avec onde de choc) ont été analysées. Dans la mesure où les volumes de contrôle restent proches d'un parallélépipède, il a été montré que les erreurs dues à la déformation restaient faibles. Dans certains cas, il a été observé que l’introduction d’une non-orthogonalité du maillage entrainait une augmentation significative de ces erreurs. La deuxième partie concerne la validation du code dans le cadre de l’écoulement supersonique autour d'une rampe de compression, qui est le cœur de la présente étude. Les validations ont été réalisées dans le cas d'écoulements non visqueux et visqueux sur une rampe de compression et la comparaison avec des données théoriques et numériques a été présentée. Cette comparaison a montré que les résultats obtenus avec le code CHORUS sont en bon accord avec les données de référence. Cependant, ces études sont assez anciennes et de nombreux progrès ont été réalisés dans les méthodes numériques pour les simulations d’écoulements à grande vitesse. Malheureusement, il n'y a que peu d'études récentes concernant des simulations ou des expériences d'écoulement entièrement laminaire autour de rampes ou d'autres géométries complexes qui auraient pu aider à évaluer la capacité de Chorus à calculer de tels écoulements. Il a donc été décidé de créer notre propre cas-test à l'aide d'un solveur de flux supersonique largement testé, rhoCentralFoam d’OpenFOAM. Les résultats obtenus ont montrés un assez bon accord au vu des différences fondamentales entre les deux approches. Ceci nous a donc permis de considérer que le code Chorus était validé et pouvait, avec une grande confiance, être utilisé pour réaliser des DNS dans le cadre d’écoulement compressibles autour de géométries complexes.En conséquence, le dernier chapitre s’est attelé à l’analyse physique de l’écoulement crée par le développement d’une couche limite laminaire autour de deux géométries: une rampe de compression classique et une rampe de compression-détente. Le but de ces simulations était de déterminer si les oscillations basse-fréquence de la zone de recirculation pouvaient être reliées à la présence de structures cohérentes dans la couche limite incidente. Les résultats ont montré que, dans les deux configurations testées, AUCUNE oscillation n’est observée sur le choc de décollement ou sur la bulle de recirculation. L’analyse des spectres obtenus grâce à des sondes situées au voisinage du choc de décollement a néanmoins mis en évidence que toutes les fréquences associées aux oscillations étaient présentes dans ces signaux. La conclusion de cette étude est que l’absence des oscillations n’est pas, comme pensé initialement, due à l’absence de structures tourbillonnaires dans la couche limite incidente mais plutôt au fait que, dans le cas laminaire, la taille de la zone de recirculation est extrêmement importante. Ainsi, même si les perturbations responsables des oscillations dans le cas turbulent sont également présentes en régime laminaire, elles sont trop amorties pour pouvoir déplacer le choc de décollement et/ou la zone de recirculation
The objective of the present thesis work is to provide a better insight of the SWBLI unsteadiness due to the low-frequency streamwise oscillations of the separation bubble. To investigate this low frequency motion, DNS of the interaction between the shock wave and laminar boundary layer in complex geometries has been carried out. To perform those simulations, a modified numerical approach for curvilinear coordinate, implemented in an in-house parallel (MPI) Finite-Volume based DNS/LES solver (CHORUS) developed at LIMSI-CNRS is used.The first part of the thesis is the validation of the modified numerical approach. The influence of the mesh distortion has been analyzed from several test cases. The errors introduced by different types of deformation for the three test cases dealing with advection, turbulence, and shock wave were identifiable. The errors created by deformation of the mesh are found comparatively low if the control volumes stay close to a parallelepiped. In some cases, a significant rise has been seen due to the introduction of the non-orthogonality of the mesh.The second part is the validation of code in the framework of supersonic flows around a compression corner which is the core of the present dissertation. The validation studies have been carried out for the case of both inviscid and viscous flows over a compression ramp and the comparison with theoretical as well as numerical data has been presented. This comparison has shown that the results obtained with CHORUS code are in good agreement with the reference data. However, those studies are rather old and a lot of progress has been made in numerical methods for high-speed flow simulations. Unfortunately, there are only a few recent studies concerning simulations or experiments of fully laminar flow around ramps or other complex geometries that could have helped to assess Chorus’ ability to compute such flows. It has then been decided to create our own test case using an extensively tested supersonic flow solver, rhoCentralFoam of the OpenFOAM open-source numerical package. The results obtained provided the difference in the two numerical approaches and allowed us to consider Chorus as validated for DNS of compressible flows with shocks in complex geometries.Consequently, the last chapter deals with the physical analysis of the flow created by a laminar boundary layer developing around two geometries: a classical compression ramp and a compression-expansion ramp. As said earlier, the goal of those simulations was to determine whether the low-frequency oscillations of the recirculation zone can be related to the coherent structures in the incoming boundary layer. The results have demonstrated that, for both configurations, the separation shock IS NOT subjected to longitudinal oscillations. However, when analysing the spectra from probes in the vicinity of the separation point, it has appeared that all the frequency information is contained in those temporal signals. The conclusion of this study is that the absence of oscillations in the laminar case is not, as originally thought, due to the absence of coherent structures in the incoming boundary layer but rather to the fact that, in the laminar case, the separation bubble extent is too large. As a consequence, even if the perturbations that make the bubble oscillate in the turbulent case are present for laminar boundary layer, they are damped in such a way that they are not able to move the shock system and/or the recirculation zone. The next step to this study would be to reduce either the freestream Mach number or the ramp angle in order to have a smaller recirculation bubble and check if the motion appear in that case

APA, Harvard, Vancouver, ISO, and other styles

49

Prat, Raphaël. "Équilibrage dynamique de charge sur supercalculateur exaflopique appliqué à la dynamique moléculaire." Thesis, Bordeaux, 2019. http://www.theses.fr/2019BORD0174/document.

Full text

Abstract:

Dans le contexte de la dynamique moléculaire classique appliquée à la physique de la matière condensée, les chercheurs du CEA étudient des phénomènes physiques à une échelle atomique. Pour cela, il est primordial d'optimiser continuellement les codes de dynamique moléculaire sur les dernières architectures de supercalculateurs massivement parallèles pour permettre aux physiciens d'exploiter la puissance de calcul pour reproduire numériquement des phénomènes physiques toujours plus complexes. Cependant, les codes de simulations doivent être adaptés afin d'équilibrer la répartition de la charge de calcul entre les cœurs d'un supercalculateur.Pour ce faire, dans cette thèse nous proposons d'incorporer la méthode de raffinement de maillage adaptatif dans le code de dynamique moléculaire ExaSTAMP. L'objectif est principalement d'optimiser la boucle de calcul effectuant le calcul des interactions entre particules grâce à des structures de données multi-threading et vectorisables. La structure permet également de réduire l'empreinte mémoire de la simulation. La conception de l’AMR est guidée par le besoin d'équilibrage de charge et d'adaptabilité soulevé par des ensembles de particules se déplaçant très rapidement au cours du temps.Les résultats de cette thèse montrent que l'utilisation d'une structure AMR dans ExaSTAMP permet d'améliorer les performances de celui-ci. L'AMR permet notamment de multiplier par 1.31 la vitesse d'exécution de la simulation d'un choc violent entraînant un micro-jet d'étain de 1 milliard 249 millions d'atomes sur 256 KNLs. De plus, l'AMR permet de réaliser des simulations qui jusqu'à présent n'étaient pas concevables comme l'impact d'une nano-goutte d'étain sur une surface solide avec plus 500 millions d'atomes
In the context of classical molecular dynamics applied to condensed matter physics, CEA researchers are studying complex phenomena at the atomic scale. To do this, it is essential to continuously optimize the molecular dynamics codes of recent massively parallel supercomputers to enable physicists to exploit their capacity to numerically reproduce more and more complex physical phenomena. Nevertheless, simulation codes must be adapted to balance the load between the cores of supercomputers.To do this, in this thesis we propose to incorporate the Adaptive Mesh Refinement method into the ExaSTAMP molecular dynamics code. The main objective is to optimize the computation loop performing the calculation of particle interactions using multi-threaded and vectorizable data structures. The structure also reduces the memory footprint of the simulation. The design of the AMR is guided by the need for load balancing and adaptability raised by sets of particles moving dynamically over time.The results of this thesis show that using an AMR structure in ExaSTAMP improves its performance. In particular, the AMR makes it possible to execute 1.31 times faster than before the simulation of a violent shock causing a tin microjet of 1 billion 249 million atoms on 256 KNLs. In addition, simulations that were not conceivable so far can be carried out thanks to AMR, such as the impact of a tin nanodroplet on a solid surface with more than 500 million atoms

APA, Harvard, Vancouver, ISO, and other styles

50

Sarton, Jonathan. "Visualisations interactives haute-performance de données volumiques massives : une approche out-of-core multi-résolution basée GPUs." Thesis, Reims, 2018. http://www.theses.fr/2018REIMS022/document.

Full text

Abstract:

Les travaux de cette thèse s'inscrivent dans le cadre du projet PIA2 3DNeuroSecure. Ce dernier vise à proposer un système collaboratif de navigation multi-échelle interactive dans des données visuelles massives (Visual Big Data) ayant pour cadre applicatif l'imagerie biomédicale 3D ultra-haute résolution (ordre du micron) possiblement multi-modale. En outre, ce système devra être capable d'intégrer divers traitements et/ou annotations (tags) au travers de ressources HPC distantes. Toutes ces opérations doivent être envisagées sans possibilité de stockage complet en mémoire (techniques out-of-core : structures pyramidales, tuilées, … avec ou sans compression …). La volumétrie des données images envisagées (Visual Big Data) induit par ailleurs le découplage des lieux de capture/imagerie/génération (histologie, confocal, imageurs médicaux variés, simulation …), de ceux de stockage et calcul haute performance (data center) mais aussi de ceux de manipulation des données acquises (divers périphériques connectés, mobiles ou non, tablette, PC, mur d’images, salle de RV …). La visualisation restituée en streaming à l’usager sera adaptée à son périphérique, tant en termes de résolution (Full HD à GigaPixel) que de rendu 3D (« à plat » classique, en relief stéréoscopique à lunettes, en relief autostéréoscopique sans lunettes). L'ensemble de ces développements pris en charge par le CReSTIC avec l'appui de la MaSCA (Maison de la Simulation de Champagne-Ardenne) se résument donc par : - la définition et la mise en oeuvre des structures de données adaptées à la visualisation out-of-core des visual big data (VBD) ciblées - l’adaptation des traitements spécifiques des partenaires comme des rendus 3D interactifs à ces nouvelles structures de données - les choix techniques d’architecture pour le HPC et la virtualisation de l’application de navigation pour profiter au mieux des ressources du datacanter local ROMEO. Le rendu relief avec ou sans lunettes, avec ou sans compression du flux vidéo relief associé seront opérés au niveau du logiciel MINT de l’URCA qui servira de support de développement
These thesis studies are part of the PIA2 project 3DNeuroSecure. This one aims to provide a collaborative system of interactive multi-scale navigation within visual big data (VDB) with ultra-high definition (tera-voxels), potentially multimodal, 3D biomedical imaging as application framework. In addition, this system will be able to integrate a variety of processing and/or annotations (tags) through remote HPC resources. All of these treatments must be possible in an out-of-core context. Because of the visual big data, we have to decoupled the location of acquisition from ones of storage and high performance computation and from ones for the manipulation of the data (various connected devices, mobile or not, smartphone, PC, large display wall, virtual reality room ...). The streaming visualization will be adapted to the user device in terms of both resolution (Full HD to GigaPixel) and 3D rendering (classic rendering on 2D screens, stereoscopic with glasses or autostereoscopic without glasses). All these developments supported by the CReSTIC with the support of MaSCA (Maison de la Simulation de Champagne-Ardenne) can therefore be summarized as: - the definition and implementation of the data structures adapted to the out-of-core visualization of the targeted visual big data. - the adaptation of the specific treatments partners, like interactive 3D rendering, to these new data structures. - the technical architecture choices for the HPC and the virtualization of the navigation software application, to take advantage of "ROMEO", the local datacenter. The auto-/stereoscopic rendering with or without glasses will be operated within the MINT software of the "université de Reims Champagne-Ardenne"

APA, Harvard, Vancouver, ISO, and other styles

We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!