To see the other types of publications on this topic, follow the link: Calcul Haute Performance (CHP).

Dissertations / Theses on the topic 'Calcul Haute Performance (CHP)'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Calcul Haute Performance (CHP).'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Peou, Kenny. "Computing Tools for HPDA : a Cache-Oblivious and SIMD Approach." Electronic Thesis or Diss., université Paris-Saclay, 2021. http://www.theses.fr/2021UPASG105.

Full text
Abstract:
Ce travail présente trois contributions aux domaines de la vectorisation des CPU et de l'apprentissage automatique. La première contribution est un algorithme pour calculer une moyenne avec des valeurs en virgule flottante de demi-précision. Dans ce travail réalisé avec un support matériel de demi-précision limité, nous utilisons une bibliothèque logicielle existante pour émuler le calcul de demi-précision. Cela nous permet de comparer la précision numérique de notre algorithme à celle de divers algorithmes couramment utilisés. Enfin, nous effectuons des tests de performance d'exécution en utilisant des valeurs à virgule flottante simples et doubles afin d'anticiper les gains potentiels de l'application de la vectorisation du CPU aux valeurs de demi-précision. Dans l'ensemble, nous constatons que notre algorithme présente des performances numériques légèrement inférieures dans le meilleur des cas en échange de performances numériques nettement supérieures dans le pire des cas, tout en offrant des performances d'exécution similaires à celles d'autres algorithmes. La deuxième contribution est une bibliothèque de calcul en virgule fixe conçue spécifiquement pour la vectorisation du CPU. Les bibliothèques existantes ne reposent pas sur l'auto-vectorisation du compilateur, qui ne parvient pas à vectoriser les opérations arithmétiques de multiplication et de division. De plus, ces deux opérations nécessitent des opérations de cast qui réduisent la vectorisabilité et ont un réel coût de calcul. Pour remédier à ce problème, nous présentons un format de stockage de données en virgule fixe qui ne nécessite aucune opération de cast pour effectuer des opérations arithmétiques. De plus, nous présentons un certain nombre de benchmarks comparant notre implémentation aux bibliothèques existantes et nous présentons la vitesse de vectorisation du CPU sur un certain nombre d'architectures. Dans l'ensemble, nous constatons que notre format en virgule fixe permet des performances d'exécution égales ou supérieures à toutes les bibliothèques comparées. La dernière contribution est un moteur d'inférence de réseau neuronal conçu pour réaliser des expériences en variant les types de données numériques utilisées dans le calcul d'inférence. Ce moteur d'inférence permet un contrôle spécifique à la couche des types de données utilisés pour effectuer l'inférence. Nous utilisons ce niveau de contrôle pour réaliser des expériences visant à déterminer l'agressivité avec laquelle il est possible de réduire la précision numérique utilisée dans l'inférence du réseau neuronal PVANet. Au final, nous déterminons qu'une combinaison des types de données standardisés float16 et bfoat16 est suffisante pour l'ensemble de l'inférence
This work presents three contributions to the fields of CPU vectorization and machine learning. The first contribution is an algorithm for computing an average with half precision floating point values. In this work performed with limited half precision hardware support, we use an existing software library to emulate half precision computation. This allows us to compare the numerical precision of our algorithm to various commonly used algorithms. Finally, we perform runtime performance benchmarks using single and double floating point values in order to anticipate the potential gains from applying CPU vectorization to half precision values. Overall, we find that our algorithm has slightly worse best-case numerical performance in exchange for significantly better worst-case numerical performance, all while providing similar runtime performance to other algorithms. The second contribution is a fixed-point computational library designed specifically for CPU vectorization. Existing libraries fail rely on compiler auto-vectorization, which fail to vectorize arithmetic multiplication and division operations. In addition, these two operations require cast operations which reduce vectorizability and have a real computational cost. To allevieate this, we present a fixed-point data storage format that does not require any cast operations to perform arithmetic operations. In addition, we present a number of benchmarks comparing our implementation to existing libraries and present the CPU vectorization speedup on a number of architectures. Overall, we find that our fixed point format allows runtime performance equal to or better than all compared libraries. The final contribution is a neural network inference engine designed to perform experiments varying the numerical datatypes used in the inference computation. This inference engine allows layer-specific control of which data types are used to perform inference. We use this level of control to perform experiments to determine how aggressively it is possible to reduce the numerical precision used in inferring the PVANet neural network. In the end, we determine that a combination of the standardized float16 and bfloat16 data types is sufficient for the entire inference
APA, Harvard, Vancouver, ISO, and other styles
2

Applencourt, Thomas. "Calcul haute performance & chimie quantique." Thesis, Toulouse 3, 2015. http://www.theses.fr/2015TOU30162/document.

Full text
Abstract:
L'objectif de ce travail de thèse est double : - Le développement et application de méthodes originales pour la chimie quantique ; - La mise au point de stratégies informatiques variées permettant la réalisation de simulations à grande échelle. Dans la première partie, les méthodes d'integration de configuration (IC) et monte carlo quantique (QMC) utilisées dans ce travail pour le calcul des propriétés quantiques sont présentées. Nous détaillerons en particulier la méthode d'\IC sélectionnée perturbativement (CISPI) que nous avons utilisée pour construire des fonctions d'onde d'essai pour le QMC. La première application concerne le calcul des énergies totales non-relativistes des atomes de transition de la série 3d ; ceci a nécessité l'implémentation de fonctions de base de type Slater et a permis d'obtenir les meilleures valeurs publiées à ce jour. La deuxième application concerne l'implémentation de pseudo-potentiels adaptés à notre approche QMC, avec pour application une étude concernant le calcul des énergies d'atomisation d'un ensemble de 55 molécules. La seconde partie traite des aspects calcule haute performance (HPC) avec pour objectif l'aide au déploiement des simulations à très grande échelle, aussi bien sous l'aspect informatique proprement dit - utilisation de paradigmes de programmation originaux, optimisation des processus monocœurs, calculs massivement parallèles sur grilles de calcul (supercalculateur et Cloud), outils d'aide au développement collaboratif \textit{et cætera} -, que sous l'aspect \emph{utilisateur} - installation, gestion des paramètres d'entrée et de sortie, interface graphique, interfaçage avec d'autres codes. L'implémentation de ces différents aspects dans nos codes-maison quantum pakcage et qmc=chem est également présentée
This thesis work has two main objectives: 1. To develop and apply original electronic structure methods for quantum chemistry 2. To implement several computational strategies to achieve efficient large-scale computer simulations. In the first part, both the Configuration Interaction (CI) and the Quantum Monte Carlo (QMC) methods used in this work for calculating quantum properties are presented. We then describe more specifically the selected CI approach (so-called CIPSI approach, Configuration Interaction using a Perturbative Selection done Iteratively) that we used for building trial wavefunctions for QMC simulations. As a first application, we present the QMC calculation of the total non-relativistic energies of transition metal atoms of the 3d series. This work, which has required the implementation of Slater type basis functions in our codes, has led to the best values ever published for these atoms. We then present our original implementation of the pseudo-potentials for QMC and discuss the calculation of atomization energies for a benchmark set of 55 organic molecules. The second part is devoted to the Hight Performance Computing (HPC) aspects. The objective is to make possible and/or facilitate the deployment of very large-scale simulations. From the point of view of the developer it includes: The use of original programming paradigms, single-core optimization process, massively parallel calculations on grids (supercomputer and Cloud), development of collaborative tools , etc - and from the user's point of view: Improved code installation, management of the input/output parameters, GUI, interfacing with other codes, etc
APA, Harvard, Vancouver, ISO, and other styles
3

Perotin, Matthieu Martineau Patrick. "Calcul haute performance sur matériel générique." S. l. : S. n, 2008. http://theses.abes.fr/2008TOUR4022.

Full text
APA, Harvard, Vancouver, ISO, and other styles
4

Pérotin, Matthieu. "Calcul haute performance sur matériel générique." Thesis, Tours, 2008. http://www.theses.fr/2008TOUR4022/document.

Full text
Abstract:
Un double constat motive ce travail: la demande en calcul haute performance des chercheurs et la faible utilisation moyenne de la puissance des ressources pédagogiques. Le problème a été de répondre à cette demande, tout en préservant les ressources pédagogiques pour les enseignements. Une solution simple et transparente pour les utilisateurs finaux a été recherchée. Les besoins des utilisateurs ont mené à un cahier des charges dont la plupart des contraintes sont satisfaites par l'utilisation d'une pile logicielle judicieuse. D'autres ne peuvent être résolues par la seule utilisation de solutions existantes et définissent un problème d'ordonnancement, où il faut répartir les processus soumis sur les ressources des salles de TPs. Plusieurs heuristiques ont été proposées pour le résoudre. Elles ont été comparées à l'aide d'un simulateur, puis implémentée sur une plateforme expérimentale
Two facts are motivating this work: the demand for High Performance Computing of researchers and the low usage of the computing power of the pedagogic ressources. This thesis aims at giving an answer to the demand for HPC, while preserving the pedagogic ressources for the teaching. This work looked for a solution that would be simple and straightforward for the final users. Their needs and wishes lead to the definition of some specifications, in which most of the constraints could be satisfied with the use of a well designed software stack. Some others, however, cannot be satisfied with the use of existing solutions only, they define a new scheduling problem, in which the goal is to schedule the processes on the available ressources. This problem was studied and solved with various heurisitcs, which performances were compared with a simulator before being implemented in an experimental setup
APA, Harvard, Vancouver, ISO, and other styles
5

Lagardère, Louis. "Calcul haute-performance et dynamique moléculaire polarisable." Thesis, Paris 6, 2017. http://www.theses.fr/2017PA066042.

Full text
Abstract:
Ce travail de thèse se situe à l'interface entre la chimie théorique, le calcul scientifique et les mathématiques appliquées. On s'intéresse aux différents algorithmes utilisés pour résoudre les équations spécifiques qui apparaissent dans le cadre de la dynamique moléculaire utilisant des champs de forces polarisables dans un cadre massivement parallèle. Cette famille de modèles nécessite en effet de résoudre des équations plus complexes que les modèles classiques usuels et rend nécessaire l'utilisation de supercalculateurs pour obtenir des résultats significatifs. On s'intéressera plus précisément à différents cas de conditions aux limites pour rendre compte des effets de solvatation comme les conditions aux limites périodiques traitées avec la méthode du Particle Mesh Ewald et un modèle de solvatation continu discrétisé par décomposition de domaine : le ddCOSMO. Le plan de cette thèse est le suivant : sont d'abord passées en revue les différentes stratégies parallèles en dynamique moléculaire en général, sont ensuite présentées les façons de les adapter au cas des champs de forces polarisables. Après quoi sont présentées différentes stratégies pour s'affranchir de certaines limites liées à l'usage de méthodes itératives en dynamique moléculaire polarisable en utilisant des approximations analytiques pour l'énergie de polarisation. Ensuite, l'adaptation de ces méthodes à différents cas pratiques de conditions aux limites est présentée : d'abord en ce qui concerne les conditions aux limites périodiques traitées avec la méthode du Particle Mesh Ewald et ensuite en ce qui concerne un modèle de solvatation continue discrétisé selon une stratégie de décomposition de domaine
This works is at the interface between theoretical chemistry, scientific computing and applied mathematics. We study different algorithms used to solve the specific equations that arise in polarizable molecular dynamics in a massively parallel context. This family of models requires indeed to solve more complex equations than in the classical case making the use of supercomputers mandatory in order to get significant results. We will more specifically study different types of boundary conditions that represent different ways to model solvation effects : first the Particle Mesh Ewald method to treat periodic boundary conditions and then a continuum solvation model discretized within a domain decomposition strategy : the ddCOSMO. The outline of this thesis is as follows : first, the different parallel strategies in the general context of molecular dynamics are reviewed. Then several methods to adapt these strategies to the specific case of polarizable force fields are presented. After that, strategies that allow to circumvent certain limits due to the use of iterative methods in the context of polarizable molecular dynamics are presented and studied. Then, the adapation of these methods to different cases of boundary conditions is presented : first in the case of the Particle Mesh Ewald method to treat periodic boundary conditions and then in the case of a particular continuum solvation model discretized with a domain decomposition strategy : the ddCOSMO. Finally, various numerical results and applications are presented
APA, Harvard, Vancouver, ISO, and other styles
6

Pasca, Bogdan Mihai. "Calcul flottant haute performance sur circuits reconfigurables." Phd thesis, Ecole normale supérieure de lyon - ENS LYON, 2011. http://tel.archives-ouvertes.fr/tel-00654121.

Full text
Abstract:
De plus en plus de constructeurs proposent des accélérateurs de calculs à base de circuits reconfigurables FPGA, cette technologie présentant bien plus de souplesse que le microprocesseur. Valoriser cette flexibilité dans le domaine de l'accélération de calcul flottant en utilisant les langages de description de circuits classiques (VHDL ou Verilog) reste toutefois très difficile, voire impossible parfois. Cette thèse a contribué au développement du logiciel FloPoCo, qui offre aux utilisateurs familiers avec VHDL un cadre C++ de description d'opérateurs arithmétiques génériques adapté au calcul reconfigurable. Ce cadre distingue explicitement la fonctionnalité combinatoire d'un opérateur, et la problématique de son pipeline pour une précision, une fréquence et un FPGA cible donnés. Afin de pouvoir utiliser FloPoCo pour concevoir des opérateurs haute performance en virgule flottante, il a fallu d'abord concevoir des blocs de bases optimisés. Nous avons d'abord développé des additionneurs pipelinés autour des lignes de propagation de retenue rapides, puis, à l'aide de techniques de pavages, nous avons conçu de gros multiplieurs, possiblement tronqués, utilisant des petits multiplieurs. L'évaluation de fonctions élémentaires en flottant implique souvent l'évaluation en virgule fixe d'une fonction. Nous présentons un opérateur générique de FloPoCo qui prend en entrée l'expression de la fonction à évaluer, avec ses précisions d'entrée et de sortie, et construit un évaluateur polynomial optimisé de cette fonction. Ce bloc de base a permis de développer des opérateurs en virgule flottante pour la racine carrée et l'exponentielle qui améliorent considérablement l'état de l'art. Nous avons aussi travaillé sur des techniques de compilation avancée pour adapter l'exécution d'un code C aux pipelines flexibles de nos opérateurs. FloPoCo a pu ainsi être utilisé pour implanter sur FPGA des applications complètes.
APA, Harvard, Vancouver, ISO, and other styles
7

Perarnau, Swann. "Environnements pour l'analyse expérimentale d'applications de calcul haute performance." Phd thesis, Université de Grenoble, 2011. http://tel.archives-ouvertes.fr/tel-00650047.

Full text
Abstract:
Les machines du domaine du calcul haute performance (HPC) gagnent régulièrement en com- plexité. De nos jours, chaque nœud de calcul peut être constitué de plusieurs puces ou de plusieurs cœurs se partageant divers caches mémoire de façon hiérarchique. Que se soit pour comprendre les performances ob- tenues par une application sur ces architectures ou pour développer de nouveaux algorithmes et valider leur performance, une phase d'expérimentation est souvent nécessaire. Dans cette thèse, nous nous intéressons à deux formes d'analyse expérimentale : l'exécution sur machines réelles et la simulation d'algorithmes sur des jeux de données aléatoires. Dans un cas comme dans l'autre, le contrôle des paramètres de l'environnement (matériel ou données en entrée) permet une meilleure analyse des performances de l'application étudiée. Ainsi, nous proposons deux méthodes pour contrôler l'utilisation par une application des ressources ma- térielles d'une machine : l'une pour le temps processeur alloué et l'autre pour la quantité de cache mémoire disponible. Ces deux méthodes nous permettent notamment d'étudier les changements de comportement d'une application en fonction de la quantité de ressources allouées. Basées sur une modification du compor- tement du système d'exploitation, nous avons implémenté ces méthodes pour un système Linux et démontré leur utilité dans l'analyse de plusieurs applications parallèles. Du point de vue de la simulation, nous avons étudié le problème de la génération aléatoire de graphes orientés acycliques (DAG) pour la simulation d'algorithmes d'ordonnancement. Bien qu'un grand nombre d'algorithmes de génération existent dans ce domaine, la plupart des publications repose sur des implémen- tations ad-hoc et peu validées de ces derniers. Pour pallier ce problème, nous proposons un environnement de génération comprenant la majorité des méthodes rencontrées dans la littérature. Pour valider cet envi- ronnement, nous avons réalisé de grande campagnes d'analyses à l'aide de Grid'5000, notamment du point de vue des propriétés statistiques connues de certaines méthodes. Nous montrons aussi que la performance d'un algorithme est fortement influencée par la méthode de génération des entrées choisie, au point de ren- contrer des phénomènes d'inversion : un changement d'algorithme de génération inverse le résultat d'une comparaison entre deux ordonnanceurs.
APA, Harvard, Vancouver, ISO, and other styles
8

Aubert, Pierre. "Calcul haute performance pour la détection de rayon Gamma." Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLV058/document.

Full text
Abstract:
La nouvelle génération d'expériences de physique produira une quantité de données sans précédent. Cette augmentation du flux de données cause des bouleversements techniques à tous les niveaux, comme le stockage des données, leur analyse, leur dissémination et leur préservation.Le projet CTA sera le plus grand observatoire d'astronomie gamma au sol à partir de 2021. Il produira plusieurs centaines de Péta-octets de données jusqu'en 2030 qui devront être analysées, stockée, compressées, et réanalysées tous les ans.Ce travail montre comment optimiser de telles analyses de physique avec les techniques de l'informatique hautes performances par le biais d'un générateur de format de données efficace, d'optimisation bas niveau de l'utilisation du pipeline CPU et de la vectorisation des algorithmes existants, un algorithme de compression rapide d'entiers et finalement une nouvelle analyse de données basée sur une méthode de comparaison d'image optimisée
The new generation research experiments will introduce huge data surge to a continuously increasing data production by current experiments. This increasing data rate causes upheavals at many levels, such as data storage, analysis, diffusion and conservation.The CTA project will become the utmost observatory of gamma astronomy on the ground from 2021. It will generate hundreds Peta-Bytes of data by 2030 and will have to be stored, compressed and analyzed each year.This work address the problems of data analysis optimization using high performance computing techniques via an efficient data format generator, very low level programming to optimize the CPU pipeline and vectorization of existing algorithms, introduces a fast compression algorithm for integers and finally exposes a new analysis algorithm based on efficient pictures comparison
APA, Harvard, Vancouver, ISO, and other styles
9

Partimbene, Vincent. "Calcul haute performance pour la simulation d'interactions fluide-structure." Phd thesis, Toulouse, INPT, 2018. http://oatao.univ-toulouse.fr/20524/1/PARTIMBENE_Vincent.pdf.

Full text
Abstract:
Cette thèse aborde la résolution des problèmes d'interaction fluide-structure par un algorithme consistant en un couplage entre deux solveurs : un pour le fluide et un pour la structure. Pour assurer la cohérence entre les maillages fluide et structure, on considère également une discrétisation de chaque domaine par volumes finis. En raison des difficultés de décomposition du domaine en sous-domaines, nous considérons pour chaque environnement un algorithme parallèle de multi-splitting (ou multi-décomposition) qui correspond à une présentation unifiée des méthodes de sous-domaines avec ou sans recouvrement. Cette méthode combine plusieurs applications de points fixes contractantes et nous montrons que, sous des hypothèses appropriées, chaque application de points fixes est contractante dans des espaces de dimensions finies normés par des normes hilbertiennes et non-hilbertiennes. De plus, nous montrons qu'une telle étude est valable pour les résolutions parallèles synchrones et plus généralement asynchrones de grands systèmes linéaires apparaissant lors de la discrétisation des problèmes d'interaction fluide-structure et peut être étendue au cas où le déplacement de la structure est soumis à des contraintes. Par ailleurs, nous pouvons également considérer l’analyse de la convergence de ces méthodes de multi-splitting parallèles asynchrones par des techniques d’ordre partiel, lié au principe du maximum discret, aussi bien dans le cadre linéaire que dans celui obtenu lorsque les déplacements de la structure sont soumis à des contraintes. Nous réalisons des simulations parallèles pour divers cas test fluide-structure sur différents clusters, en considérant des communications bloquantes et non bloquantes. Dans ce dernier cas nous avons eu à résoudre une difficulté d'implémentation dans la mesure où une erreur irrécupérable survenait lors de l'exécution ; cette difficulté a été levée par introduction d’une méthode assurant la terminaison de toutes les communications non bloquantes avant la mise à jour du maillage. Les performances des simulations parallèles sont présentées et analysées. Enfin, nous appliquons la méthodologie présentée précédemment à divers contextes d'interaction fluide-structure de type industriel sur des maillages non structurés, ce qui constitue une difficulté supplémentaire.
APA, Harvard, Vancouver, ISO, and other styles
10

Jolivet, Pierre. "Méthodes de décomposition de domaine. Application au calcul haute performance." Thesis, Grenoble, 2014. http://www.theses.fr/2014GRENM040/document.

Full text
Abstract:
Cette thèse présente une vision unifiée de plusieurs méthodes de décomposition de domaine : celles avec recouvrement, dites de Schwarz, et celles basées sur des compléments de Schur, dites de sous-structuration. Il est ainsi possible de changer de méthodes de manière abstraite et de construire différents préconditionneurs pour accélérer la résolution de grands systèmes linéaires creux par des méthodes itératives. On rencontre régulièrement ce type de systèmes dans des problèmes industriels ou scientifiques après discrétisation de modèles continus. Bien que de tels préconditionneurs exposent naturellement de bonnes propriétés de parallélisme sur les architectures distribuées, ils peuvent s’avérer être peu performants numériquement pour des décompositions complexes ou des problèmes physiques multi-échelles. On peut pallier ces défauts de robustesse en calculant de façon concurrente des problèmes locaux creux ou denses aux valeurs propres généralisées. D’aucuns peuvent alors identifier des modes qui perturbent la convergence des méthodes itératives sous-jacentes a priori. En utilisant ces modes, il est alors possible de définir des opérateurs de projection qui utilisent un problème dit grossier. L’utilisation de ces outils auxiliaires règle généralement les problèmes sus-cités, mais tend à diminuer les performances algorithmiques des préconditionneurs. Dans ce manuscrit, on montre en trois points quela nouvelle construction développée est performante : 1) grâce à des essais numériques à très grande échelle sur Curie—un supercalculateur européen, puis en le comparant à des solveurs de pointe 2) multi-grilles et 3) directs
This thesis introduces a unified framework for various domain decomposition methods:those with overlap, so-called Schwarz methods, and those based on Schur complements,so-called substructuring methods. It is then possible to switch with a high-level of abstractionbetween methods and to build different preconditioners to accelerate the iterativesolution of large sparse linear systems. Such systems are frequently encountered in industrialor scientific problems after discretization of continuous models. Even though thesepreconditioners naturally exhibit good parallelism properties on distributed architectures,they can prove inadequate numerical performance for complex decompositions or multiscalephysics. This lack of robustness may be alleviated by concurrently solving sparse ordense local generalized eigenvalue problems, thus identifying modes that hinder the convergenceof the underlying iterative methods a priori. Using these modes, it is then possibleto define projection operators based on what is usually referred to as a coarse solver. Theseauxiliary tools tend to solve the aforementioned issues, but typically decrease the parallelefficiency of the preconditioners. In this dissertation, it is shown in three points thatthe newly developed construction is efficient: 1) by performing large-scale numerical experimentson Curie—a European supercomputer, and by comparing it with state of the art2) multigrid and 3) direct solvers
APA, Harvard, Vancouver, ISO, and other styles
11

Ben, El Haj Ali Amin. "Calcul de haute performance en aéroélasticité et en écoulements turbulents tridimentionnels." Mémoire, École de technologie supérieure, 2008. http://espace.etsmtl.ca/159/1/BEN_HAJ_ALI_Amine.pdf.

Full text
Abstract:
Dans le cadre de cette thèse, nous étudions de nouvelles méthodes numériques de résolution des problèmes d'aéroélasticité et des écoulements turbulents tridimensionnels. Un code de calcul parallèle PFES360, basé sur une approche de décomposition fonctiormelle, est développé dans le but de résoudre des problèmes multiphysiques de grandes tailles. Le recours aux maillages purement tétraédriques pour la discrétisation des équations gouvernantes dans le cas d'un écoulement turbulent requiert l'utilisation des éléments anisotropiques extrêmement aplatis. La forte distorsion de ces éléments affecte dramatiquement le conditionnement du système. Dans ces conditions, les méthodes standards deviennent incapables de stabiliser la solution numérique. Deux nouvelles définitions de la matrice r de la méthode SUPG (Streamline Upwinding Petrov-Galerkin) et de l'opérateur de capture de chocs sont alors introduites. Les nouvelles définitions et les méthodes développées ont été implémentées dans PFES360. Des cas tests documentés dans la littérature ont été menés afin de mettre en évidence la performance de ces méthodes. Des comparaisons des résultats avec les valeurs théoriques (plaque plane) et expérimentales (Agard 445.6 et Onera M6) sont présentées. Le présent travail nous a permis de constater que la réussite de ce genre de simulations dépend de la pertinence méthode de stabilisation, de la précision du modèle de turbulence et essentiellement de la qualité du maillage. En plus, il est important d'assurer la positivité de la viscosité turbulente pour éviter les problèmes de convergence
APA, Harvard, Vancouver, ISO, and other styles
12

Notargiacomo, Thibault. "Approche parcimonieuse et calcul haute performance pour la tomographie itérative régularisée." Thesis, Université Grenoble Alpes (ComUE), 2017. http://www.theses.fr/2017GREAT013/document.

Full text
Abstract:
La tomographie est une technique permettant de reconstruire une carte des propriétés physiques de l'intérieur d'un objet, à partir d'un ensemble de mesures extérieures. Bien que la tomographie soit une technologie mature, la plupart des algorithmes utilisés dans les produits commerciaux sont basés sur des méthodes analytiques telles que la rétroprojection filtrée. L'idée principale de cette thèse est d'exploiter les dernières avancées dans le domaine de l'informatique et des mathématiques appliqués en vue d'étudier, concevoir et implémenter de nouveaux algorithmes dédiés à la reconstruction 3D en géométrie conique. Nos travaux ciblent des scenarii d'intérêt clinique tels que les acquisitions faible dose ou faible nombre de vues provenant de détecteurs plats. Nous avons étudié différents modèles d'opérateurs tomographiques, leurs implémentations sur serveur multi-GPU, et avons proposé l'utilisation d'une transformée en ondelettes complexes 3D pour régulariser le problème inverse
X-Ray computed tomography (CT) is a technique that aims at providing a measure of a given property of the interior of a physical object, given a set of exterior projection measurement. Although CT is a mature technology, most of the algorithm used for image reconstruction in commercial applications are based on analytical methods such as the filtered back-projection. The main idea of this thesis is to exploit the latest advances in the field of applied mathematics and computer sciences in order to study, design and implement algorithms dedicated to 3D cone beam reconstruction from X-Ray flat panel detectors targeting clinically relevant usecases, including low doses and few view acquisitions.In this work, we studied various strategies to model the tomographic operators, and how they can be implemented on a multi-GPU platform. Then we proposed to use the 3D complex wavelet transform in order to regularize the reconstruction problem
APA, Harvard, Vancouver, ISO, and other styles
13

Esteghamatian, Amir. "Calcul haute performance pour la simulation multi-échelles des lits fluidisés." Thesis, Lyon, 2016. http://www.theses.fr/2016LYSEC037/document.

Full text
Abstract:
Pas de résumé
Fluidized beds are a particular hydrodynamic configuration in which a pack (either dense or loose) of particles laid inside a container is re-suspended as a result of an upward oriented imposed flow at the bottom of the pack. This kind of system is widely used in the chemical engineering industry where catalytic cracking or polymerization processes involve chemical reactions between the catalyst particles and the surrounding fluid and fluidizing the bed is admittedly beneficial to the efficiency of the process. Due to the wide range of spatial scales and complex features of solid/solid and solid/fluid interactions in a dense fluidized bed, the system can be studied at different length scales, namely micro, meso and macro. In this work we focus on micro/meso simulations of fluidized beds. The workflow we use is based on home made high-fidelity numerical tools: GRAINS3D (Pow. Tech., 224:374-389, 2012) for granular dynamics of convex particles and PeliGRIFF (Parallel Efficient LIbrary for GRains In Fluid Flows, Comp. Fluids, 38(8):1608-1628,2009) for reactive fluid/solid flows. The objectives of our micro/meso simulations of such systems are two-fold: (i) to understand the multi-scale features of the system from a hydrodynamic standpoint and (ii) to analyze the performance of our meso-scale numerical model and to improve it accordingly. To this end, we first perform Particle Resolved Simulations (PRS) of liquid/solid and gas/solid fluidization of a 2000 particle system. The accuracy of the numerical results is examined by assessing the space convergence of the computed solution in order to guarantee that our PRS results can be reliably considered as a reference solution for this problem. The computational challenge for our PRS is a combination of a fine mesh to properly resolve all flow length scales to a long enough physical simulation time in order to extract time converged statistics. For that task, High Performance Computing and highly parallel codes as GRAINS3D/PeliGRIFF are extremely helpful. Second, we carry out a detailed cross-comparison of PRS results with those of locally averaged Euler- Lagrange simulations. Results show an acceptable agreement between the micro- and meso-scale predictions on the integral measures as pressure drop, bed height, etc. However, particles fluctuations are remarkably underpredicted by the meso-scale model, especially in the direction transverse to the main flow. We explore different directions in the improvement of the meso-scale model, such as (a) improving the inter-phase coupling scheme and (b) introducing a stochastic formulation for the drag law derived from the PRS results. We show that both improvements (a) and (b) are required to yield a satisfactory match of meso-scale results with PRS results. The new stochastic drag law, which incorporates information on the first and second-order moments of the PRS results, shows promises to recover the appropriate level of particles fluctuations. It now deserves to be validated on a wider range of flow regimes
APA, Harvard, Vancouver, ISO, and other styles
14

Birgle, Nabil. "Écoulement dans le sous-sol, méthodes numériques et calcul haute performance." Thesis, Paris 6, 2016. http://www.theses.fr/2016PA066050/document.

Full text
Abstract:
Nous construisons une méthode numérique fiable pour simuler un écoulement dans un milieu poreux modélisé par une équation elliptique. La simulation est rendue difficile par les hétérogénéités du milieu, la taille et la géométrie complexe du domaine de calcul. Un maillage d'hexaèdres réguliers ne permet pas de représenter fidèlement les couches géologiques du domaine. Par conséquent, nous sommes amenés à travailler avec un maillage de cubes déformés. Il existe différentes méthodes de volumes finis ou d'éléments finis qui résolvent ce problème avec plus ou moins de succès. Pour la méthode que nous proposons, nous nous imposons d'avoir seulement un degré de liberté par maille pour la pression et un degré de liberté par face pour la vitesse de Darcy, pour rester au plus près des habitudes des codes industriels. Comme les méthodes d'éléments finis mixtes standards ne convergent pas, notre méthode est basée sur un élément fini mixte composite. En deux dimensions, une maille polygonale est découpée en triangles en ajoutant un point au barycentre des sommets, et une expression explicite des fonctions de base a pu être obtenue. En dimension 3, la méthode s'étend naturellement au cas d'une maille pyramidale. Dans le cas d'un hexaèdre ou d'un cube déformé quelconque, la maille est divisée en 24 tétraèdres en ajoutant un point au barycentre des sommets et en divisant les faces en 4 triangles. Les fonctions de base de l'élément sont alors construites en résolvant un problème discret. Les méthodes proposées ont été analysées théoriquement et complétées par des estimateurs a posteriori. Elles ont été expérimentées sur des exemples académiques et réalistes en utilisant le calcul parallèle
We develop a reliable numerical method to approximate a flow in a porous media, modeled by an elliptic equation. The simulation is made difficult because of the strong heterogeneities of the medium, the size together with complex geometry of the domain. A regular hexahedral mesh does not allow to describe accurately the geological layers of the domain. Consequently, this leads us to work with a mesh made of deformed cubes. There exists several methods of type finite volumes or finite elements which solve this issue. For our method, we wish to have only one degree of freedom per element for the pressure and one degree of freedom per face for the Darcy velocity, to stay as close to the habits of industrial software. Since standard mixed finite element methods does not converge, our method is based on composite mixed finite element. In two dimensions, a polygonal mesh is split into triangles by adding a node to the vertices's barycenter, and explicit formulation of the basis functions was obtained. In dimension 3, the method extend naturally to the case of pyramidal mesh. In the case of a hexahedron or a deformed cube, the element is divided into 24 tetrahedra by adding a node to the vertices's barycenter and splitting the faces into 4 triangles. The basis functions are then built by solving a discrete problem. The proposed methods have been theoretically analyzed and completed by a posteriori estimators. They have been tested on academical and realistic examples by using parallel computation
APA, Harvard, Vancouver, ISO, and other styles
15

Vienne, Jérôme. "Prédiction de performances d'applications de calcul haute performance sur réseau Infiniband." Phd thesis, Université de Grenoble, 2010. http://tel.archives-ouvertes.fr/tel-00728156.

Full text
Abstract:
Afin de pouvoir répondre au mieux aux différents appels d'offres, les constructeurs de grappe de calcul ont besoin d'outils et de méthodes permettant d'aider au mieux la prise de décisions en terme de design architectural. Nos travaux se sont donc intéressés à l'estimation des temps de calcul et à l'étude de la congestion sur le réseau InfiniBand. Ces deux problèmes sont souvent abordés de manière globale. Néanmoins, une approche globale ne permet pas de comprendre les raisons des pertes de performance liées aux choix architecturaux. Notre approche s'est donc orientée vers une étude plus fine. Pour évaluer les temps de calcul, la démarche proposée s'appuie sur une analyse statique ou semistatique du code source afin de le découper en blocs, avant d'effectuer un micro-benchmarking de ces blocs sur l'architecture cible. Pour l'estimation des temps de communication, un modèle de répartition de bande passante pour le réseau InfiniBand a été développé, permettant ainsi de prédire l'impact lié aux communications concurrentes. Ce modèle a ensuite été intégré dans un simulateur pour être validé sur un ensemble de graphes de communication synthétiques et sur l'application Socorro.
APA, Harvard, Vancouver, ISO, and other styles
16

Vienne, Jérôme. "Prédiction de performances d'applications de calcul haute performance sur réseau Infiniband." Phd thesis, Grenoble, 2010. http://www.theses.fr/2010GRENM043.

Full text
Abstract:
Afin de pouvoir répondre au mieux aux différents appels d'offres, les constructeurs de grappe de calcul ont besoin d'outils et de méthodes permettant d'aider au mieux la prise de décisions en terme de design architectural. Nos travaux se sont donc intéressés à l'estimation des temps de calcul et à l'étude de la congestion sur le réseau InfiniBand. Ces deux problèmes sont souvent abordés de manière globale. Néanmoins, une approche globale ne permet pas de comprendre les raisons des pertes de performance liées aux choix architecturaux. Notre approche s'est donc orientée vers une étude plus fine. Pour évaluer les temps de calcul, la démarche proposée s'appuie sur une analyse statique ou semistatique du code source afin de le découper en blocs, avant d'effectuer un micro-benchmarking de ces blocs sur l'architecture cible. Pour l'estimation des temps de communication, un modèle de répartition de bande passante pour le réseau InfiniBand a été développé, permettant ainsi de prédire l'impact lié aux communications concurrentes. Ce modèle a ensuite été intégré dans un simulateur pour être validé sur un ensemble de graphes de communication synthétiques et sur l'application Socorro
Manufacturers of computer clusters require tools to assist them in making better decisions in terms of architectural design. To address this need, in this thesis work, we focus on the specific issues of estimating computation times and InfiniBand network congestion. These two problems are often dealt with globally. However, an overall approach does not explain the reasons of performance loss related to architectural choices. So our approach was to conduct a more detailed study. In this thesis work, we focus on the following : 1) the estimation of computation time in a Grid, and 2) the estimation of communication times over Infiniband networks. To evaluate the computation time, the proposed approach is based on a static or semi-static analysis of the source code, by cutting it into blocks, before making a micro-benchmarking of these blocks on the targeted architecture. To estimate the communication time, a model of bandwidth sharing for Infiniband networks has been developed, allowing one to predict the impact related to concurrent communications. This model was then incorporated into a simulator to be validated on a set of synthetic communication graphs and on the application Socorro
APA, Harvard, Vancouver, ISO, and other styles
17

González, Martha. "Application de techniques orientées-objet pour le calcul réparti de haute performance." Paris 6, 2002. http://www.theses.fr/2002PA066161.

Full text
APA, Harvard, Vancouver, ISO, and other styles
18

Gueunet, Charles. "Calcul haute performance pour l'analyse topologique de données par ensembles de niveaux." Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS120.

Full text
Abstract:
L'analyse de données topologique nécessite des algorithmes de plus en plus efficaces pour être capable de traiter des jeux de données dont la taille et le niveau de détail augmente continûment. Dans cette thèse, nous nous concentrons sur trois abstractions topologiques fondamentales dérivées des ensembles de niveaux : l'arbre de jointure, l'arbre de contour et le graphe de Reeb. Nous proposons trois nouveaux algorithmes parallèles efficaces pour leur calcul sur des stations de travail composées de processeurs multi-cœur en mémoire partagée. Le premier algorithme élaboré durant cette thèse se base sur du parallélisme multi-thread pour le calcul de l'arbre de contour. Une seconde approche revisite l'algorithme séquentiel de référence pour le calcul de cette structure et se base sur des propagations locales exprimables en tâches parallèles. Ce nouvel algorithme est en pratique deux fois plus rapide en séquentiel que l'algorithme de référence élaboré en 2000 et offre une accélération d'un ordre de grandeur en parallèle. Un dernier algorithme basé sur une approche locale par tâches est également présenté pour une abstraction plus générique : le graphe de Reeb. Contrairement aux approches concurrentes, nos algorithmes construisent les versions augmentées de ces structures, permettant de supporter l'ensemble des applications pour l'analyse de données par ensembles de niveaux. Les méthodes présentées dans ce manuscrit ont donné lieu à des implémentations qui sont les plus rapides parmi celles disponibles pour le calcul de ces abstractions. Ce travail a été intégré à la bibliothèque libre : Topology Toolkit (TTK)
Topological Data Analysis requires efficient algorithms to deal with the continuously increasing size and level of details of data sets. In this manuscript, we focus on three fundamental topological abstractions based on level sets: merge trees, contour trees and Reeb graphs. We propose three new efficient parallel algorithms for the computation of these abstractions on multi-core shared memory workstations. The first algorithm developed in the context of this thesis is based on multi-thread parallelism for the contour tree computation. A second algorithm revisits the reference sequential algorithm to compute this abstraction and is based on local propagations expressible as parallel tasks. This new algorithm is in practice twice faster in sequential than the reference algorithm designed in 2000 and offers one order of magnitude speedups in parallel. A last algorithm also relying on task-based local propagations is presented, computing a more generic abstraction: the Reeb graph. Contrary to concurrent approaches, these methods provide the augmented version of these structures, hence enabling the full extend of level-set based analysis. Algorithms presented in this manuscript result today in the fastest implementations available to compute these abstractions. This work has been integrated into the open-source platform: the Topology Toolkit (TTK)
APA, Harvard, Vancouver, ISO, and other styles
19

Yenke, Blaise. "Ordonnancement des sauvegardes/reprises d'applications de calcul haute performance dans les environnements dynamiques." Phd thesis, Université de Grenoble, 2011. http://tel.archives-ouvertes.fr/tel-00685856.

Full text
Abstract:
Les avancées technologiques ont conduit les grandes organisations telles que les entreprises,les universités et les instituts de recherche à se doter d'intranets constitués de plusieurs serveurs etd'un grand nombre de postes de travail. Cependant dans certaines de ces organisations, les postes detravail sont très peu utilisés pendant la nuit, les week-ends et les périodes de congés, libérant ainsiune grande puissance de calcul disponible et inutilisée.Dans cette thèse, nous étudions l'exploitation de ces temps de jachère afin d'exécuter desapplications de calcul haute performance. A cet effet, nous supposons que les postes acquis sontrebootés et intégrés à des grappes virtuelles constituées dynamiquement. Toutefois, ces temps dejachère ne permettent pas toujours d'exécuter les applications jusqu'à leur terme. Les mécanismes desauvegarde/reprise (checkpointing) sont alors utilisés pour sauvegarder, dans un certain délai, lecontexte d'exécution des applications en vue d'une éventuelle reprise. Il convient de noter que lasauvegarde de tous les processus dans les délais impartis n'est pas toujours possible. Nousproposons un modèle d'ordonnancement des sauvegardes en parallèle, qui tient compte descontraintes temporelles imposées et des contraintes liées aux bandes passantes (réseau et disque),pour maximiser les temps de calcul déjà effectués pour les applications candidates à la sauvegarde.
APA, Harvard, Vancouver, ISO, and other styles
20

Yenke, Blaise Omer. "Ordonnancement des sauvegardes/reprises d'applications de calcul haute performance dans les environnements dynamiques." Thesis, Grenoble, 2011. http://www.theses.fr/2011GRENM003/document.

Full text
Abstract:
Les avancées technologiques ont conduit les grandes organisations telles que les entreprises,les universités et les instituts de recherche à se doter d'intranets constitués de plusieurs serveurs etd'un grand nombre de postes de travail. Cependant dans certaines de ces organisations, les postes detravail sont très peu utilisés pendant la nuit, les week-ends et les périodes de congés, libérant ainsiune grande puissance de calcul disponible et inutilisée.Dans cette thèse, nous étudions l'exploitation de ces temps de jachère afin d'exécuter desapplications de calcul haute performance. A cet effet, nous supposons que les postes acquis sontrebootés et intégrés à des grappes virtuelles constituées dynamiquement. Toutefois, ces temps dejachère ne permettent pas toujours d'exécuter les applications jusqu'à leur terme. Les mécanismes desauvegarde/reprise (checkpointing) sont alors utilisés pour sauvegarder, dans un certain délai, lecontexte d'exécution des applications en vue d'une éventuelle reprise. Il convient de noter que lasauvegarde de tous les processus dans les délais impartis n'est pas toujours possible. Nousproposons un modèle d'ordonnancement des sauvegardes en parallèle, qui tient compte descontraintes temporelles imposées et des contraintes liées aux bandes passantes (réseau et disque),pour maximiser les temps de calcul déjà effectués pour les applications candidates à la sauvegarde
The technological advances has led major organizations such as enterprises, universities andresearch institutes to acquire intranets consisting of several servers and many workstations.However, in some of these organizations, the resources are rarely used at nights, weekends and onholidays, thus releasing a large computing power available and unused.This thesis discusses the exploitation of the idle period of workstaions in order to run HPCapplications. The workstations retained are restarted and integrated in dynamically formed clusters.However, the idle periods do not always permit the complete carrying out of the computationsallocated to them. The checkpointing mechanisms are then used to save in a certain period, theexecution context of applications for a possible restart. It is worth nothing that checkpointing all theprocesses in the required period is not always possible. We propose a scheduling model ofcheckpointing in parallel, which takes into account the time constraints imposed and the bandwidthconstraints (network and disk) to maximize the computation time already taken for the applicationswhich are to be checkpointed
APA, Harvard, Vancouver, ISO, and other styles
21

Vömel, Christof. "Contributions à la recherche en calcul scientifique haute performance pour les matrices creuses." Toulouse, INPT, 2003. http://www.theses.fr/2003INPT003H.

Full text
Abstract:
Nous nous intéressons au développement d'un nouvel algorithme pour estimer la norme d'une matrice de manière incrémentale, à l'implantation d'un modèle de référence des Basic Linear Algebra Subprograms for sparse matrices (Sparse BLAS), et à la réalisation d'un nouveau gestionnaire de tâches pour MUMPS, un solveur multifrontal pour des architectures à mémoire distribuée. Notre méthode pour estimer la norme d'une matrice s'applique aux matrices denses et creuses. Elle peut s'avérer utile dans le cadre des factorisations QR, Cholesky, ou LU. Le standard Sparse BLAS définit des interfaces génériques. Nous avons été amenés à répondre aux questions concernant la représentation et la gestion des données. Le séquencement de tâches devient un enjeu important dès que nous travaillons sur un grand nombre de processeurs. Grâce à notre nouvelle approche, nous pouvons améliorer le passage a l'échelle du solveur MUMPS.
APA, Harvard, Vancouver, ISO, and other styles
22

Bouvier, Clément. "Sélection de caractéristiques stables pour la segmentation d'images histologiques par calcul haute performance." Thesis, Sorbonne université, 2019. http://www.theses.fr/2019SORUS004.

Full text
Abstract:
L’histologie produit des images à l’échelle cellulaire grâce à des microscopes optiques très performants. La quantification du tissu marqué comme les neurones s’appuie de plus en plus sur des segmentations par apprentissage automatique. Cependant, l’apprentissage automatique nécessite une grande quantité d’informations intermédiaires, ou caractéristiques, extraites de la donnée brute multipliant d’autant la quantité de données à traiter. Ainsi, le nombre important de ces caractéristiques est un obstacle au traitement robuste et rapide de séries d’images histologiques. Les algorithmes de sélection de caractéristiques pourraient réduire la quantité d’informations nécessaires mais les ensembles de caractéristiques sélectionnés sont peu reproductibles. Nous proposons une méthodologie originale fonctionnant sur des infrastructures de calcul haute-performance (CHP) visant à sélectionner des petits ensembles de caractéristiques stables afin de permettre des segmentations rapides et robustes sur des images histologiques acquises à très haute-résolution. Cette sélection se déroule en deux étapes : la première à l’échelle des familles de caractéristiques. La deuxième est appliquée directement sur les caractéristiques issues de ces familles. Dans ce travail, nous avons obtenu des ensembles généralisables et stables pour deux marquages neuronaux différents. Ces ensembles permettent des réductions significatives des temps de traitement et de la mémoire vive utilisée. Cette méthodologie rendra possible des études histologiques exhaustives à haute-résolution sur des infrastructures CHP que ce soit en recherche préclinique et possiblement clinique
In preclinical research and more specifically in neurobiology, histology uses images produced by increasingly powerful optical microscopes digitizing entire sections at cell scale. Quantification of stained tissue such as neurons relies on machine learning driven segmentation. However such methods need a lot of additional information, or features, which are extracted from raw data multiplying the quantity of data to process. As a result, the quantity of features is becoming a drawback to process large series of histological images in a fast and robust manner. Feature selection methods could reduce the amount of required information but selected subsets lack of stability. We propose a novel methodology operating on high performance computing (HPC) infrastructures and aiming at finding small and stable sets of features for fast and robust segmentation on high-resolution histological whole sections. This selection has two selection steps: first at feature families scale (an intermediate pool of features, between space and individual feature). Second, feature selection is performed on pre-selected feature families. In this work, the selected sets of features are stables for two different neurons staining. Furthermore the feature selection results in a significant reduction of computation time and memory cost. This methodology can potentially enable exhaustive histological studies at a high-resolution scale on HPC infrastructures for both preclinical and clinical research settings
APA, Harvard, Vancouver, ISO, and other styles
23

Bouvier, Clément. "Sélection de caractéristiques stables pour la segmentation d'images histologiques par calcul haute performance." Electronic Thesis or Diss., Sorbonne université, 2019. https://accesdistant.sorbonne-universite.fr/login?url=https://theses-intra.sorbonne-universite.fr/2019SORUS004.pdf.

Full text
Abstract:
L’histologie produit des images à l’échelle cellulaire grâce à des microscopes optiques très performants. La quantification du tissu marqué comme les neurones s’appuie de plus en plus sur des segmentations par apprentissage automatique. Cependant, l’apprentissage automatique nécessite une grande quantité d’informations intermédiaires, ou caractéristiques, extraites de la donnée brute multipliant d’autant la quantité de données à traiter. Ainsi, le nombre important de ces caractéristiques est un obstacle au traitement robuste et rapide de séries d’images histologiques. Les algorithmes de sélection de caractéristiques pourraient réduire la quantité d’informations nécessaires mais les ensembles de caractéristiques sélectionnés sont peu reproductibles. Nous proposons une méthodologie originale fonctionnant sur des infrastructures de calcul haute-performance (CHP) visant à sélectionner des petits ensembles de caractéristiques stables afin de permettre des segmentations rapides et robustes sur des images histologiques acquises à très haute-résolution. Cette sélection se déroule en deux étapes : la première à l’échelle des familles de caractéristiques. La deuxième est appliquée directement sur les caractéristiques issues de ces familles. Dans ce travail, nous avons obtenu des ensembles généralisables et stables pour deux marquages neuronaux différents. Ces ensembles permettent des réductions significatives des temps de traitement et de la mémoire vive utilisée. Cette méthodologie rendra possible des études histologiques exhaustives à haute-résolution sur des infrastructures CHP que ce soit en recherche préclinique et possiblement clinique
In preclinical research and more specifically in neurobiology, histology uses images produced by increasingly powerful optical microscopes digitizing entire sections at cell scale. Quantification of stained tissue such as neurons relies on machine learning driven segmentation. However such methods need a lot of additional information, or features, which are extracted from raw data multiplying the quantity of data to process. As a result, the quantity of features is becoming a drawback to process large series of histological images in a fast and robust manner. Feature selection methods could reduce the amount of required information but selected subsets lack of stability. We propose a novel methodology operating on high performance computing (HPC) infrastructures and aiming at finding small and stable sets of features for fast and robust segmentation on high-resolution histological whole sections. This selection has two selection steps: first at feature families scale (an intermediate pool of features, between space and individual feature). Second, feature selection is performed on pre-selected feature families. In this work, the selected sets of features are stables for two different neurons staining. Furthermore the feature selection results in a significant reduction of computation time and memory cost. This methodology can potentially enable exhaustive histological studies at a high-resolution scale on HPC infrastructures for both preclinical and clinical research settings
APA, Harvard, Vancouver, ISO, and other styles
24

Guermouche, Amina. "Nouveaux Protocoles de Tolérances aux Fautes pour les Applications MPI du Calcul Haute Performance." Phd thesis, Université Paris Sud - Paris XI, 2011. http://tel.archives-ouvertes.fr/tel-00666063.

Full text
Abstract:
Avec l'évolution des machines parallèles, le besoin en protocole de tolérance aux fautes devient de plus en plus important. Les protocoles de tolérance aux fautes existants ne sont pas adaptés à ces architectures car soit ils forcent un redémarrage global (protocoles de sauvegarde de points de reprise coordonnés) soit ils forcent l'enregistrement de tous les messages (protocoles à enregistrement de messages). Nous avons étudié les caractéristiques des protocoles existants. Dans un premier temps, nous avons étudié le déterminisme des applications, étant donné que les protocoles existants supposent des exécutions non déterministes ou déterministes par morceaux. Dans notre étude, nous nous sommes intéressés au modèle par échange de messages, et plus précisément aux applications MPI. Nous avons analysé 26 applications MPI et avons mis avant une nouvelle caractéristique appelée "déterminisme des émissions" qui correspond à la majorité des applications étudiées. Dans un second temps, nous nous sommes intéressés aux schémas de communications des applications afin d'étudier l'existence des groupes de processus dans ces schémas. L'étude a montré que pour la plupart des applications, il est possible de créer des groupes de processus de façon à minimiser la taille des groupes et le volume des messages inter-groupe. A partir de là nous avons proposé deux protocoles de tolérance aux fautes. Le premier est un protocole de sauvegarde de points de reprise non coordonnés pour les applications à émissions déterministes qui évite l'effet domino en n'enregistrant qu'un sous ensemble des messages de l'application. Nous avons également adapté le protocole pour l'utiliser sur des groupes de processus. Par la suite, nous avons proposé HydEE, un protocole hiérarchique fondé sur le déterminisme des émissions et les groupes de processus. Il combine un protocole de sauvegarde de points de reprise coordonnés au sein des groupes à un protocole à enregistrement de messages entre les groupes.
APA, Harvard, Vancouver, ISO, and other styles
25

Maillard, Nicolas. "Calcul Haute-Performance et Mécanique Quantique : analyse des ordonnancements en temps et en mémoire." Phd thesis, Université Joseph Fourier (Grenoble), 2001. http://tel.archives-ouvertes.fr/tel-00004684.

Full text
Abstract:
Ce travail présente l'apport de l'ordonnancement pour la programmation parallèle performante d'applications numériques en mécanique et chimie quantique. Nous prenons deux exemples types de résolution de l'équation de Schrödinger --- Boîte Quantique (BQ) et Méthode des Perturbations d'ordre 2 (MP2) --- qui nécessitent de grosses ressources en calcul et mémoire. La programmation traditionnelle (échange de messages et/ou multithreading) des machines parallèles (distribuées ou SMP) est illustrée par les performances obtenues avec le benchmark Linpack sur la grappe I-cluster (INRIA). Le manque de portabilité du code hautement performant obtenu montre l'importance d'un environnement de programmation parallèle permettant de découpler le codage de l'algorithme de son ordonnancement sur la machine cible. Nous introduisons alors Athapascan, qui repose sur l'analyse du flot de données, pour calculer dynamiquement des ordonnancements prouvés efficaces. Un premier critère d'efficacité est le temps de calcul. Sur certains modèles de machines, la théorie et l'expérience montrent que Athapascan permet des ordonnancements qui garantissent des exécutions efficaces pour certains algorithmes adaptés à BQ, de type itératif (méthode de Lanczos). Un deuxième critère fondamental est l'espace mémoire requis pour les exécutions parallèles en calcul numérique ; c'est particulièrement critique pour MP2. Nous proposons d'annoter le Graphe de Flot de Données (GFD) manipulé par Athapascan pour prendre en compte la mémoire et permettre des ordonnancements dynamiques efficaces en mémoire. Pour MP2, dont le GFD est connu statiquement, un ordonnancement efficace en temps et en mémoire est donné.
APA, Harvard, Vancouver, ISO, and other styles
26

Mena, morales Valentin. "Approche de conception haut-niveau pour l'accélération matérielle de calcul haute performance en finance." Thesis, Ecole nationale supérieure Mines-Télécom Atlantique Bretagne Pays de la Loire, 2017. http://www.theses.fr/2017IMTA0018/document.

Full text
Abstract:
Les applications de calcul haute-performance (HPC) nécessitent des capacités de calcul conséquentes, qui sont généralement atteintes à l'aide de fermes de serveurs au détriment de la consommation énergétique d'une telle solution. L'accélération d'applications sur des plateformes hétérogènes, comme par exemple des FPGA ou des GPU, permet de réduire la consommation énergétique et correspond donc à un compromis architectural plus séduisant. Elle s'accompagne cependant d'un changement de paradigme de programmation et les plateformes hétérogènes sont plus complexes à prendre en main pour des experts logiciels. C'est particulièrement le cas des développeurs de produits financiers en finance quantitative. De plus, les applications financières évoluent continuellement pour s'adapter aux demandes législatives et concurrentielles du domaine, ce qui renforce les contraintes de programmabilité de solutions d'accélérations. Dans ce contexte, l'utilisation de flots haut-niveaux tels que la synthèse haut-niveau (HLS) pour programmer des accélérateurs FPGA n'est pas suffisante. Une approche spécifique au domaine peut fournir une réponse à la demande en performance, sans que la programmabilité d'applications accélérées ne soit compromise.Nous proposons dans cette thèse une approche de conception haut-niveau reposant sur le standard de programmation hétérogène OpenCL. Cette approche repose notamment sur la nouvelle implémentation d'OpenCL pour FPGA introduite récemment par Altera. Quatre contributions principales sont apportées : (1) une étude initiale d'intégration de c'urs de calculs matériels à une librairie logicielle de calcul financier (QuantLib), (2) une exploration d'architectures et de leur performances respectives, ainsi que la conception d'une architecture dédiée pour l'évaluation d'option américaine et l'évaluation de volatilité implicite à partir d'un flot haut-niveau de conception, (3) la caractérisation détaillée d'une plateforme Altera OpenCL, des opérateurs élémentaires, des surcouches de contrôle et des liens de communication qui la compose, (4) une proposition d'un flot de compilation spécifique au domaine financier, reposant sur cette dernière caractérisation, ainsi que sur une description des applications financières considérées, à savoir l'évaluation d'options
The need for resources in High Performance Computing (HPC) is generally met by scaling up server farms, to the detriment of the energy consumption of such a solution. Accelerating HPC application on heterogeneous platforms, such as FPGAs or GPUs, offers a better architectural compromise as they can reduce the energy consumption of a deployed system. Therefore, a change of programming paradigm is needed to support this heterogeneous acceleration, which trickles down to an increased level of programming complexity tackled by software experts. This is most notably the case for developers in quantitative finance. Applications in this field are constantly evolving and increasing in complexity to stay competitive and comply with legislative changes. This puts even more pressure on the programmability of acceleration solutions. In this context, the use of high-level development and design flows, such as High-Level Synthesis (HLS) for programming FPGAs, is not enough. A domain-specific approach can help to reach performance requirements, without impairing the programmability of accelerated applications.We propose in this thesis a high-level design approach that relies on OpenCL, as a heterogeneous programming standard. More precisely, a recent implementation of OpenCL for Altera FPGA is used. In this context, four main contributions are proposed in this thesis: (1) an initial study of the integration of hardware computing cores to a software library for quantitative finance (QuantLib), (2) an exploration of different architectures and their respective performances, as well as the design of a dedicated architecture for the pricing of American options and their implied volatility, based on a high-level design flow, (3) a detailed characterization of an Altera OpenCL platform, from elemental operators, memory accesses, control overlays, and up to the communication links it is made of, (4) a proposed compilation flow that is specific to the quantitative finance domain, and relying on the aforementioned characterization and on the description of the considered financial applications (option pricing)
APA, Harvard, Vancouver, ISO, and other styles
27

Visseq, Vincent. "Calcul haute performance en dynamique des contacts via deux familles de décomposition de domaine." Phd thesis, Université Montpellier II - Sciences et Techniques du Languedoc, 2013. http://tel.archives-ouvertes.fr/tel-00848363.

Full text
Abstract:
La simulation numérique des systèmes multicorps en présence d'interactions complexes, dont le contact frottant, pose de nombreux défis, tant en terme de modélisation que de temps de calcul. Dans ce manuscrit de thèse, nous étudions deux familles de décomposition de domaine adaptées au formalisme de la dynamique non régulière des contacts (NSCD). Cette méthode d'intégration implicite en temps de l'évolution d'une collection de corps en interaction a pour caractéristique de prendre en compte le caractère discret et non régulier d'un tel milieu. Les techniques de décomposition de domaine classiques ne peuvent de ce fait être directement transposées. Deux méthodes de décomposition de domaine, proches des formalismes des méthodes de Schwarz et de complément de Schur sont présentées. Ces méthodes se révèlent être de puissants outils pour la parallélisation en mémoire distribuée des simulations granulaires 2D et 3D sur un centre de calcul haute performance. Le comportement de structure des milieux granulaires denses est de plus exploité afin de propager rapidement l'information sur l'ensemble des sous domaines via un schéma semi-implicite d'intégration en temps.
APA, Harvard, Vancouver, ISO, and other styles
28

Baboulin, Marc. "Résolutions rapides et fiables pour les solveurs d'algèbre linéaire numérique en calcul haute performance." Habilitation à diriger des recherches, Université Paris Sud - Paris XI, 2012. http://tel.archives-ouvertes.fr/tel-00967523.

Full text
Abstract:
Dans cette Habilitation à Diriger des Recherches (HDR), nous présentons notre recherche effectuée au cours de ces dernières années dans le domaine du calcul haute-performance. Notre travail a porté essentiellement sur les algorithmes parallèles pour les solveurs d'algèbre linéaire numérique et leur implémentation parallèle dans les bibliothèques logicielles du domaine public. Nous illustrons dans ce manuscrit comment ces calculs peuvent être accélérées en utilisant des algorithmes innovants et être rendus fiables en utilisant des quantités spécifiques de l'analyse d'erreur. Nous expliquons tout d'abord comment les solveurs d'algèbre linéaire numérique peuvent être conçus de façon à exploiter les capacités des calculateurs hétérogènes actuels comprenant des processeurs multicœurs et des GPUs. Nous considérons des algorithmes de factorisation dense pour lesquels nous décrivons la répartition des tâches entre les différentes unités de calcul et son influence en terme de coût des communications. Ces cal- culs peuvent être également rendus plus performants grâce à des algorithmes en précision mixte qui utilisent une précision moindre pour les tâches les plus coûteuses tout en calculant la solution en précision supérieure. Puis nous décrivons notre travail de recherche dans le développement de solveurs d'algèbre linéaire rapides qui utilisent des algorithmes randomisés. La randomisation représente une approche innovante pour accélérer les calculs d'algèbre linéaire et la classe d'algorithmes que nous proposons a l'avantage de réduire la volume de communications dans les factorisations en supprimant complètement la phase de pivotage dans les systèmes linéaires. Les logiciels correspondants on été développés pour architectures multicœurs éventuellement accélérées par des GPUs. Enfin nous proposons des outils qui nous permettent de garantir la qualité de la solution calculée pour les problèmes de moindres carrés sur-déterminés, incluant les moindres carrés totaux. Notre méthode repose sur la dérivation de formules exactes ou d'estimateurs pour le conditionnement de ces problèmes. Nous décrivons les algorithmes et les logiciels qui permettent de calculer ces quantités avec les bibliothèques logicielles parallèles standards. Des pistes de recherche pour les années à venir sont données dans un chapître de conclusion.
APA, Harvard, Vancouver, ISO, and other styles
29

Latu, Guillaume. "Algorithmique parallèle et calcul haute performance dédiés à la simulation d'un système hôte-macroparasite." Bordeaux 1, 2002. http://www.theses.fr/2002BOR12632.

Full text
Abstract:
Ce travail contribue à un modèle déterministe discret d'un système hôte-macroparasite et propose un modèle stochastique équivalent. Une application du modèle consiste en l'étude quantitative du système Bar-Diplectanum Aequans à l'aide de deux simulateurs parallèles. Une étude algorithmique détaillée est donnée pour le simulateur déterministe. L'extensibilité de très bonne qualité est évaluée théoriquement et testée. Une utilisation optimisée des mémoires caches permet d'atteindre 60 % de la puissance crête au coeur des calculs. Les temps d'exécution sont réduits et la précision des calculs améliorée, ce qui permet de reproduire des dynamiques observées sur le terrain. Le second simulateur utilise une méthode de type Monte Carlo. On donne les performances associées à une programmation hybride sur une grappe de noeuds SMP. L'étude quantitative effectuée sur les résultats des simulateurs donne un éclairage nouveau sur l'interaction des mécanismes des systèmes hôte-macroparasite.
APA, Harvard, Vancouver, ISO, and other styles
30

Pourroy, Jean. "Calcul Haute Performance : Caractérisation d’architectures et optimisation d’applications pour les futures générations de supercalculateurs." Thesis, université Paris-Saclay, 2020. http://www.theses.fr/2020UPASM028.

Full text
Abstract:
Les systèmes d'information et les infrastructures de Calcul Haute Performance (HPC) participent activement à l'amélioration des connaissances scientifiques et à l'évolution de nos sociétés. Le domaine du HPC est en pleine expansion et les utilisateurs ont besoin d'architectures de plus en plus puissantes pour analyser le tsunami de données (simulations numériques, objets connectés), prendre des décisions plus complexes (intelligence artificielle), et plus rapides (voitures connectées, météo).Dans ce travail de thèse, nous discutons des différents challenges à relever (consommation électrique, coût, complexité) pour l’élaboration des nouvelles générations de supercalculateurs Exascale. Alors que les applications industrielles ne parviennent pas à utiliser plus de 10% des performances théoriques, nous montrons la nécessité de repenser l’architecture des plateformes, en utilisant notamment des architectures énergétiquement optimisées. Nous présentons alors certaines technologies émergentes permettant leur développement : les mémoires 3D (HBM), la Storage Class Memory (SCM) ou les technologies d’interconnexions photoniques. Ces nouvelles technologies associées à un nouveau protocole de communication (Gen-Z) vont permettre d’exécuter de façon optimale les différentes parties d’une application. Cependant, en l'absence de méthode de caractérisation fine de la performance des codes, ces architectures innovantes sont potentiellement condamnées puisque peu d'experts savent les valoriser.Notre contribution consiste au développement d'une suite de codes (micro-benchmarks) et d’outils d'analyse de performance. Les premiers ont pour objectifs de caractériser finement certaines parties de la microarchitecture. Deux microbenchmarks ont ainsi été développés pour caractériser le système mémoire et les unités de calculs. La deuxième famille d’outils permet d’étudier la performance des applications. Un premier outil permet de suivre l’évolution du trafic du bus mémoire, ressource critique des architectures. Un second outil permet d’obtenir le profil des applications en extrayant et caractérisant les boucles critiques (hot spots).Pour profiter de l’hétérogénéité des plateformes, nous proposons une méthodologie en 5 étapes permettant d’identifier et de caractériser ces nouvelles plateformes, de modéliser les performances d'une application, et enfin de porter son code sur l'architecture choisie. Enfin, nous montrons comment les outils permettent d’accompagner les développeurs pour extraire le maximum des performances d’une architecture. En proposant nos outils en « sources ouvertes », nous souhaitons sensibiliser les utilisateurs à cette démarche et développer une communauté autour du travail de caractérisation et d’analyse de performance
Information systems and High-Performance Computing (HPC) infrastructures play an active role in the improvement of scientific knowledge and the evolution of our societies. The field of HPC is expanding rapidly and users need increasingly powerful architectures to analyze the tsunami of data (numerical simulations, IOT), to make more complex decisions (artificial intelligence), and to make them faster (connected cars, weather).In this thesis work, we discuss several challenges (power consumption, cost, complexity) for the development of new generations of Exascale supercomputers. While industrial applications do not manage to achieve more than 10% of the theoretical performance, we show the need to rethink the architecture of platforms, in particular by using energy-optimized architectures. We then present some of the emerging technologies that will allow their development: 3D memories (HBM), Storage Class Memory (SCM) or photonic interconnection technologies. These new technologies associated with a new communication protocol (Gen-Z) will help to optimally execute the different parts of an application. However, in the absence of a method for fine characterization of code performance, these emerging architectures are potentially condemned since few experts know how to exploit them.Our contribution consists in the development of benchmarks and performance analysis tools. The first aim is to finely characterize specific parts of the microarchitecture. Two microbenchmarks have thus been developed to characterize the memory system and the floating point unit (FPU). The second family of tools is used to study the performance of applications. A first tool makes it possible to monitor the memory bus traffic, a critical resource of modern architectures. A second tool can be used to profile applications by extracting and characterizing critical loops (hot spots).To take advantage of the heterogeneity of platforms, we propose a 5-step methodology to identify and characterize these new platforms, to model the performance of an application, and finally to port its code to the selected architecture. Finally, we show how the tools can help developers to extract the maximum performance from an architecture. By providing our tools in open source, we want to sensitize users to this approach and develop a community around the work of performance characterization and analysis
APA, Harvard, Vancouver, ISO, and other styles
31

Wanza, Weloli Joël. "Modélisation, simulation de différents types d’architectures de noeuds de calcul basés sur l’architecture ARM et optimisés pour le calcul haute-performance." Thesis, Université Côte d'Azur (ComUE), 2019. http://www.theses.fr/2019AZUR4042.

Full text
Abstract:
Ce travail s’inscrit dans le cadre de la famille de projets Européens Mont-Blanc dont l’objectif est de développer la prochaine génération de systèmes Exascale. Il s’intéresse particulièrement à la question de l’efficacité énergétique, d’abord au niveau micro-architectural en considérant l’utilisation de nœuds de calcul basés sur l’Armv8-A 64-bit associée à une topologie SoC pertinente, puis en examinant les aspects exécutifs notamment par une étude de stratégies de gestion énergétique (power management) mieux adaptées à des contraintes de traitement massivement parallèle. Une méthodologie d’exploration architecturale capable de supporter la simulation de larges clusters de calcul parallèle est définie et exploitée pour proposer, développer et évaluer des modèles multi-SoC et de réseaux de communication associés (SoC Coherent Interconnect, SCI). Cette démarche est ensuite poursuivie pour définir une architecture Exascale permettant de réduire globalement la complexité et les coûts de développement en dégradant le moins possible les performances. Le partitionnement de la puce permet ainsi des possibilités intéressantes au niveau technologique telles que l’intégration de nœuds supplémentaires basée sur des technologies System-in-Package (interposer), ou 3D Through Silicon Vias (TSVs) et High Memory Bandwidth (HBM). En second lieu, les aspects énergétiques sont abordés plus directement par l’étude de politiques de gestion énergétique existantes et en proposant deux stratégies pour permettre réduire la consommation en préservant les performance. La première exploite une perception applicative plus fine pour ajuster la fréquence de nombreuses tâches parallèles et mieux équilibrer leurs temps d’exécution. La seconde stratégie réduit la fréquence des coeurs aux points de synchronisation des tâches pour limiter les fonctionnements inutiles à pleine puissance. Les résultats d’expérimentation obtenus avec ces stratégies, à la fois en simulation et sur plateforme réelle, montrent les possibilités offertes par cette approche pour répondre aux fortes contraintes des plateformes pre-exascale sur le plan énergétique
This work is part of a family of European projects called Mont-Blanc whose objective is to develop the next generation of Exascale systems. It addresses specifically the issue of energy efficiency, at micro-architectural level first by considering the use of 64-bit Armv8-A based compute nodes and an associated relevant SoC topology, and examine also the runtime aspects with notably the study of power management strategies that can be better suited to the constraints of HPC highly parallel processing. A design space exploration methodology capable of supporting the simulation of large manycore computing clusters is developped and lead to propose, design and evaluate multi-SoC and their associated SoC Coherent Interconnect models (SCI). This approach is then used to define a pre-exascale architecture allowing to globally reduce the complexity and cost of chip developments without sacrifying performances. The resulting partitioning scheme introduces interesting perspectives at technology level such as the integration of more compute nodes directly on an interposer based System-in-Package (SiP), possibly based on 3D Through Silicon Vias (TSVs) using High Memory Bandwidth (HBM). Energy efficiency is addressed more directly in second instance by studying current power management policies and proposing two strategies to help reducing power while preserving performances. The first one exploits finer application execution knowledge to adjust the frequency of extensive parallel threads and better balance their execution time. The second strategy reduces core frequencies at synchronisation points of jobs to avoid running the cores at full speed while it is not necessary. Experiment results with these strategies, both in simulation and real hardware, show the possibilities offered par this approach to address the strong requirements of Exascale platforms
APA, Harvard, Vancouver, ISO, and other styles
32

Cargnelli, Matthieu. "OpenWP : étude et extension des technologies de Workflows pour le calcul haute performance sur grille." Paris 11, 2008. http://www.theses.fr/2008PA112265.

Full text
Abstract:
Cette thèse s’inscrit dans un contexte industriel. Elle aborde la problématique du passage de code de calcul scientifique séquentiel à un code de calcul exécutable sur une grille. L’approche proposée dans cette thèse exploite les technologies de worflows pour leur adéquation avec les problèmes rencontrés sur une grille. Après avoir présenté les solutions existantes pour exécuter un workflow sur une grille et une solution pour paralléliser un code séquentiel : openMP, l’auteur présente sa proposition : OpenWP. OpenWP est un environnement proposant un langage d’annotation de code séquentiel à base de directives en vue de sa transformation en workflow, puis le contrôle de l’exécution de ce worflow à travers un moteur tierce partie sur la grille. Un mécanisme de mémoire distribuée virtuellement partagée est proposé. Le langage défini pour OpenWP est détaillé, son expressivité critiquée et comparée à celle d’OpenMP. La conception d’OpenWP est ensuite décrite, ainsi que les choix technologiques qui ont conduit à l’implémentation d’un prototype. La thèse se poursuit par une validation de concept et une série d’évaluations de performances d’OpenWP avec plusieurs applications, dont un mailleur industriel utilisé par EADS. Enfin un système hybride combinant OpenWP et OpenMP est décrit. Ce système doit permettre à OpenWP d’exploiter la hiérarchie de la grille en utilisant les machines multi-processeurs à mémoire partagée lorsque cela est possible, avec OpenMP. Une preuve de concept est apportée sur un cas test simple
This thesis has been conduced in an industrial context. It studies the code refactoring from a sequential scientific code into a grid enabled program. The proposed approach is based on the workflow technologies which are well suited for grid. After a presentation of existing solutions for workflow execution on the grid as well as a solution for code parallelization (openMP), the author presents his proposition : OpenWP. OpenWP is a workflow definition language based on directives to turn a sequential code into a workflow. OpenWP allows the controlled execution of this workflow on the grip using a third party workflow enactment engine. A distributed virtually shared memory system is proposed. The defined language is presented in detail and its expressivity is criticized and compared to OpenMP’s. The conception of OpenWP is then described and the technology choices made are explained. A prototype is presented. The document then shows a proof of concept and a series of performance evaluation of OpenWP used on few programs, among which an industrial mesher used by EADS. An hybrid system based on OpenWP and OpenMP is also described. This system must give OpenWP the ability to exploit the resource hierarchy found in the grid, by using the shared memory multi-processors machines whenever possible through OpenMP. A proof of concept test case is provided and commented
APA, Harvard, Vancouver, ISO, and other styles
33

Möller, Nathalie. "Adaptation de codes industriels de simulation en Calcul Haute Performance aux architectures modernes de supercalculateurs." Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLV088.

Full text
Abstract:
Durant de longues années, la stabilité dans le paradigme d'architecture a facilité la portabilité de performance des grands codes en Calcul de Haute Performance d'une génération à l'autre de supercalculateurs.L'effondrement programmé de la loi de Moore - qui règle les progrès en gravure des micro-processeurs - bouscule ce modèle et requiert un effort nouveau du côté logiciel.Une modernisation des codes basée sur une algorithmique adaptée aux futurs systèmes est ainsi nécessaire.Cette modernisation repose sur des principes de base connus tels que la concurrence des calculs et la localité des données.Cependant, la mise en œuvre de ces principes dans le cadre d'applications réelles en milieu industriel – lesquelles applications sont souvent le fruit d’années d’efforts de développement - s’avère bien plus compliquée que ne le laissait prévoir leur simplicité apparente.Les contributions de cette thèse sont les suivantes :D’une part, nous explorons une méthodologie de modernisation de codes basée sur l’utilisation de proto-applications et la confrontons à une approche directe, en optimisant deux codes de simulation dévéloppés dans un contexte similaire.D’autre part, nous nous concentrons sur l’identification des principaux défis concernant l’adéquation entre applications, modèles de programmation et architectures.Les deux domaines d'application choisis sont la dynamique des fluides et l'électromagnétisme
For many years, the stability of the architecture paradigm has facilitated the performance portability of large HPC codes from one generation of supercomputers to another.The announced breakdown of the Moore's Law, which rules the progress of microprocessor engraving, ends this model and requires new efforts on the software's side.Code modernization, based on an algorithmic which is well adapted to the future systems, is mandatory.This modernization is based on well-known principles as the computation concurrency, or degree of parallelism, and the data locality.However, the implementation of these principles in large industrial applications, which often are the result of years of development efforts, turns out to be way more difficult than expected.This thesis contributions are twofold :On the one hand, we explore a methodology of software modernization based on the concept of proto-applications and compare it with the direct approach, while optimizing two simulation codes developed in a similar context.On the other hand, we focus on the identification of the main challenges for the architecture, the programming models and the applications.The two chosen application fields are the Computational Fluid Dynamics and Computational Electro Magnetics
APA, Harvard, Vancouver, ISO, and other styles
34

El, gharbi Yannis. "Une approche à deux niveaux pour le calcul de structures haute performance : décomposition -- maillage -- résolution." Thesis, université Paris-Saclay, 2021. http://www.theses.fr/2021UPAST001.

Full text
Abstract:
La simulation numérique représente encore un aspect minoritaire de la certification de pièces critiques dans l'industrie. Pourtant, elle permettrait de réaliser de fortes économies lors de la conception, en évitant de réaliser des essais onéreux sur des pièces réelles.En effet, lorsque le matériau est architecturé il existe des structures internes ayant un comportement mécanique radicalement différent en des zones distinctes de la structure, il devient difficile, voire impossible, de réaliser ces simulations en des temps raisonnables du fait du nombre important d'inconnues nécessaires à l'obtention d'une réponse fiable de la structure.Pour obtenir cette réponse, l'utilisation de méthodes de résolution parallèle de problèmes de grande taille est nécessaire. Les méthodes de décomposition de domaine, qui font partie de cette catégorie, sont les méthodes qui sont explorées durant cette thèse.L'objectif est donc de rendre possible ces simulations à l'aide de ces méthodes.En effet, la résolution du problème mais aussi le maillage de la structure deviennent coûteux et l'usage de méthodes parallèles devient indispensable.Pour cela, une méthode de sous-structuration à deux niveaux est proposée. Elle vise à produire en phase de préparation des données des sous-domaines réguliers et homogènes pouvant être maillés en parallèle. Par ailleurs, elle conduit à une forte réduction du conditionnement de problèmes à fortes hétérogénéités résolus par un solveur FETI. Une méthode de décomposition de domaine mixte avec impédance d'interface à deux niveaux adaptée à cette sous-structuration a ensuite pu être développée.L'objectif à long terme est, ici, de traiter des problèmes de complexité quasi-industrielle tels que des calculs à l'échelle de la structure complète sur des matériaux multi-échelles comme les composites tissés tridimensionnels utilisés de plus en plus intensivement dans l'industrie aéronautique par exemple
Numerical simulations represent a minor part of the certification proceess for critical parts in the industry. However, it would result in significant cost savings during conception phases, avoiding expensive real tests.Indeed, in cases of localized strong heterogeneities across all the structure, it becomes hard, if not impossible, to run successfully these simulations in reasonable times because of a too large number of unknowns needed for a reliable answer of the structure.To obtain this answer, large scale parallel solving methods are necessary. Domain decomposition methods, which are part of it, are the ones investigated during this thesis.The goal is to make these simulations possible thanks to domain decomposition methods.Indeed, the resolution of the problem but also the meshing of the structure become expensive and the use of parallel methods becomes essential.For this purpose, a two-level substructuring method is proposed. It aims at producing, during the pre-processing step, regular-shaped and homogeneous subdomains possibly meshed in parallel. In addition, it allows to a significant reduction of the condition number for strongly heterogeneous problems solved by a FETI solver. A mixed domain decomposition method with a two-level Robin condition which is adapted to this decomposition could then be developped.The long term objective is to deal with problems with a quasi-industrial complexity like computations at the global structural scale with multi-scale materials such as tridimensional woven composites which are used increasingly intensively in the aeronautical industry for instance
APA, Harvard, Vancouver, ISO, and other styles
35

Gholami, Bahman. "Application des systèmes de calcul à haute performance dans les études électrothermiques à l'échelle nanoscopique." Thèse, Université du Québec à Trois-Rivières, 2011. http://depot-e.uqtr.ca/2065/1/030259746.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
36

Lebre, Adrien. "IOLi : contrôle, ordonnancement et régulation des accès aux données persistantes dans les environnements multi-applicatifs haute performance." Grenoble INPG, 2006. http://www.theses.fr/2006INPG0084.

Full text
Abstract:
De nombreuses applications scientifiques utilisent et génèrent d'énormes quantités de données. Ces applications qui exploitent des modèles d'accès parallèles spécifiques (principalement des accès disjoints) sont souvent pénalisées par des systèmes de stockage inadaptés. Pour éviter les dégradations de performances, les bibliothèques d'Entrées/Sorties parallèles telles que ROMIO sont généralement utilisées pour agréger les petites requêtes séparées en de plus grosses contiguës habituellement plus performantes. Toutefois, les optimisations apportées pour un programme ne tiennent pas compte de l'ensemble des interactions avec d'autres applications s'exécutant en concurrence sur la grappe. La conséquence est que ces routines spécifiques visant à optimiser les accès d'une application vont s'avérer inutiles, car leur effet va être perturbé par les autres applications ! Ce document décrit une nouvelle approche, appelée aIOLi, permettant le contrôle, le réordonnancement et la régulation de l'ensemble des interactions générées par les différentes applications s'exécutant simultanément sur une grappe et ce, en s'appuyant uniquement sur l'interface POSIX. Dans un tel contexte, la performance, l'interactivité et l'équité sont des critères pour lesquels il est important de trouver un bon compromis. Pour y parvenir, une stratégie d'ordonnancement globale prenant en compte également les problématiques d'Entrées/Sorties parallèles locales aux applications a été définie. Le service aIOLi consiste en un support d'ordonnancement générique pouvant être rattaché à différentes parties d'un système de fichiers. L'exécution concurrente de jeux de tests IOR sur un serveur NFS traditionnel ont montré des améliorations particulièrement significatives pour les accès en lecture en comparaison aux performances pouvant être atteintes avec les routines POSIX ou MPI I/O
Lots of scientific applications use and create vast amounts of data. Those often have specific ways to access data in non-sequential patterns (strided requests). To avoid performance loss, parallel I/O libraries such as ROMIO are often used to aggregate small separate requests into large contiguous ones. However, optimizations for a given applications are not aware of the whole set of interactions with other ones running at the same time on the cluster. As a consequence, most of the optimization work is lost because they will be disturbed by the other applications. This document presents a software service, named aIOLi, whose role is to control, reschedule and regulate the whole set of interactions coming from all applications running simultaneously on a cluster. Besides, the traditional POSIX API is maintained and used. In such a context, trade-off have to be found between performance, fairness and response time. To achieve this, an I/O scheduling algorithm together with a ``requests aggregator'' considering both application access patterns and global system load have been designed and merged into aIOLi. The aIOLi service consists of a new generic framework pluggable into any I/O file system. Several concurrent runs of the IOR benchmarks show significant improvements on read accesses with regards to POSIX and ROMIO calls
APA, Harvard, Vancouver, ISO, and other styles
37

Bernal, Norena Alvaro. "Conception et étude d'une architecture de haute performance pour le calcul de la fonction exponentielle modulaire." Grenoble INPG, 1999. http://www.theses.fr/1999INPG0112.

Full text
Abstract:
Les processus de securisation d'information privee reposent principalement sur des protocoles qui utilisent le concept de fonction a sens unique ou fonction tres difficilement inversible. Ce type de brouillage mathematique est frequemment realise par la fonction exponentielle modulaire. Dans ce travail se presente la conception d'une architecture performante qui satisfait aux caracteristiques les plus importantes afin de garantir la viabilite d'un circuit integre pour le calcul de la fonction exponentielle modulaire. L'analyse de l'architecture permet d'evaluer les gains en vitesse qu'une realisation materiel pourrait permettre par rapport aux algorithmes programmes. L'architecture calcule la fonction exponentielle modulaire des numeros representes en notation modulaire en combinant les avantages de l'algorithme de montgomery pour la multiplication et ceux de la methode generalise de multiplications repetees, pour l'exponentielle. D'autre part, la necessite de performances elevees inherentes aux applications, soit en cartes a puce soit en communication par satellite, a fait considerer le asga comme une technologie appropriee pour l'implementation de ce type de systeme. La conception de deux des principaux blocs de l'architecture envisageant la basse consommation a ete aussi realisee.
APA, Harvard, Vancouver, ISO, and other styles
38

Bruned, Vianney. "Analyse statistique et interprétation automatique de données diagraphiques pétrolières différées à l’aide du calcul haute performance." Thesis, Montpellier, 2018. http://www.theses.fr/2018MONTS064.

Full text
Abstract:
Dans cette thèse, on s'intéresse à l’automatisation de l’identification et de la caractérisation de strates géologiques à l’aide des diagraphies de puits. Au sein d’un puits, on détermine les strates géologiques grâce à la segmentation des diagraphies assimilables à des séries temporelles multivariées. L’identification des strates de différents puits d’un même champ pétrolier nécessite des méthodes de corrélation de séries temporelles. On propose une nouvelle méthode globale de corrélation de puits utilisant les méthodes d’alignement multiple de séquences issues de la bio-informatique. La détermination de la composition minéralogique et de la proportion des fluides au sein d’une formation géologique se traduit en un problème inverse mal posé. Les méthodes classiques actuelles sont basées sur des choix d’experts consistant à sélectionner une combinaison de minéraux pour une strate donnée. En raison d’un modèle à la vraisemblance non calculable, une approche bayésienne approximée (ABC) aidée d’un algorithme de classification basé sur la densité permet de caractériser la composition minéralogique de la couche géologique. La classification est une étape nécessaire afin de s’affranchir du problème d’identifiabilité des minéraux. Enfin, le déroulement de ces méthodes est testé sur une étude de cas
In this thesis, we investigate the automation of the identification and the characterization of geological strata using well logs. For a single well, geological strata are determined thanks to the segmentation of the logs comparable to multivariate time series. The identification of strata on different wells from the same field requires correlation methods for time series. We propose a new global method of wells correlation using multiple sequence alignment algorithms from bioinformatics. The determination of the mineralogical composition and the percentage of fluids inside a geological stratum results in an ill-posed inverse problem. Current methods are based on experts’ choices: the selection of a subset of mineral for a given stratum. Because of a model with a non-computable likelihood, an approximate Bayesian method (ABC) assisted with a density-based clustering algorithm can characterize the mineral composition of the geological layer. The classification step is necessary to deal with the identifiability issue of the minerals. At last, the workflow is tested on a study case
APA, Harvard, Vancouver, ISO, and other styles
39

Colin, de Verdière Guillaume. "A la recherche de la haute performance pour les codes de calcul et la visualisation scientifique." Thesis, Reims, 2019. http://www.theses.fr/2019REIMS012/document.

Full text
Abstract:
Cette thèse vise à démontrer que l'algorithmique et la programmation, dans un contexte de calcul haute performance (HPC), ne peuvent être envisagées sans tenir compte de l'architecture matérielle des supercalculateurs car cette dernière est régulièrement remise en cause.Après avoir rappelé quelques définitions relatives aux codes et au parallélisme, nous montrons que l'analyse des différentes générations de supercalculateurs, présents au CEA lors de ces 30 dernières années, permet de dégager des points de vigilances et des recommandations de bonnes pratiques en direction des développeurs de code.En se reposant sur plusieurs expériences, nous montrons comment viser une performance adaptée aux supercalculateurs et comment essayer d'atteindre la performance portable voire la performance extrême dans le monde du massivement parallèle, incluant ou non l'usage de GPU.Nous expliquons que les logiciels et matériels dédiés au dépouillement graphique des résultats de calcul suivent les mêmes principes de parallélisme que pour les grands codes scientifiques, impliquant de devoir maîtriser une vue globale de la chaîne de simulation. Enfin, nous montrons quelles sont les tendances et contraintes qui vont s'imposer à la conception des futurs supercalculateurs de classe exaflopique, impactant de fait le développement des prochaines générations de codes de calcul
This thesis aims to demonstrate that algorithms and coding, in a high performance computing (HPC) context, cannot be envisioned without taking into account the hardware at the core of supercomputers since those machines evolve dramatically over time. After setting a few definitions relating to scientific codes and parallelism, we show that the analysis of the different generations of supercomputer used at CEA over the past 30 years allows to exhibit a number of attention points and best practices toward code developers.Based on some experiments, we show how to aim at code performance suited to the usage of supercomputers, how to try to get portable performance and possibly extreme performance in the world of massive parallelism, potentially using GPUs.We explain that graphical post-processing software and hardware follow the same parallelism principles as large scientific codes, requiring to master a global view of the simulation chain.Last, we describe tendencies and constraints that will be forced on the new generations of exaflopic class supercomputers. These evolutions will, yet again, impact the development of the next generations of scientific codes
APA, Harvard, Vancouver, ISO, and other styles
40

Masliah, Ian. "Méthodes de génération automatique de code appliquées à l’algèbre linéaire numérique dans le calcul haute performance." Thesis, Université Paris-Saclay (ComUE), 2016. http://www.theses.fr/2016SACLS285/document.

Full text
Abstract:
Les architectures parallèles sont aujourd'hui présentes dans tous les systèmes informatiques, allant des smartphones aux supercalculateurs en passant par les ordinateurs de bureau. Programmer efficacement ces architectures en fonction des applications requiert un effort pluridisciplinaire portant sur les langages dédiés (Domain Specific Languages - DSL), les techniques de génération de code et d'optimisation, et les algorithmes numériques propres aux applications. Dans cette thèse, nous présentons une méthode de programmation haut niveau prenant en compte les caractéristiques des architectures hétérogènes et les propriétés existantes des matrices pour produire un solveur générique d'algèbre linéaire dense. Notre modèle de programmation supporte les transferts explicites et implicites entre un processeur (CPU) et un processeur graphique qui peut être généraliste (GPU) ou intégré (IGP). Dans la mesure où les GPU sont devenus un outil important pour le calcul haute performance, il est essentiel d'intégrer leur usage dans les plateformes de calcul. Une architecture récente telle que l'IGP requiert des connaissances supplémentaires pour pouvoir être programmée efficacement. Notre méthodologie a pour but de simplifier le développement sur ces architectures parallèles en utilisant des outils de programmation haut niveau. À titre d'exemple, nous avons développé un solveur de moindres carrés en précision mixte basé sur les équations semi-normales qui n'existait pas dans les bibliothèques actuelles. Nous avons par la suite étendu nos travaux à un modèle de programmation multi-étape ("multi-stage") pour résoudre les problèmes d'interopérabilité entre les modèles de programmation CPU et GPU. Nous utilisons cette technique pour générer automatiquement du code pour accélérateur à partir d'un code effectuant des opérations point par point ou utilisant des squelettes algorithmiques. L'approche multi-étape nous assure que le typage du code généré est valide. Nous avons ensuite montré que notre méthode est applicable à d'autres architectures et algorithmes. Les routines développées ont été intégrées dans une bibliothèque de calcul appelée NT2.Enfin, nous montrons comment la programmation haut niveau peut être appliquée à des calculs groupés et des contractions de tenseurs. Tout d'abord, nous expliquons comment concevoir un modèle de container en utilisant des techniques de programmation basées sur le C++ moderne (C++-14). Ensuite, nous avons implémenté un produit de matrices optimisé pour des matrices de petites tailles en utilisant des instructions SIMD. Pour ce faire, nous avons pris en compte les multiples problèmes liés au calcul groupé ainsi que les problèmes de localité mémoire et de vectorisation. En combinant la programmation haut niveau avec des techniques avancées de programmation parallèle, nous montrons qu'il est possible d'obtenir de meilleures performances que celles des bibliothèques numériques actuelles
Parallelism in today's computer architectures is ubiquitous whether it be in supercomputers, workstations or on portable devices such as smartphones. Exploiting efficiently these systems for a specific application requires a multidisciplinary effort that concerns Domain Specific Languages (DSL), code generation and optimization techniques and application-specific numerical algorithms. In this PhD thesis, we present a method of high level programming that takes into account the features of heterogenous architectures and the properties of matrices to build a generic dense linear algebra solver. Our programming model supports both implicit or explicit data transfers to and from General-Purpose Graphics Processing Units (GPGPU) and Integrated Graphic Processors (IGPs). As GPUs have become an asset in high performance computing, incorporating their use in general solvers is an important issue. Recent architectures such as IGPs also require further knowledge to program them efficiently. Our methodology aims at simplifying the development on parallel architectures through the use of high level programming techniques. As an example, we developed a least-squares solver based on semi-normal equations in mixed precision that cannot be found in current libraries. This solver achieves similar performance as other mixed-precision algorithms. We extend our approach to a new multistage programming model that alleviates the interoperability problems between the CPU and GPU programming models. Our multistage approach is used to automatically generate GPU code for CPU-based element-wise expressions and parallel skeletons while allowing for type-safe program generation. We illustrate that this work can be applied to recent architectures and algorithms. The resulting code has been incorporated into a C++ library called NT2. Finally, we investigate how to apply high level programming techniques to batched computations and tensor contractions. We start by explaining how to design a simple data container using modern C++14 programming techniques. Then, we study the issues around batched computations, memory locality and code vectorization to implement a highly optimized matrix-matrix product for small sizes using SIMD instructions. By combining a high level programming approach and advanced parallel programming techniques, we show that we can outperform state of the art numerical libraries
APA, Harvard, Vancouver, ISO, and other styles
41

Dao, Van Toan. "Calcul à haute performance et simulations stochastiques : Etude de la reproductibiité numérique sur architectures multicore et manycore." Thesis, Université Clermont Auvergne‎ (2017-2020), 2017. http://www.theses.fr/2017CLFAC005/document.

Full text
Abstract:
La reproductibilité des expériences numériques sur les systèmes de calcul à haute performance est parfois négligée. De plus, les méthodes numériques employées pour une parallélisation rigoureuse des simulations stochastiques sont souvent méconnues. En effet, les résultats obtenus pour une simulation stochastique utilisant des systèmes de calcul à hautes performances peuvent être différents d’une exécution à l’autre, et ce pour les mêmes paramètres et les même contextes d’exécution du fait de l’impact des nouvelles architectures, des accélérateurs, des compilateurs, des systèmes d’exploitation ou du changement de l’ordre d’exécution en parallèle des opérations en arithmétique flottantes au sein des micro-processeurs. En cas de non répétabilité des expériences numériques, comment mettre au point les applications ? Quel crédit peut-on apporter au logiciel parallèle ainsi développé ? Dans cette thèse, nous faisons une synthèse des causes de non-reproductibilité pour une simulation stochastique parallèle utilisant des systèmes de calcul à haute performance. Contrairement aux travaux habituels du parallélisme, nous ne nous consacrons pas à l’amélioration des performances, mais à l’obtention de résultats numériquement répétables d’une expérience à l’autre. Nous présentons la reproductibilité et ses apports dans la science numérique expérimentale. Nous proposons dans cette thèse quelques contributions, notamment : pour vérifier la reproductibilité et la portabilité des générateurs modernes de nombres pseudo-aléatoires ; pour détecter la corrélation entre flux parallèles issus de générateurs de nombres pseudo-aléatoires ; pour répéter et reproduire les résultats numériques de simulations stochastiques parallèles indépendantes
The reproducibility of numerical experiments on high performance computing systems is sometimes overlooked. Moreover, the numerical methods used for rigorous parallelization of stochastic simulations are often unknown. Indeed, the results obtained for a stochastic simulation using high performance computing systems can be different from run to run with the same parameters and the same execution contexts due to the impact of new architectures, accelerators, compilers, operating systems or a changing of the order of execution of the floating arithmetic operations within the micro-processors for parallelizing optimizations. In the case of non-repeatability of numerical experiments, how can we seriously develop a scientific application? What credit can be given to the parallel software thus developed? In this thesis, we synthesize the main causes of non-reproducibility for a parallel stochastic simulation using high performance computing systems. Unlike the usual parallelism works, we do not focus on improving performance, but on obtaining numerically repeatable results from one experiment to another. We present the reproducibility and its contributions to the science of experimental and numerical computing. Furthermore, we propose some contributions, in particular: to verify the reproducibility and portability of top modern pseudo-random number generators, to detect the correlation between parallel streams issued from such generators, to repeat and reproduce the numerical results of independent parallel stochastic simulations
APA, Harvard, Vancouver, ISO, and other styles
42

Halli, Abderrahmane Nassim. "Optimisation de code pour application Java haute-performance." Thesis, Université Grenoble Alpes (ComUE), 2016. http://www.theses.fr/2016GREAM047/document.

Full text
Abstract:
Java est à ce jour l'un des langages, si ce n'est le langage, le plus utilisé toutes catégories de programmation confondues et sa popularité concernant le développement d'applications scientifiques n'est plus à démontrer. Néanmoins son utilisation dans le domaine du Calcul Haute Performance (HPC) reste marginale même si elle s'inscrit au cœur de la stratégie de certaine entreprise comme Aselta Nanographics, éditeur de l'application Inscale pour la modélisation des processus de lithographie par faisceaux d'électron, instigateur et partenaire industriel de cette thèse.Et pour cause, sa définition haut-niveau et machine-indépendante, reposant sur un environnement d'exécution, parait peu compatible avec le besoin de contrôle bas-niveau nécessaire pour exploiter de manière optimale des architectures de microprocesseurs de plus en plus complexes comme les architectures Intel64 (implémentation Intel de l'architecture x86-64).Cette responsabilité est entièrement déléguée à l'environnement d'exécution, notamment par le biais de la compilation dynamique, chargée de générer du code binaire applicatif à la volée. C'est le cas de la JVM HotSpot, au centre de cette étude, qui s'est imposée comme l'environnement de référence pour l'exécution d'applications Java en production.Cette thèse propose, dans ce contexte, de répondre à la problématique suivante : comment optimiser les performances de code séquentiel Java plus particulièrement dans un environnement HotSpot/Intel64 ?Pour tenter d'y répondre, trois axes principaux ont été explorés. Le premier axe est l'analyse des performances du polymorphisme, mécanisme Java haut-niveau omniprésent dans les applications, dans le lequel on tente de mesurer l'impact du polymorphisme sur les performances du code et d'évaluer des alternatives possibles. Le second axe est l'intégration de code natif au sein des applications - afin de bénéficier d'optimisations natives - avec prise en compte du compromis coût d'intégration/qualité du code. Enfin le troisième axe est l'extension du compilateur dynamique pour des méthodes applicatives afin, là encore, de bénéficier d'optimisations natives tout en s'affranchissant du surcout inhérent à l'intégration de code natif.Ces trois axes couvrent différentes pistes exploitables dans un contexte de production qui doit intégrer certaines contraintes comme le temps de développement ou encore la maintenabilité du code. Ces pistes ont permis d'obtenir des gains de performances significatifs sur des sections de code applicatif qui demeuraient jusqu'alors très critiques
L'auteur n'a pas fourni de résumé en anglais
APA, Harvard, Vancouver, ISO, and other styles
43

Monna, Florence. "Ordonnancement pour les nouvelles plateformes de calcul avec GPUs." Thesis, Paris 6, 2014. http://www.theses.fr/2014PA066390/document.

Full text
Abstract:
De plus en plus d'ordinateurs utilisent des architectures hybrides combinant des processeurs multi-cœurs (CPUs) et des accélérateurs matériels comme les GPUs (Graphics Processing Units). Ces plates-formes parallèles hybrides exigent de nouvelles stratégies d'ordonnancement adaptées. Cette thèse est consacrée à une caractérisation de ce nouveau type de problèmes d'ordonnancement. L'objectif le plus étudié dans ce travail est la minimisation du makespan, qui est un problème crucial pour atteindre le potentiel des nouvelles plates-formes en Calcul Haute Performance.Le problème central étudié dans ce travail est le problème d'ordonnancement efficace de n tâches séquentielles indépendantes sur une plateforme de m CPUs et k GPUs, où chaque tâche peut être exécutée soit sur un CPU ou sur un GPU, avec un makespan minimal. Ce problème est NP-difficiles, nous proposons donc des algorithmes d'approximation avec des garanties de performance allant de 2 à (2q + 1)/(2q) +1/(2qk), q> 0, et des complexités polynomiales. Il s'agit des premiers algorithmes génériques pour la planification sur des machines hybrides avec une garantie de performance et une fin pratique. Des variantes du problème central ont été étudiées : un cas particulier où toutes les tâches sont accélérées quand elles sont affectées à un GPU, avec un algorithme avec un ratio de 3/2, un cas où les préemptions sont autorisées sur CPU, mais pas sur GPU, le modèle des tâches malléables, avec un algorithme avec un ratio de 3/2. Enfin, le problème avec des tâches dépendantes a été étudié, avec un algorithme avec un ratio de 6. Certains des algorithmes ont été intégré dans l'ordonnanceur du système xKaapi
More and more computers use hybrid architectures combining multi-core processors (CPUs) and hardware accelerators like GPUs (Graphics Processing Units). These hybrid parallel platforms require new scheduling strategies. This work is devoted to a characterization of this new type of scheduling problems. The most studied objective in this work is the minimization of the makespan, which is a crucial problem for reaching the potential of new platforms in High Performance Computing. The core problem studied in this work is scheduling efficiently n independent sequential tasks with m CPUs and k GPUs, where each task of the application can be processed either on a CPU or on a GPU, with minimum makespan. This problem is NP-hard, therefore we propose approximation algorithms with performance ratios ranging from 2 to (2q+1)/(2q)+1/(2qk), q>0, and corresponding polynomial time complexities. The proposed solving method is the first general purpose algorithm for scheduling on hybrid machines with a theoretical performance guarantee that can be used for practical purposes. Some variants of the core problem are studied: a special case where all the tasks are accelerated when assigned to a GPU, with a 3/2-approximation algorithm, a case where preemptions are allowed on CPUs, the same problem with malleable tasks, with an algorithm with a ratio of 3/2. Finally, we studied the problem with dependent tasks, providing a 6-approximation algorithm. Experiments based on realistic benchmarks have been conducted. Some algorithms have been integrated into the scheduler of the xKaapi runtime system for linear algebra kernels, and compared to the state-of-the-art algorithm HEFT
APA, Harvard, Vancouver, ISO, and other styles
44

Relun, Nicolas. "Stratégie multiparamétrique pour la conception robuste en fatigue." Phd thesis, École normale supérieure de Cachan - ENS Cachan, 2011. http://tel.archives-ouvertes.fr/tel-00669449.

Full text
Abstract:
La conception robuste de pièce mécaniques consiste à prendre en compte dans la modélisation les sources d'incertitudes.Le modèle devient alors assez représentatif de la réalité pour pouvoir diminuer les marges de sécurité, qui permettent de garantir que la pièce en fonctionnement ne sera pas mise en défaut.Dans le cas de pièces aérospatiales, une diminution des marges de sécurité est un enjeu économique majeur car cela entraîne une diminution du poids des pièces.La probabilité de défaillance est une des quantités critiques lors de la conception robuste. Celle-ci quantifie le risque de défaillance de la pièce en comparant la probabilité de résistance du matériau (caractérisée à partir d'essais sur éprouvettes) avec la probabilité de sollicitation du matériau, qui est déterminée à partir des contraintes extérieures à la pièce et des caractéristiques du matériau. C'est ce dernier problème qui a fait l'objet de cette thèse.Dans le cas d'un comportement non linéaire du matériau, la détermination de la probabilité de sollicitation impose d'exécuter de nombreuses fois un calcul de la pièce pour différentes valeurs des conditions aux limites et des paramètres du comportement matériau.Ceci devient rapidement hors de portée sans une stratégie adaptée, un calcul pouvant prendre jusqu'à 12 heures.Une stratégie dédiée à la résolution de l'ensemble de ces calculs est proposée dans ce travail. Elle tire parti de la similarité des calculs pour diminuer le temps total nécessaire. Un gain allant jusqu'à 30 est atteint sur des pièces industrielles simples en quasi-statique avec un comportement élasto-viscoplastique.
APA, Harvard, Vancouver, ISO, and other styles
45

Bigot, Julien. "Du support générique d'opérateurs de composition dans les modèles de composants logiciels : Application au calcul à haute performance." Phd thesis, INSA de Rennes, 2010. http://tel.archives-ouvertes.fr/tel-00626698.

Full text
Abstract:
Les applications scientifiques posent un véritable défi de par leur complexité et la quantité de données qu'elles traitent. Leur exécution nécessite l'utilisation de ressources matérielles complexes et variées comme les super-calculateurs, les grappes et les grilles de calcul. Les modèles de composants logiciels et en particulier ceux qui proposent des schémas de composition adaptés au calcul à haute performance offrent une piste intéressante pour leur développement. Ces derniers permettent aux applications de s'abstraire des ressources d'exécution et de favoriser ainsi les performances à l'exécution sur une grande gammes d'architectures. Ces modèles restent toutefois limités à un ensemble restreint de schémas de composition. Il en résulte une multiplication des modèles dès que de nouvelles formes de composition apparaissent nécessaires, ce qui est dommageable à l'objectif de réutilisation. La complexité de modifier un modèle existant pour y intégrer de nouveaux opérateurs de composition défavorise aussi ces efforts. Cette thèse propose un modèle de composants logiciels appelé HLCM dans lequel de nouveaux opérateurs de composition peuvent être introduits sans modification du modèle. Ceci est rendu possible par l'introduction en son sein de quatre concepts : la hiérarchie, les connecteurs, la généricité et le choix de mise en œuvre. Afin de favoriser la réutilisation de l'existant, ce modèle est abstrait et il est rendu concret dans des spécialisations qui s'appuient sur les éléments primitifs de modèles existants. Au cours de ces travaux, nous avons étudié comment le concept de généricité pouvait s'appliquer aux modèles de composants et nous avons proposé une approche pour l'y intégrer. Nous avons étudié les interactions problématiques entre les concepts de connecteur et de hiérarchie et avons offert une solution s'appuyant sur une nouvelle approche pour la description des connexions entre composants. Finalement, nous avons proposé une approche pour la mise en œuvre de HLCM qui s'appuie sur des principes issus de l'ingénierie basée sur les modèles. Ces travaux ont été validés en développant un prototype de mise en œuvre de HLCM/CCM, une spécialisation de HLCM qui s'appuie sur le modèle de composant de Corba (CCM). Il a été utilisé pour décrire des interactions complexes entre composants (mémoire partagée et appels de méthode parallèles) et assurer une exécution efficace sur des ressources matérielles variées, notamment sur Grid'5000.
APA, Harvard, Vancouver, ISO, and other styles
46

MEHILLI, ILIR. "Modelisation, simulation de la dispersion atmospherique des traceurs et calcul de haute performance. Validation sur des experiences internationales." Paris, CNAM, 1999. http://www.theses.fr/1999CNAM0308.

Full text
Abstract:
La dispersion atmospherique des traceurs constitue l'un des principaux axes de recherche de ces dernieres annees. L'objectif de ces travaux de these, etait de realiser un outil de simulation fiable offrant une bonne approche de la realite, permettant de calculer des concentrations de traceurs sur des terrains complexes dans des delais de temps relativement brefs et avec une bonne precision. Dans ce cadre de nouveaux modeles de simulation sur la dispersion atmospherique des traceurs ont ete introduits et notamment le modele brownien fractionnaire. D'autre part, l'exigence d'avoir une application temps reel, imposait de reduire au maximum les temps de calcul. Toutes ces contraintes, ainsi que la quantite importante des donnees a traiter, nous a conduit a nous tourner tout naturellement vers le calcul de haute performance et les ordinateurs massivement paralleles. Le systeme mesyst enrichi avec de nouveaux modeles et parallelise permet de simuler dans des delais de temps tres brefs les concentrations et les depositions dans l'atmosphere. D'autre part le modele brownien fractionnaire apporte une amelioration dans les valeurs simulees des concentrations. Ce modele a ete valide sur les experiences internationales siesta.
APA, Harvard, Vancouver, ISO, and other styles
47

Brunie, Hugo. "Optimisation des allocations de données pour des applications du Calcul Haute Performance sur une architecture à mémoires hétérogènes." Thesis, Bordeaux, 2019. http://www.theses.fr/2019BORD0014/document.

Full text
Abstract:
Le Calcul Haute Performance, regroupant l’ensemble des acteurs responsables de l’amélioration des performances de calcul des applications scientifiques sur supercalculateurs, s’est donné pour objectif d’atteindre des performances exaflopiques. Cette course à la performance se caractérise aujourd’hui par la fabrication de machines hétérogènes dans lesquelles chaque composant est spécialisé. Parmi ces composants, les mémoires du système se spécialisent, et la tendance va vers une architecture composée de plusieurs mémoires aux caractéristiques complémentaires. La question se pose alors de l’utilisation de ces nouvelles machines dont la performance pratique dépend du placement des données de l’application sur les différentes mémoires. Dans cette thèse, nous avons développé une formulation du problème d’allocation de donnée sur une Architecture à Mémoires Hétérogènes. Dans cette formulation, nous avons fait apparaître le bénéfice que pourrait apporter une analyse temporelle du problème, parce que de nombreux travaux reposaient uniquement sur une approche spatiale. À partir de cette formulation, nous avons développé un outil de profilage hors ligne pour approximer les coefficients de la fonction objective afin de résoudre le problème d’allocation et d’optimiser l’allocation des données sur une architecture composée deux de mémoires principales aux caractéristiques complémentaires. Afin de réduire la quantité de modifications nécessaires pour prendre en compte la stratégie d’allocation recommandée par notre boîte à outils, nous avons développé un outil capable de rediriger automatiquement les allocations de données à partir d’un minimum d’instrumentation dans le code source. Les gains de performances obtenus sur des mini-applications représentatives des applications scientifiques codées par la communauté permet d’affirmer qu’une allocation intelligente des données est nécessaire pour bénéficier pleinement de ressources mémoires hétérogènes. Sur certaines tailles de problèmes, le gain entre un placement naïf est une allocation instruite peut atteindre un facteur ×3.75
High Performance Computing, which brings together all the players responsible for improving the computing performance of scientific applications on supercomputers, aims to achieve exaflopic performance. This race for performance is today characterized by the manufacture of heterogeneous machines in which each component is specialized. Among these components, system memories specialize too, and the trend is towards an architecture composed of several memories with complementary characteristics. The question arises then of these new machines use whose practical performance depends on the application data placement on the different memories. Compromising code update against performance is challenging. In this thesis, we have developed a data allocation on Heterogeneous Memory Architecture problem formulation. In this formulation, we have shown the benefit of a temporal analysis of the problem, because many studies were based solely on a spatial approach this result highlight their weakness. From this formulation, we developed an offline profiling tool to approximate the coefficients of the objective function in order to solve the allocation problem and optimize the allocation of data on a composite architecture composed of two main memories with complementary characteristics. In order to reduce the amount of code changes needed to execute an application according to our toolbox recommended allocation strategy, we have developed a tool that can automatically redirect data allocations from a minimum source code instrumentation. The performance gains obtained on mini-applications representative of the scientific applications coded by the community make it possible to assert that intelligent data allocation is necessary to fully benefit from heterogeneous memory resources. On some problem sizes, the gain between a naive data placement strategy, and an educated data allocation one, can reach up to ×3.75 speedup
APA, Harvard, Vancouver, ISO, and other styles
48

Valat, Sébastien. "Contribution à l'amélioration des méthodes d'optimisation de la gestion de la mémoire dans le cadre du calcul haute performance." Versailles-St Quentin en Yvelines, 2014. http://www.theses.fr/2014VERS0014.

Full text
Abstract:
L'évolution des architectures des calculateurs actuels est telle que la mémoire devient un problème majeur pour les performances. L'étude décrite dans ce document montre qu'il est déjà possible d'observer des pertes importantes imputables aux mécanismes de gestion de cette dernière. Dans ce contexte, nous nous sommes intéressés aux problèmes de gestion des gros segments mémoire sur les supercalculateurs multicoeurs NUMA de type Tera 100 et Curie. Notre travail est détaillé ici en suivant trois axes principaux. Nous analysons dans un premier temps les politiques de pagination de différents systèmes d'exploitation (coloration de pages, grosses pages. . . ). Nous mettons ainsi en évidence l'existence d'interférences néfastes entre ces politiques et les décisions de placement de l'allocateur en espace utilisateur. Nous complétons donc les études cache/allocateur et cache/pagination par une analyse de l'interaction cumulée de ces composants. Nous abordons ensuite la problématique des performances d'allocation des grands segments mémoire en considérant les échanges entre le système et l'allocateur. Nous montrons ici qu'il est possible d'obtenir des gains significatifs (de l'ordre de 50% sur une grosse application) en limitant ces échanges et en structurant l'allocateur pour un support explicite des architectures NUMA. La description de nos travaux s'achève sur une étude des problèmes d'extensibilité observés au niveau des fautes de pages du noyau Linux. Nous avons ainsi proposé une extension de la sémantique d'allocation afin d'éliminer la nécessité d'effectuer les coûteux effacements mémoire des pages au niveau système
Current supercomputer architectures are subject to memory related issues. For instance we can observe slowdowns induced by memory management mechanisms and their implementation. In this context, we focus on the management of large memory segments for multi-core and NUMA supercomputers similar to Tera 100 and Curie. We discuss our work in three parts. We first study several paging policies (page coloring, huge pages. . . ) from multiple operating systems. We demonstrate an interference between those policies and layout decisions taken by userspace allocators. Such interactions can significantly reduce cache efficiency depending on the application, particularly on multi-core architectures. This study extends existing works by studying interactions between the operating system, the allocator and caches. Then, we discuss performance issues when large memory segments are allocated. We consider the interaction between the OS and userspace allocators. We show that we can significantly improve some application performances (up to 50%) by controlling the memory exchange rate with the OS and by taking care of memory topologies. We finally study page fault extensibility in current Linux kernel implementation. We observe a large impact due to page zeroing which is a security requirement. We propose an improvement on memory allocation semantic aimed at avoiding page zeroing. It shows a new interest for huge pages to improve paging scalability without changing too much kernel algorithms
APA, Harvard, Vancouver, ISO, and other styles
49

Monna, Florence. "Ordonnancement pour les nouvelles plateformes de calcul avec GPUs." Electronic Thesis or Diss., Paris 6, 2014. http://www.theses.fr/2014PA066390.

Full text
Abstract:
De plus en plus d'ordinateurs utilisent des architectures hybrides combinant des processeurs multi-cœurs (CPUs) et des accélérateurs matériels comme les GPUs (Graphics Processing Units). Ces plates-formes parallèles hybrides exigent de nouvelles stratégies d'ordonnancement adaptées. Cette thèse est consacrée à une caractérisation de ce nouveau type de problèmes d'ordonnancement. L'objectif le plus étudié dans ce travail est la minimisation du makespan, qui est un problème crucial pour atteindre le potentiel des nouvelles plates-formes en Calcul Haute Performance.Le problème central étudié dans ce travail est le problème d'ordonnancement efficace de n tâches séquentielles indépendantes sur une plateforme de m CPUs et k GPUs, où chaque tâche peut être exécutée soit sur un CPU ou sur un GPU, avec un makespan minimal. Ce problème est NP-difficiles, nous proposons donc des algorithmes d'approximation avec des garanties de performance allant de 2 à (2q + 1)/(2q) +1/(2qk), q> 0, et des complexités polynomiales. Il s'agit des premiers algorithmes génériques pour la planification sur des machines hybrides avec une garantie de performance et une fin pratique. Des variantes du problème central ont été étudiées : un cas particulier où toutes les tâches sont accélérées quand elles sont affectées à un GPU, avec un algorithme avec un ratio de 3/2, un cas où les préemptions sont autorisées sur CPU, mais pas sur GPU, le modèle des tâches malléables, avec un algorithme avec un ratio de 3/2. Enfin, le problème avec des tâches dépendantes a été étudié, avec un algorithme avec un ratio de 6. Certains des algorithmes ont été intégré dans l'ordonnanceur du système xKaapi
More and more computers use hybrid architectures combining multi-core processors (CPUs) and hardware accelerators like GPUs (Graphics Processing Units). These hybrid parallel platforms require new scheduling strategies. This work is devoted to a characterization of this new type of scheduling problems. The most studied objective in this work is the minimization of the makespan, which is a crucial problem for reaching the potential of new platforms in High Performance Computing. The core problem studied in this work is scheduling efficiently n independent sequential tasks with m CPUs and k GPUs, where each task of the application can be processed either on a CPU or on a GPU, with minimum makespan. This problem is NP-hard, therefore we propose approximation algorithms with performance ratios ranging from 2 to (2q+1)/(2q)+1/(2qk), q>0, and corresponding polynomial time complexities. The proposed solving method is the first general purpose algorithm for scheduling on hybrid machines with a theoretical performance guarantee that can be used for practical purposes. Some variants of the core problem are studied: a special case where all the tasks are accelerated when assigned to a GPU, with a 3/2-approximation algorithm, a case where preemptions are allowed on CPUs, the same problem with malleable tasks, with an algorithm with a ratio of 3/2. Finally, we studied the problem with dependent tasks, providing a 6-approximation algorithm. Experiments based on realistic benchmarks have been conducted. Some algorithms have been integrated into the scheduler of the xKaapi runtime system for linear algebra kernels, and compared to the state-of-the-art algorithm HEFT
APA, Harvard, Vancouver, ISO, and other styles
50

Denis, Alexandre. "Contribution à la conception d'une plate-forme haute performance d'intégration d'exécutifs communicants pour la programmation des grilles de calcul." Phd thesis, Université Rennes 1, 2003. http://tel.archives-ouvertes.fr/tel-00009595.

Full text
Abstract:
Cette thèse étudie un modèle de plate-forme de communication pour la programmation des grilles de calcul. Notre but est d'étendre la portée des grilles en permettant l'exécution d'applications parallèles et/ou réparties sans imposer de contrainte de programmation ou d'exécutif particulier. Le modèle proposé permet l'utilisation d'exécutifs variés, adaptés à l'application plutôt que ceux dictés par les réseaux disponibles. Notre approche est basée sur : un arbitrage des accès aux ressources, pour permettre plusieurs exécutifs simultanément ; une adaptation d'abstraction qui permet de voir les ressources selon le paradigme choisi par l'utilisateur ; une virtualisation des ressources, qui permet l'utilisation d'exécutifs existants sans les modifier. Nous avons mis en oeuvre ce modèle dans la plate-forme PadicoTM, et porté divers exécutifs sur cette plate-forme, tels que MPI, CORBA, et SOAP. Les réseaux utilisables vont des SAN jusqu'aux WAN. Les performances obtenues sont excellentes.
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography