Dissertationen: „Distributed Parallel Application“

1

Moraes, Sergio A. S. „A distributed processing framework with application to graphics“. Thesis, University of Sussex, 1994. http://ethos.bl.uk/OrderDetails.do?uin=uk.bl.ethos.387338.

Der volle Inhalt der Quelle

APA, Harvard, Vancouver, ISO und andere Zitierweisen

2

Hamza, Golyeri. „Safran: A Distributed And Parallel Application Development Framework For Networks Of Heterogeneous Workstations“. Master's thesis, METU, 2005. http://etd.lib.metu.edu.tr/upload/12606023/index.pdf.

Der volle Inhalt der Quelle

Annotation:

With the rapid advances in high-speed network technologies and steady decrease in the cost of hardware involved, network of workstation (NOW) environments began to attract attention as competitors against special purpose, high performance parallel processing environments. NOWs attract attention as parallel and distributed computing environments because they provide high scalability in terms of computing capacity and they have much smaller cost/performance ratios with high availability. However, they are harder to program for parallel and distributed applications because of the issues involved due to their loosely coupled nature. Some of the issues to be considered are the heterogeneity in the software and hardware architectures, uncontrolled external loads, network overheads, frequently changing system characteristics like workload on processors and network links, and security of applications and hosts. The general objective of this work is to provide the design and implementation of a JavaTM-based, high performance and flexible platform i.e. a framework that will facilitate development of wide range of parallel and distributed applications on networks of heterogeneous workstations (NOW). Parallel and distributed application developers are provided an infrastructure (consisting of pieces of executable software developed in Java and a Java software library) that allows them to build and run their distributed applications on their heterogeneous NOW without worrying about the issues specific to the NOW environments. The results of the extensive set of experiments conducted have shown that Safran is quite scaleable and responds well to compute intensive parallel and distributed applications.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

3

Paula, Nilton Cézar de. „Um ambiente de monitoramento de recursos e escalonamento cooperativo de aplicações paralelas em grades computacionais“. Universidade de São Paulo, 2009. http://www.teses.usp.br/teses/disponiveis/3/3141/tde-31032009-102441/.

Der volle Inhalt der Quelle

Annotation:

Grade computacional é uma alternativa para melhorar o desempenho de aplicações paralelas, por permitir o uso simultâneo de vários recursos distribuídos. Entretanto, para que a utilização de uma grade seja adequada, é necessário que os recursos sejam utilizados de maneira a permitir a otimização de algum critério. Para isto, várias estratégias de escalonamento têm sido propostas, mas o grande desafio é extrair o potencial que os recursos oferecem para a execução de aplicações paralelas. Uma estratégia bastante usada em sistemas de escalonamento atuais é escalonar uma aplicação paralela nos recursos de um único cluster. Contudo, apesar da estratégia ser simples, ela é muito limitada, devido principalmente a baixa utilização dos recursos. Este trabalho propõe e implementa o sistema GCSE (Grid Cooperative Scheduling Environment) que provê uma estratégia de escalonamento cooperativo para usar eficientemente os recursos distribuídos. Os processos de uma aplicação paralela podem ser distribuídos em recursos de vários clusters e computadores, todos conectados a redes de comunicação públicas. GCSE também gerencia a execução das aplicações, bem como oferece um conjunto de primitivas que fornece informações sobre os ambientes de execução para o suporte à comunicação entre processos. Além disto, uma estratégia de antecipação de dados é proposta para aumentar ainda mais o desempenho das aplicações. Para realizar um bom escalonamento é preciso descobrir os recursos distribuídos. Neste sentido, o sistema LIMA (Light-weIght Monitoring Architecture) foi projetado e implementado. Este sistema provê um conjunto de estratégias e mecanismos para o armazenamento distribuído e acesso eficiente às informações sobre os recursos distribuídos. Além disto, LIMA adiciona facilidades de descobrimento e integração com o GCSE e outros sistemas. Por fim, serão apresentados os testes e avaliações dos resultados com o uso integrado dos sistemas GCSE e LIMA, compondo um ambiente robusto para a execução de aplicações paralelas.
Computing grid is an alternative for improving the parallel application performance, because it allows the simultaneous use of many distributed resources. However, in order to take advantage of a grid, the resources must be used in such a way that some criteria can be optimized. Thus, various scheduling strategies have been proposed, but the great challenge is the exploitation of the potential that the resources provide to the parallel application execution. A strategy often used in current scheduling systems is to schedule a parallel application on resources of a single cluster. Even though this strategy is simple, it is very limited, mainly due to low resource utilization. This thesis proposes and implements the GCSE system (Grid Cooperative Scheduling Environment) that provides a cooperative scheduling strategy for efficiently using the distributed resources. The processes of a parallel application can be distributed in resources of many clusters and computers, and they are all connected by public communication networks. GCSE also manages the application execution, as well as offering a primitive set that provide information about the execution environments for ensuring the communication between processes. Moreover, a data advancement strategy is proposed for improving the application performance. In order to perform a good scheduling, the distributed resources must be discovered. Therefore, the LIMA system (Light-weIght Monitoring Architecture) was designed and implemented. This system provides both strategy and mechanism set for distributed storage and efficient access to information about the distributed resources. In addition, LIMA offers facilities for resource discovering and integrating its functionalities both GCSE and other systems. Finally, the tests and result evaluations are presented with the integrated use of both GCSE and LIMA systems, composing a robust environment for executing parallel application.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

4

Wang, Chen. „Chemistry Inspired Middleware for Flexible Service Composition and Application“. Phd thesis, INSA de Rennes, 2013. http://tel.archives-ouvertes.fr/tel-00932085.

Der volle Inhalt der Quelle

Annotation:

Les Architectures Orientées Services (SOA) sont adoptées aujourd'hui par de nombreuses entreprises car elles représentent une solution flexible pour la construction d'applications distribuées. Une Application Basée sur des Services (SBA) peut se définir comme un workflow qui coordonne de manière dynamique l'exécution distribuée d'un ensemble de services. Les services peuvent être sélectionnés et intégrés en temps réel en fonction de leur Qualité de Service (QoS), et la composition de services peut être dynamiquement modifiée pour réagir à des défaillances imprévues pendant l'exécution. Les besoins des architectures orientées services présentent des similarités avec la nature: dynamicité, évolutivité, auto-adaptabilité, etc. Ainsi, il n'est pas surprenant que les métaphores inspirées par la nature soient considérées comme des approches appropriées pour la modélisation de tels systèmes. Nous allons plus loin en utilisant le paradigme de programmation chimique comme base de construction d'un middleware. Dans cette thèse, nous présentons un middleware "chimique'' pour l'exécution dynamique et adaptative de SBA. La sélection, l'intégration, la coordination et l'adaptation de services sont modélisées comme une série de réactions chimiques. Tout d'abord, l'instantiation de workflow est exprimée par une série de réactions qui peuvent être effectuées de manière parallèle, distribuée et autonome. Ensuite, nous avons mis en oeuvre trois modèles de coordination pour exécuter une composition de service. Nous montrons que les trois modèles peuvent réagir aux défaillances de type panne franche. Enfin, nous avons évalué et comparé ces modèles au niveau d'efficacité et complexité sur deux workflows. Nous montrons ainsi dans cette thèse que le paradigme chimique possède les qualités nécessaires à l'introduction de la dynamicité et de l'adaptabilité dans la programmation basée sur les services.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

5

Ghafoor, Sheikh Khaled. „Modeling of an adaptive parallel system with malleable applications in a distributed computing environment“. Diss., Mississippi State : Mississippi State University, 2007. http://sun.library.msstate.edu/ETD-db/theses/available/etd-11092007-145420.

Der volle Inhalt der Quelle

APA, Harvard, Vancouver, ISO und andere Zitierweisen

6

Helal, Manal Computer Science &amp Engineering Faculty of Engineering UNSW. „Indexing and partitioning schemes for distributed tensor computing with application to multiple sequence alignment“. Awarded by:University of New South Wales. Computer Science & Engineering, 2009. http://handle.unsw.edu.au/1959.4/44781.

Der volle Inhalt der Quelle

Annotation:

This thesis investigates indexing and partitioning schemes for high dimensional scientific computational problems. Building on the foundation offered by Mathematics of Arrays (MoA) for tensor-based computation, the ultimate contribution of the thesis is a unified partitioning scheme that works invariant of the dataset dimension and shape. Consequently, portability is ensured between different high performance machines, cluster architectures, and potentially computational grids. The Multiple Sequence Alignment (MSA) problem in computational biology has an optimal dynamic programming based solution, but it becomes computationally infeasible as its dimensionality (the number of sequences) increases. Even sub-optimal approximations may be unmanageable for more than eight sequences. Furthermore, no existing MSA algorithms have been formulated in a manner invariant over the number of sequences. This thesis presents an optimal distributed MSA method based on MoA. The latter offers a set of constructs that help represent multidimensional arrays in memory in a linear, concise and efficient way. Using MoA allows the partitioning of the dynamic programming algorithm to be expressed independently of dimension. MSA is the highest dimensional scientific problem considered for MoA-based partitioning to date. Two partitioning schemes are presented: the first is a master/slave approach which is based on both master/slave scheduling and slave/slave coupling. The second approach is a peer-to-peer design, in which the scheduling and dependency communication are calculated independently by each process, with no need for a master scheduler. A search space reduction technique is introduced to cater for the exponential expansion as the problem dimensionality increases. This technique relies on defining a hyper-diagonal through the tensor space, and choosing a band of neighbouring partitions around the diagonal to score. In contrast, other sub-optimal methods in the literature only consider projections on the surface of the hyper-cube. The resulting massively parallel design produces a scalable solution that has been implemented on high performance machines and cluster architectures. Experimental results for these implementations are presented for both simulated and real datasets. Comparisons between the reduced search space technique of this thesis with other sub-optimal methods for the MSA problem are presented.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

7

King, Randall. „WARPED Redesigned: An API and Implementation for Discrete Event Simulation Analysis and Application Development“. University of Cincinnati / OhioLINK, 2011. http://rave.ohiolink.edu/etdc/view?acc_num=ucin1298040848.

Der volle Inhalt der Quelle

APA, Harvard, Vancouver, ISO und andere Zitierweisen

8

Singh, Neeta S. „An automatic code generation tool for partitioned software in distributed computing“. [Tampa, Fla.] : University of South Florida, 2005. http://purl.fcla.edu/fcla/etd/SFE0001129.

Der volle Inhalt der Quelle

APA, Harvard, Vancouver, ISO und andere Zitierweisen

9

Kachirski, Oleg. „AN INTERACTIVE DISTRIBUTED SIMULATION FRAMEWORK WITH APPLICATION TO WIRELESS NETWORKS AND INTRUSION DETECTION“. Doctoral diss., University of Central Florida, 2005. http://digital.library.ucf.edu/cdm/ref/collection/ETD/id/2531.

Der volle Inhalt der Quelle

Annotation:

In this dissertation, we describe the portable, open-source distributed simulation framework (WINDS) targeting simulations of wireless network infrastructures that we have developed. We present the simulation framework which uses modular architecture and apply the framework to studies of mobility pattern effects, routing and intrusion detection mechanisms in simulations of large-scale wireless ad hoc, infrastructure, and totally mobile networks. The distributed simulations within the framework execute seamlessly and transparently to the user on a symmetric multiprocessor cluster computer or a network of computers with no modifications to the code or user objects. A visual graphical interface precisely depicts simulation object states and interactions throughout the simulation execution, giving the user full control over the simulation in real time. The network configuration is detected by the framework, and communication latency is taken into consideration when dynamically adjusting the simulation clock, allowing the simulation to run on a heterogeneous computing system. The simulation framework is easily extensible to multi-cluster systems and computing grids. An entire simulation system can be constructed in a short time, utilizing user-created and supplied simulation components, including mobile nodes, base stations, routing algorithms, traffic patterns and other objects. These objects are automatically compiled and loaded by the simulation system, and are available for dynamic simulation injection at runtime. Using our distributed simulation framework, we have studied modern intrusion detection systems (IDS) and assessed applicability of existing intrusion detection techniques to wireless networks. We have developed a mobile agent-based IDS targeting mobile wireless networks, and introduced load-balancing optimizations aimed at limited-resource systems to improve intrusion detection performance. Packet-based monitoring agents of our IDS employ a CASE-based reasoner engine that performs fast lookups of network packets in the existing SNORT-based intrusion rule-set. Experiments were performed using the intrusion data from MIT Lincoln Laboratories studies, and executed on a cluster computer utilizing our distributed simulation system.
Ph.D.
School of Computer Science
Engineering and Computer Science
Computer Science

APA, Harvard, Vancouver, ISO und andere Zitierweisen

10

Scriven, Ian Michael. „Derivation and Application of Approximate Electromagnetic Noise Source Models using Decentralised Parallel Particle Swarm Optimisation“. Thesis, Griffith University, 2012. http://hdl.handle.net/10072/367576.

Der volle Inhalt der Quelle

Annotation:

Distributed computing and computational optimisation algorithms are often applied to design problems in various engineering disciplines. In electromagnetic compatibility, an area of electrical engineering concerned with the unintentional generation of and susceptibility to electromagnetic energy, distributed optimisation techniques could be used to ensure compliance with various civilian and military standards that most electrical devices must meet. While there are a variety of numerical techniques that can be applied to problems in computational electromagnetic compatibility, the finite-difference time-domain (FDTD) method stands out as it allows a wide range of frequencies to be examined in a single simulation using Fourier analysis. This property is important for electromagnetic compatibility problems, as resonant frequencies are usually not known or easily calculable. The efficacy of the application of the FDTD method to electromagnetic compatibility problems is limited, however, by a need for excitation sources which can accurately represent the device being modelled. Computational electromagnetic simulations have long been used in many engineering fields to numerically examine the performance of a wide variety of systems. Using such numerical methods, it is possible to examine the influence that any number of input parameters or stimuli have on the design. Optimisation algorithms are often used in conjunction with these numerical simulations to automate the design process.
Thesis (PhD Doctorate)
Doctor of Philosophy (PhD)
Griffith School of Engineering
Science, Environment, Engineering and Technology
Full Text

APA, Harvard, Vancouver, ISO und andere Zitierweisen

11

Jeatsa, Toulepi Armel. „Optimisation de l'allocation de la mémoire cache CPU pour les fonctions cloud et les applications haute performance“. Electronic Thesis or Diss., Université de Toulouse (2023-....), 2024. http://www.theses.fr/2024TLSEP089.

Der volle Inhalt der Quelle

Annotation:

Les services informatiques contemporains reposent principalement sur deux paradigmes majeurs : le cluster computing et le cloud computing. Le premier implique la répartition des tâches de calcul entre différents nœuds qui fonctionnent ensemble comme un seul système, tandis que le second se fonde sur la virtualisation de l'infrastructure informatique qui permet sa fourniture à la demande. Dans le cadre de cette thèse, notre attention se porte sur l'allocation du cache de dernier niveau (LLC) dans le contexte de ces deux paradigmes, en se concentrant spécifiquement sur les applications distribuées et les fonctions FaaS. Le LLC est un espace mémoire partagé et utilisé par tous les cœurs de processeur sur un socket NUMA. Étant une ressource partagée, il est sujet à de la contention qui peut avoir un impact significatif sur les performances. Pour pallier ce problème, Intel a mis en œuvre une technologie dans ses processeurs qui permet le partitionnement et l'allocation de la mémoire cache : Cache Allocation Technology (CAT).Dans ce travail, à l'aide de la technologie CAT, nous examinons d'abord l'impact de la contention du LLC sur les performances des fonctions FaaS. Ensuite, nous étudions comment cette contention dans un sous-ensemble de nœuds d'un cluster affecte les performances globales d'une application distribuée en cours d'exécution. De ces études, nous proposons CASY et CADiA, des systèmes d’allocation intelligents du LLC respectivement pour les fonctions FaaS et pour les applications distribuées. CASY utilise l'apprentissage automatique supervisé pour prédire les besoins en cache d'une fonction FaaS en se basant sur la taille du fichier d'entrée, tandis que CADiA construit dynamiquement le profil d'une application distribuée et effectue une allocation harmonisée sur tous les nœuds en fonction de ce profil. Ces deux solutions nous ont permis d'obtenir des gains de performance allant jusqu'à environ 11% pour CASY, et 13% pour CADiA
Contemporary IT services are mainly based on two major paradigms: cluster computing and cloud computing. The former involves the distribution of computing tasks between different nodes that work together as a single system, while the latter is based on the virtualization of computing infrastructure, enabling it to be provided on demand. In this thesis, our focus is on last-level cache (LLC) allocation in the context of these two paradigms, concentrating specifically on distributed parallel applications and FaaS functions. The LLC is a shared memory space used by all processor cores on a NUMA socket. As a shared resource, it is subject to contention, which can have a significant impact on performance. To alleviate this problem, Intel has implemented a technology in its processors that enables partitioning and allocation of cache memory: Cache Allocation Technology (CAT).In this work, using CAT, we first examine the impact of LLC contention on the performance of FaaS functions. Then, we study how this contention in a subset of nodes in a cluster affects the overall performance of a running distributed application. From these studies, we propose CASY and CADiA, intelligent LLC allocation systems for FaaS functions and distributed applications respectively. CASY uses supervised machine learning to predict the cache requirements of a FaaS function based on the size of the input file, while CADiA dynamically constructs the cache usage profile of a distributed application and performs harmonized allocation across all nodes according to this profile. These two solutions enabled us to achieve performance gains of up to around 11% for CASY, and 13% for CADiA

APA, Harvard, Vancouver, ISO und andere Zitierweisen

12

Teske, Alexander. „Automated Risk Management Framework with Application to Big Maritime Data“. Thesis, Université d'Ottawa / University of Ottawa, 2018. http://hdl.handle.net/10393/38567.

Der volle Inhalt der Quelle

Annotation:

Risk management is an essential tool for ensuring the safety and timeliness of maritime operations and transportation. Some of the many risk factors that can compromise the smooth operation of maritime activities include harsh weather and pirate activity. However, identifying and quantifying the extent of these risk factors for a particular vessel is not a trivial process. One challenge is that processing the vast amounts of automatic identification system (AIS) messages generated by the ships requires significant computational resources. Another is that the risk management process partially relies on human expertise, which can be timeconsuming and error-prone. In this thesis, an existing Risk Management Framework (RMF) is augmented to address these issues. A parallel/distributed version of the RMF is developed to e ciently process large volumes of AIS data and assess the risk levels of the corresponding vessels in near-real-time. A genetic fuzzy system is added to the RMF's Risk Assessment module in order to automatically learn the fuzzy rule base governing the risk assessment process, thereby reducing the reliance on human domain experts. A new weather risk feature is proposed, and an existing regional hostility feature is extended to automatically learn about pirate activity by ingesting unstructured news articles and incident reports. Finally, a geovisualization tool is developed to display the position and risk levels of ships at sea. Together, these contributions pave the way towards truly automatic risk management, a crucial component of modern maritime solutions. The outcomes of this thesis will contribute to enhance Larus Technologies' Total::Insight, a risk-aware decision support system successfully deployed in maritime scenarios.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

13

Delgado, Javier. „Scheduling Medical Application Workloads on Virtualized Computing Systems“. FIU Digital Commons, 2012. http://digitalcommons.fiu.edu/etd/633.

Der volle Inhalt der Quelle

Annotation:

This dissertation presents and evaluates a methodology for scheduling medical application workloads in virtualized computing environments. Such environments are being widely adopted by providers of “cloud computing” services. In the context of provisioning resources for medical applications, such environments allow users to deploy applications on distributed computing resources while keeping their data secure. Furthermore, higher level services that further abstract the infrastructure-related issues can be built on top of such infrastructures. For example, a medical imaging service can allow medical professionals to process their data in the cloud, easing them from the burden of having to deploy and manage these resources themselves. In this work, we focus on issues related to scheduling scientific workloads on virtualized environments. We build upon the knowledge base of traditional parallel job scheduling to address the specific case of medical applications while harnessing the benefits afforded by virtualization technology. To this end, we provide the following contributions: An in-depth analysis of the execution characteristics of the target applications when run in virtualized environments. A performance prediction methodology applicable to the target environment. A scheduling algorithm that harnesses application knowledge and virtualization-related benefits to provide strong scheduling performance and quality of service guarantees. In the process of addressing these pertinent issues for our target user base (i.e. medical professionals and researchers), we provide insight that benefits a large community of scientific application users in industry and academia. Our execution time prediction and scheduling methodologies are implemented and evaluated on a real system running popular scientific applications. We find that we are able to predict the execution time of a number of these applications with an average error of 15%. Our scheduling methodology, which is tested with medical image processing workloads, is compared to that of two baseline scheduling solutions and we find that it outperforms them in terms of both the number of jobs processed and resource utilization by 20-30%, without violating any deadlines. We conclude that our solution is a viable approach to supporting the computational needs of medical users, even if the cloud computing paradigm is not widely adopted in its current form.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

14

Quilbeuf, Jean. „Implantations distribuées de modèles à base de composants communicants par interactions multiparties avec priorités : application au langage BIP“. Phd thesis, Université de Grenoble, 2013. http://tel.archives-ouvertes.fr/tel-00947636.

Der volle Inhalt der Quelle

Annotation:

Les nouveaux systèmes ont souvent recours à une implémentation distribuée du logiciel, pour des raisons d'efficacité et à cause de l'emplacement physique de certains capteurs et actuateurs. S'assurer de la correction d'un logiciel distribué est difficile car cela impose de considérer tous les enchevêtrements possibles des actions exécutées par des processus distincts. Cette thèse propose une méthode pour générer, à partir d'un modèle d'application haut niveau, une implémentation distribuée correcte et efficace. Le modèle de l'application comporte des composants communiquant au moyen d'interactions multiparties avec priorités. L'exécution d'une interaction multipartie, qui correspond à un pas de la sémantique, change de façon atomique l'état de tous les composants participant à l'interaction. On définit une implantation distribuée comme un ensemble de processus communiquant par envoi de message asynchrone. La principale difficulté est de produire une implémentation correcte et efficace des interactions multiparties avec priorités, en utilisant uniquement l'envoi de message comme primitive. La méthode se fonde sur un flot de conception rigoureux qui raffine progressivement le modèle haut niveau en un modèle bas niveau, à partir duquel le code pour une plateforme particulière est généré. Tous les modèles intermédiaires apparaissant dans le flot sont exprimés avec la même sémantique que le modèle original. À chaque étape du flot, les interactions complexes sont remplacés par des constructions utilisant des interactions plus simples. En particulier, le dernier modèle obtenu avant la génération du code ne contient que des interactions modélisant l'envoi de message. La correction de l'implémentation est obtenue par construction. L'utilisation des interactions multiparties comme primitives dans le modèle de l'application permet de réduire très significativement l'ensemble des états atteignables, par rapport à un modèle équivalent mais utilisant des primitives de communication plus simples. Les propriétés essentielles du système sont vérifiées à ce niveau d'abstraction. Chaque transformation constituante du flot de conception est suffisamment simple pour être complètement formalisée et prouvée, en termes d'équivalence observationelle ou d'équivalence de trace entre le modèles avant et après transformation. L'implémentation ainsi obtenue est correcte par rapport au modèle original, ce qui évite une coûteuse vérification a posteriori. Concernant l'efficacité, la performance de l'implémentation peut être optimisée en choisissant les paramètres adéquats pour les transformations, ou en augmentant la connaissance des composants. Cette dernière solution requiert une analyse du modèle de départ afin de calculer la connaissance qui est réutilisée pour les étapes ultérieures du flot de conception. Les différentes transformations et optimisations constituant le flot de conception ont été implémentées dans le cadre de BIP. Cette implémentation a permis d'évaluer les différentes possibilités ainsi que l'influence des différents paramètres, sur la performance de l'implémentation obtenue avec plusieurs exemples. Le code généré utilise les primitives fournies par les sockets POSIX, MPI ou les pthreads pour envoyer des messages entre les processus.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

15

Kallala, Haithem. „Massively parallel algorithms for realistic PIC simulations of ultra high intensity laser-plasma interaction, application to attosecond pulses separation of Doppler harmonics“. Thesis, université Paris-Saclay, 2020. http://www.theses.fr/2020UPASS052.

Der volle Inhalt der Quelle

Annotation:

La complexité des mécanismes physiques mis en jeu lors de l'interaction laser-plasma à ultra-haute intensité nécessite de recourir à des simulations PIC particulièrement lourdes. Au cœur de ces codes de calcul, les solveurs de Maxwell pseudo-spectraux d'ordre élevé présentent de nombreux avantages en termes de précision numérique. Néanmoins, ces solveurs ont un coût élevé en termes de ressources nécessaires. En effet, les techniques de parallélisation existantes pour ces solveurs sont peu performantes au-delà de quelques milliers de coeurs, ou induisent un important usage mémoire, ce qui limite leur scalabilité à large échelle. Dans cette thèse, nous avons développé une toute nouvelle approche de parallélisation qui combine les avantages des méthodes existantes. Cette méthode a été testée à très large échelle et montre un scaling significativement meilleur que les précédentes techniques, tout en garantissant un usage mémoire réduit.En capitalisant sur ce travail numérique, nous avons réalisé une étude numérique/théorique approfondie dans le cadre de la génération d'harmoniques d'ordres élevés sur cible solide. Lorsqu'une impulsion laser ultra-intense (I>10¹⁶W.cm⁻² ) et ultra-courte (de quelques dizaines de femtosecondes) est focalisée sur une cible solide, elle génère un plasma sur-dense, appelé miroir plasma, qui réfléchit non-linéairement le laser incident. La réflexion de l'impulsion laser est accompagnée par l'émission cohérente d'harmoniques d'ordres élevées, sous forme d'impulsions X-UV attosecondes (1 attosecond = 10⁻¹⁸s). Pour des intensités laser relativistes (I>10¹⁹ W.cm⁻²), la surface du plasma est incurvée sous l'effet de la pression de radiation du laser. De ce fait, les harmoniques rayonnées par la surface du plasma sont focalisées. Dans cette thèse, j'ai étudié la possibilité de produire des impulsions attosecondes isolées en régime relativiste sur miroir plasma, grâce au mécanisme de phare attoseconde. Celui-ci consiste à introduire une rotation des fronts d'onde du laser incident de façon à séparer angulairement les différentes impulsions attosecondes produites à chaque cycle optique. En régime relativiste, la courbure du miroir plasma augmente considérablement la divergence du faisceau harmonique, ce qui rend le mécanisme phare attoseconde inefficace. Pour y remédier, j'ai développé deux techniques de réduction de divergence harmonique afin de mitiger l'effet de focalisation induit par la courbure du miroir plasma et permettre de générer des impulsions attosecondes isolées à partir d’harmoniques Doppler. Ces deux techniques sont basées sur la mise en forme en amplitude et en phase du faisceau laser. Par ailleurs, j'ai développé un modèle théorique pour déterminer les régimes optimaux d'interaction afin de maximiser la séparation angulaire des impulsions attosecondes. Ce modèle a été validé par des simulations numériques PIC en géométries 2D et 3D et sur une large gamme de paramètres laser et plasma. Finalement, on montre qu'en ajustant des paramètres laser et plasma réalistes, il est possible de séparer efficacement les impulsions attosecondes en régime relativiste
The complexity of the physical mechanisms involved in ultra-high intensity laser-plasma interaction requires the use of particularly heavy PIC simulations. At the heart of these computational codes, high-order pseudo-spectral Maxwell solvers have many advantages in terms of numerical accuracy. This numerical approach comes however with an expensive computational cost. Indeed, existing parallelization methods for pseudo-spectral solvers are only scalable to few tens of thousands of cores, or induce an important memory footprint, which also hinders the scaling of the method at large scales. In this thesis, we developed a novel, arbitrarily scalable, parallelization strategy for pseudo-spectral Maxwell's equations solvers which combines the advantages of existing parallelization techniques. This method proved to be more scalable than previously proposed approaches, while ensuring a significant drop in the total memory use.By capitalizing on this computational work, we conducted an extensive numerical and theoretical study in the field of high order harmonics generation on solid targets. In this context, when an ultra-intense (I>10¹⁶W.cm⁻²) ultra-short (few tens of femtoseconds) laser pulse irradiates a solid target, a reflective overdense plasma mirror is formed at the target-vacuum interface. The subsequent laser pulse non linear reflection is accompanied with the emission of coherent high order laser harmonics, in the form of attosecond X-UV light pulses (1 attosecond = 10⁻¹⁸s). For relativistic laser intensities (I>10¹⁹ W.cm⁻²), the plasma surface is curved under the laser radiation pressure. And the plasma mirror acts as a focusing optics for the radiated harmonic beam. In this thesis, we investigated feasible ways for producing isolated attosecond light pulses from relativistic plasma-mirror harmonics, with the so called attosecond lighthouse effect. This effect relies introducing a wavefront rotation on the driving laser pulse in order to send attosecond pulses emitted during different laser optical cycles along different directions. In the case of high order harmonics generated in the relativistic regime, the plasma mirror curvature significantly increases the attosecond pulses divergence and prevents their separation with the attosecond lighthouse scheme. For this matter, we developed two harmonic divergence reduction techniques, based on tailoring the laser pulse phase or amplitude profiles in order to significantly inhibit the plasma mirror focusing effect and allow for a clear separation of attosecond light pulses by reducing the harmonic beam divergence. Furthermore, we developed an analytical model to predict optimal interaction conditions favoring attosecond pulses separation. This model was fully validated with 2D and 3D PIC simulations over a broad range of laser and plasma parameters. In the end, we show that under realistic laser and plasma conditions, it is possible to produce isolated attosecond pulses from Doppler harmonics

APA, Harvard, Vancouver, ISO und andere Zitierweisen

16

De, Vlieger P. „Création d'un environnement de gestion de base de données " en grille ". Application à l'échange de données médicales“. Phd thesis, Université d'Auvergne - Clermont-Ferrand I, 2011. http://tel.archives-ouvertes.fr/tel-00654660.

Der volle Inhalt der Quelle

Annotation:

La problématique du transport de la donnée médicale, de surcroît nominative, comporte de nombreuses contraintes, qu'elles soient d'ordre technique, légale ou encore relationnelle. Les nouvelles technologies, issues particulièrement des grilles informatiques, permettent d'offrir une nouvelle approche au partage de l'information. En effet, le développement des intergiciels de grilles, notamment ceux issus du projet européen EGEE, ont permis d'ouvrir de nouvelles perspectives pour l'accès distribué aux données. Les principales contraintes d'un système de partage de données médicales, outre les besoins en termes de sécurité, proviennent de la façon de recueillir et d'accéder à l'information. En effet, la collecte, le déplacement, la concentration et la gestion de la donnée, se fait habituellement sur le modèle client-serveur traditionnel et se heurte à de nombreuses problématiques de propriété, de contrôle, de mise à jour, de disponibilité ou encore de dimensionnement des systèmes. La méthodologie proposée dans cette thèse utilise une autre philosophie dans la façon d'accéder à l'information. En utilisant toute la couche de contrôle d'accès et de sécurité des grilles informatiques, couplée aux méthodes d'authentification robuste des utilisateurs, un accès décentralisé aux données médicales est proposé. Ainsi, le principal avantage est de permettre aux fournisseurs de données de garder le contrôle sur leurs informations et ainsi de s'affranchir de la gestion des données médicales, le système étant capable d'aller directement chercher la donnée à la source. L'utilisation de cette approche n'est cependant pas complètement transparente et tous les mécanismes d'identification des patients et de rapprochement d'identités (data linkage) doivent être complètement repensés et réécris afin d'être compatibles avec un système distribué de gestion de bases de données. Le projet RSCA (Réseau Sentinelle Cancer Auvergne - www.e-sentinelle.org) constitue le cadre d'application de ce travail. Il a pour objectif de mutualiser les sources de données auvergnates sur le dépistage organisé des cancers du sein et du côlon. Les objectifs sont multiples : permettre, tout en respectant les lois en vigueur, d'échanger des données cancer entre acteurs médicaux et, dans un second temps, offrir un support à l'analyse statistique et épidémiologique.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

17

Govindaswamy, Kirthilakshmi. „An API for adaptive loop scheduling in shared address space architectures“. Master's thesis, Mississippi State : Mississippi State University, 2003. http://sun.library.msstate.edu/ETD-db/theses/available/etd-07082003-122028/restricted/kirthi%5Fthesis.pdf.

Der volle Inhalt der Quelle

APA, Harvard, Vancouver, ISO und andere Zitierweisen

18

Duboux, Thibault. „Régulation dynamique du partitionnement de données sur machines parallèles à mémoire distribuée“. Lyon, École normale supérieure (sciences), 1996. http://www.theses.fr/1996ENSL0009.

Der volle Inhalt der Quelle

Annotation:

Le fil conducteur de cette thèse est l'équilibrage de charge : après un état de l'art sur l'équilibrage à toutes les étapes, de l'élaboration à l'exécution, des implantations sur ordinateurs parallèles à mémoire distribuée, nous proposons une strategie pour maintenir equilibre le partitionnement des donnees pour des problemes dynamiques et irreguliers. Cette strategie est particulierement adaptee dans des applications gerant des donnees complexes soumises a des requetes de mise a jour et de consultation. Elle se caracterise par sa tres faible influence sur le comportement de l'application. Cette strategie a ete appliquee sur des machines synchrones et asynchrones. Une machine dictionnaire synchrone a ainsi ete rendue modulaire grace a l'ajout de l'equilibrage. Une machine dictionnaire a egalement pu etre implantee sur un ordinateur asynchrone, cela servant de point de depart pour des applications en bases de donnees. Enfin, le probleme de l'arrangement d'un ensemble de segments dans le plan a permis de valider la strategie d'equilibrage pour des applications complexes

APA, Harvard, Vancouver, ISO und andere Zitierweisen

19

Thomas, Cerqueus. „Contributions au problème d'hétérogénéité sémantique dans les systèmes pair-à-pair : application à la recherche d'information“. Phd thesis, Université de Nantes, 2012. http://tel.archives-ouvertes.fr/tel-00763914.

Der volle Inhalt der Quelle

Annotation:

Nous considérons des systèmes pair-à-pair (P2P) pour le partage de données dans lesquels chaque pair est libre de choisir l'ontologie qui correspond le mieux à ses besoins pour représenter ses données. Nous parlons alors d'hétérogénéité sémantique. Cette situation est un frein important à l'interopérabilité car les requêtes émises par les pairs peuvent être incomprises par d'autres. Dans un premier temps nous nous focalisons sur la notion d'hétérogénéité sémantique. Nous définissons un ensemble de mesures permettant de caractériser finement l'hétérogénéité d'un système suivant différentes facettes. Dans un deuxième temps nous définissons deux protocoles. Le premier, appelé CorDis, permet de réduire l'hétérogénéité sémantique liée aux disparités entre pairs. Il dissémine des correspondances dans le système afin que les pairs apprennent de nouvelles correspondances. Le second protocole, appelé GoOD-TA, permet de réduire l'hétérogénéité sémantique d'un système liée à son organisation. L'objectif est d'organiser le système de sorte que les pairs proches sémantiquement soient proches dans le système. Ainsi deux pairs deviennent voisins s'ils utilisent la même ontologie ou s'il existe de nombreuses correspondances entre leurs ontologies respectives. Enfin, dans un trois temps, nous proposons l'algorithme DiQuESH pour le routage et le traitement de requêtes top-k dans les systèmes P2P sémantiquement hétérogènes. Cet algorithme permet à un pair d'obtenir les k documents les plus pertinents de son voisinage. Nous montrons expérimentalement que les protocoles CorDis et GoOD-TA améliorent les résultats obtenus par DiQuESH.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

20

Olejnik, Richard. „Passage à l'échelle d'applications java distribuées auto-adaptatives“. Habilitation à diriger des recherches, Université des Sciences et Technologie de Lille - Lille I, 2011. http://tel.archives-ouvertes.fr/tel-00833237.

Der volle Inhalt der Quelle

Annotation:

L'évolution rapide des réseaux, des stations de travail, des gros calculateurs sans oublier les ordinateurs personnels, donne naissance à de nouvelles alternatives architecturales pour les traitements parallèles et distribués. Les Grappes, les grilles de calcul et plus récemment le calcul en nuages (Cloud Computing) répondent aux besoins en calcul sans cesse croissants, grâce à des nouveaux paradigmes et concepts logiciels et systèmes basés sur la programmation distribuée. Les principales caractéristiques des applications développées dans ce cadre sont d'être hétérogènes, irrégulières et imprévisibles. Pour permettre une exécution efficace des applications réparties en Java, nous proposons un environnement de programmation et un environnement d'exécution (ADAJ : Adaptative Distributed Applications in Java) qui optimise le placement dynamique des objets de l'application sur les grappes et les grilles d'ordinateurs. Cette répartition s'appuie sur de nouveaux mécanismes d'observation de l'activité des objets et des relations entre eux. Le gain de cette distribution flexible et adaptative des objets se traduit par une meilleure efficacité de l'exécution et la possibilité d'utiliser au mieux la puissance des différents calculateurs, tout en minimisant les coûts de communication et les surcoûts liés au contrôle de l'application. Munie de ces mécanismes, la plate-forme logicielle ADAJ assure une répartition adaptative et automatique des éléments de l'application sur la plateforme d'exécution, répondant de cette façon, aux évolutions du calcul et aux modifications de la disponibilité des ressources. Ce fonctionnement est basé sur un procédé de vol de cycle et permet de contrôler la granularité du traitement. Le programmeur n'a plus en principe, à s'en préoccuper. Les mécanismes ont été implémentés pour diverses plateformes et technologies. Dans un premier temps, ils ont été conçus pour fonctionner sur des grappes de stations de travail. Nous avons ensuite fait évoluer les solutions adoptées pour fonctionner sur des réseaux plus vastes (passage à l'échelle). En particulier, nous avons introduit un framework basé sur des composants logiciels, qui aide le concepteur à bâtir des applications pour grilles d'ordinateurs. Puis, ces travaux ont été étendus, de sorte que la plateforme ADAJ est aujourd'hui, un intergiciel à part entière. Elle est basée sur des web services et son système d'information, sur des systèmes à agents. Les mécanismes d'ADAJ peuvent maintenant gérer des plateformes d'exécution de type grille composées, à priori de milliers de machines. Nous avons finalement testé cette approche pour des problèmes de fouille de données à l'aide d'algorithmes distribués, spécifiquement développés. De cette façon nous avons répondu à la problématique actuelle concernant la mise en oeuvre et l'exploitation d'architecture de grille par des systèmes de type SOKU (Service Oriented Knowledge Utilities). Pour conclure, nous montrons comment nos travaux pourraient être utilisés dans l'environnement des systèmes-sur-puce de nouvelle génération.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

21

Dad, Cherifa. „Méthodologie et algorithmes pour la distribution large échelle de co-simulations de systèmes complexes : application aux réseaux électriques intelligents (Smart Grids)“. Electronic Thesis or Diss., CentraleSupélec, 2018. http://www.theses.fr/2018CSUP0004.

Der volle Inhalt der Quelle

Annotation:

L’apparition des réseaux électriques intelligents, ou « Smart Grids », engendre de profonds changements dans le métier de la distribution d’électricité. En effet, ces réseaux voient apparaître de nouveaux usages (véhicules électriques, climatisation) et de nouveaux producteurs décentralisés (photovoltaïque, éolien), ce qui rend plus difficile le besoin d’équilibre entre l’offre et la demande en électricité et qui impose d’introduire une forme d’intelligence répartie entre leurs différents composants. Au vu de la complexité et de l’ampleur de la mise en oeuvre des Smart Grids, il convient tout d’abord de procéder à des simulations afin de valider leur fonctionnement. Pour ce faire, CentraleSupélec et EDF R&D (au sein de l’institut RISEGrid) ont développé DACCOSIM, une plate-forme de co-simulation s’appuyant sur la norme FMI1(Functional Mock-up Interface), permettant de concevoir et de mettre au point des réseaux électriques intelligents et de grandes tailles. Les composants clés de cette plate-forme sont représentés sous forme de boîtes grises appelées FMU (Functional Mock-up Unit). En outre, les simulateurs des systèmes physiques des Smart Grids peuvent faire des retours arrière en cas de problème dans leurs calculs, contrairement aux simulateurs événementiels (unités de contrôle) qui, bien souvent, ne peuvent qu’avancer dans le temps. Pour faire collaborer ces différents simulateurs, nous avons conçu une solution hybride prenant en considération les contraintes de tous les composants, et permettant d’identifier précisément les types d’événements auxquels le système est confronté. Cette étude a débouché sur une proposition d’évolution de la norme FMI. Par ailleurs, il est difficile de simuler rapidement et efficacement un Smart Grid, surtout lorsque le problème est à l’échelle nationale ou même régionale. Pour pallier ce manque, nous nous sommes focalisés sur la partie la plus gourmande en calcul, à savoir la co-simulation des dispositifs physiques. Ainsi, nous avons proposé des méthodologies, approches et algorithmes permettant de répartir efficacement et rapidement ces différentes FMU sur des architectures distribuées. L’implantation de ces algorithmes a déjà permis de co-simuler des cas métiers de grande taille sur un cluster de PC multi-coeurs. L’intégration de ces méthodes dans DACCOSIM permettraaux ingénieurs d’EDF de concevoir des « réseaux électriques intelligents de très grande taille » plus résistants aux pannes
The emergence of Smart Grids is causing profound changes in the electricity distribution business. Indeed, these networks are seeing new uses (electric vehicles, air conditioning) and new decentralized producers (photovoltaic, wind), which make it more difficult to ensure a balance between electricity supply and demand, and imposes to introduce a form of distributed intelligence between their different components. Considering its complexity and the extent of its implementation, it is necessary to co-simulate it in order to validate its performances. In the RISEGrid institute, CentraleSupélec and EDF R&D have developed a co-simulation platform based on the FMI2 (Functional Mock-up Interface) standard called DACCOSIM, permitting to design and develop Smart Grids. The key components of this platform are represented as gray boxes called FMUs (Functional Mock-up Unit). In addition, simulators of the physical systems of Smart Grids can make backtracking when an inaccuracy is suspected in FMU computations, unlike discrete simulators (control units) that often can only advance in time. In order these different simulators collaborate, we designed a hybrid solution that takes into account the constraints of all the components, and precisely identifies the types of the events that system is facing. This study has led to a FMI standard change proposal. Moreover, it is difficult to rapidly design an efficient Smart Grid simulation, especially when the problem has a national or even a regional scale.To fill this gap,we have focused on the most computationally intensive part, which is the simulation of physical devices. We have therefore proposed methodologies, approaches and algorithms to quickly and efficiently distribute these different FMUs on distributed architectures. The implementation of these algorithms has already allowed simulating large-scale business cases on a multi-core PC cluster. The integration of these methods into DACCOSIM will enable EDF engineers to design « large scale Smart Grids » which will be more resistant to breakdowns

APA, Harvard, Vancouver, ISO und andere Zitierweisen

22

Morajko, Anna. „Dynamic Tuning of Parallel/Distributed Applications“. Doctoral thesis, Universitat Autònoma de Barcelona, 2004. http://hdl.handle.net/10803/3043.

Der volle Inhalt der Quelle

APA, Harvard, Vancouver, ISO und andere Zitierweisen

23

Bassomo, Pierre. „Contribution à la parallélisation de méthodes numériques à matrices creuses skyline. Application à un module de calcul de modes et fréquences propres de Systus“. Phd thesis, Ecole Nationale Supérieure des Mines de Saint-Etienne, 1999. http://tel.archives-ouvertes.fr/tel-00822654.

Der volle Inhalt der Quelle

Annotation:

L'augmentation continue de la puissance des ordinateurs personnels (stations de travail ou PCs) et l'émergence de réseaux à haut débits fournissent de nouvelle opportunités de réalisation de machines parallèle à faible coût, en comparaison des machines parallèles traditionnelles. On peut aujourd 'hui construire de véritables machines parallèles en interconnectant des processeurs standards. Le fonctionnement de cet ensemble de processeurs en tant que machines parallèle est alors assuré par des logiciels tels que PVM et MPI. Quelle que soit la machine parallèle considérée, concevoir des applications parallèles impose, soit des outils de parallélisation automatique, soit un effort du programmeur suivant des méthodologies de programmation. Dans cette thèse, nous proposons une méthodologie de parallélisation des méthodes numériques. En général les méthodes numériques sont une chaîne d'algorithmes s'appelant les uns après les autres tout au long de leur exécution. A moins d'aborder leur parallélisation à partir du problème physique qu'elles traitent, par exemple par des techniques de décomposition de domaines, l'approche de parallélisation la plus réaliste est celle de type client/serveur.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

24

Mosli, Bouksiaa Mohamed Said. „Performance variation considered helpful“. Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLL001/document.

Der volle Inhalt der Quelle

Annotation:

Comprendre les performances d'une application multi-thread est difficile. Les threads interfèrent quand ils accèdent à la même ressource, ce qui ralentit leur exécution. Malheureusement, les outils de profiling existants se focalisent sur l'identification des causes de l'interférence, et non pas sur ses effets.Le développeur ne peut donc pas conclure si l'optimisation d'une interférence identifiée par un outil de profiling peut mener à une meilleure performance. Dans cette thèse, on propose de compléter les outils existants par un outil orienté-effet capable de quantifier l'impact de l'interférence sur la performance, indépendamment de la cause de l'interférence. Avec une évaluation de 27 applications, on montre que notre outil réussit à identifier 12 bottlenecks causés par 6 types d'interférence différents
Understanding the performance of a multi-threaded application is difficult. The threads interfere when they access the same resource, which slows their execution down. Unfortunately, current profiling tools focus on identifying the interference causes, not their effects.The developer can thus not know if optimizing the interference reported by a profiling tool can lead to better performance. In this thesis, we propose to complete the profiling toolbox with an effect-oriented profiling tool able to indicate how much interference impacts performance, regardless of the interference cause. With an evaluation of 27 applications, we show that our tool successfully identifies 12 performance bottlenecks caused by 6 different kinds of interference

APA, Harvard, Vancouver, ISO und andere Zitierweisen

25

Cisternino, Marco. „A parallel second order Cartesian method for elliptic interface problems and its application to tumor growth model“. Phd thesis, Université Sciences et Technologies - Bordeaux I, 2012. http://tel.archives-ouvertes.fr/tel-00690743.

Der volle Inhalt der Quelle

Annotation:

Cette thèse porte sur une méthode cartésienne parallèle pour résoudre des problèmes elliptiques avec interfaces complexes et sur son application aux problèmes elliptiques en domaine irrégulier dans le cadre d'un modèle de croissance tumorale. La méthode est basée sur un schéma aux différences fi nies et sa précision est d'ordre deux sur tout le domaine. L'originalité de la méthode consiste en l'utilisation d'inconnues additionnelles situées sur l'interface et qui permettent d'exprimer les conditions de transmission à l'interface. La méthode est décrite et les détails sur la parallélisation, réalisée avec la bibliothèque PETSc, sont donnés. La méthode est validée et les résultats sont comparés avec ceux d'autres méthodes du même type disponibles dans la littérature. Une étude numérique de la méthode parallélisée est fournie. La méthode est appliquée aux problèmes elliptiques dans un domaine irrégulier apparaissant dans un modèle continue et tridimensionnel de croissance tumorale, le modèle à deux espèces du type Darcy . L'approche utilisée dans cette application est basée sur la pénalisation des conditions de transmission a l'interface, afin de imposer des conditions de Neumann homogènes sur le bord d'un domaine irrégulier. Les simulations du modèle sont fournies et montrent la capacité de la méthode à imposer une bonne approximation de conditions au bord considérées.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

26

Rahman, Anis. „La perception des visages en vidéos: Contributions à un modèle saillance visuelle et son application sur les GPU“. Phd thesis, Université de Grenoble, 2013. http://tel.archives-ouvertes.fr/tel-00923796.

Der volle Inhalt der Quelle

Annotation:

Les études menées dans cette thèse portent sur le rôle des visages dans l'attention visuelle. Nous avons cherché à mieux comprendre l'influence des visages dans les vidéos sur les mouvements oculaires, afin de proposer un modèle de saillance visuelle pour la prédiction de la direction du regard. Pour cela, nous avons analysé l'effet des visages sur les fixations oculaires d'observateurs regardant librement (sans consigne ni tâche particulière) des vidéos. Nous avons étudié l'impact du nombre de visages, de leur emplacement et de leur taille. Il est apparu clairement que les visages dans une scène dynamique (à l'instar de ce qui se passe sur les images fixes) modifie fortement les mouvements oculaires. En nous appuyant sur ces résultats, nous avons proposé un modèle de saillance visuelle, qui combine des caractéristiques classiques de bas-niveau (orientations et fréquences spatiales, amplitude du mouvement des objets) avec cette caractéristique importante de plus haut-niveau que constitue les visages. Enfin, afin de permettre des traitements plus proches du temps réel, nous avons développé une implémentation parallèle de ce modèle de saillance visuelle sur une plateforme multi-GPU. Le gain en vitesse est d'environ 130x par rapport à une implémentation sur un processeur multithread.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

27

Passerat-Palmbach, Jonathan. „Contributions to parallel stochastic simulation : application of good software engineering practices to the distribution of pseudorandom streams in hybrid Monte Carlo simulations“. Phd thesis, Université Blaise Pascal - Clermont-Ferrand II, 2013. http://tel.archives-ouvertes.fr/tel-00858735.

Der volle Inhalt der Quelle

Annotation:

The race to computing power increases every day in the simulation community. A few years ago, scientists have started to harness the computing power of Graphics Processing Units (GPUs) to parallelize their simulations. As with any parallel architecture, not only the simulation model implementation has to be ported to the new parallel platform, but all the tools must be reimplemented as well. In the particular case of stochastic simulations, one of the major element of the implementation is the pseudorandom numbers source. Employing pseudorandom numbers in parallel applications is not a straightforward task, and it has to be done with caution in order not to introduce biases in the results of the simulation. This problematic has been studied since parallel architectures are available and is called pseudorandom stream distribution. While the literature is full of solutions to handle pseudorandom stream distribution on CPU-based parallel platforms, the young GPU programming community cannot display the same experience yet. In this thesis, we study how to correctly distribute pseudorandom streams on GPU. From the existing solutions, we identified a need for good software engineering solutions, coupled to sound theoretical choices in the implementation. We propose a set of guidelines to follow when a PRNG has to be ported to GPU, and put these advice into practice in a software library called ShoveRand. This library is used in a stochastic Polymer Folding model that we have implemented in C++/CUDA. Pseudorandom streams distribution on manycore architectures is also one of our concerns. It resulted in a contribution named TaskLocalRandom, which targets parallel Java applications using pseudorandom numbers and task frameworks. Eventually, we share a reflection on the methods to choose the right parallel platform for a given application. In this way, we propose to automatically build prototypes of the parallel application running on a wide set of architectures. This approach relies on existing software engineering tools from the Java and Scala community, most of them generating OpenCL source code from a high-level abstraction layer.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

28

Gamom, Ngounou Ewo Roland Christian. „Déploiement d'applications parallèles sur une architecture distribuée matériellement reconfigurable“. Thesis, Cergy-Pontoise, 2015. http://www.theses.fr/2015CERG0773/document.

Der volle Inhalt der Quelle

Annotation:

Parmi les cibles architecturales susceptibles d'être utilisées pour réaliser un système de traitement sur puce (SoC), les architectures reconfigurables dynamiquement (ARD) offrent un potentiel de flexibilité et de dynamicité intéressant. Cependant ce potentiel est encore difficile à exploiter pour réaliser des applications massivement parallèles sur puce. Dans nos travaux nous avons recensé et analysé les solutions actuellement proposées pour utiliser les ARD et nous avons constaté leurs limites parmi lesquelles : l'utilisation d'une technologie particulière ou d'architecture propriétaire, l'absence de prise en compte des applications parallèles, le passage à l'échelle difficile, l'absence de langage adopté par la communauté pour l'utilisation de la flexibilité des ARD, ...Pour déployer une application sur une ARD il est nécessaire de considérer l'hétérogénéité et la dynamicité de l'architecture matérielle d'une part et la parallélisation des traitements d'autre part. L'hétérogénéité permet d'avoir une architecture de traitement adaptée aux besoins fonctionnels de l'application. La dynamicité permet de prendre en compte la dépendance des applications au contexte et de la nature des données. Finalement, une application est naturellement parallèle.Dans nos travaux nous proposons une solution pour le déploiement sur une ARD d'une application parallèle en utilisant les flots de conception standard des SoC. Cette solution est appelée MATIP (MPI Application Task Integreation Platform) et utilise des primitives du standard MPI version 2 pour effectuer les communications et reconfigurer l'architecture de traitement. MATIP est une solution de déploiement au niveau de la conception basée plate-forme (PBD).La plateforme MATIP est modélisée en trois couches : interconnexion, communication et application. Nous avons conçu chaque couche pour que l'ensemble satisfasse les besoins en hétérogénéité et dynamicité des applications parallèles . Pour cela MATIP utilise une architecture à mémoire distribuée et exploite le paradigme de programmation parallèle par passage de message qui favorise le passage à l'échelle de la plateforme.MATIP facilite le déploiement d'une application parallèle sur puce à travers un template en langage Vhdl d'intégration de tâches. L'utilisation des primitives de communication se fait en invoquant des procédures Vhdl.MATIP libère le concepteur de tous les détails liés à l'interconnexion, la communication entre les tâches et à la gestion de la reconfiguration dynamique de la cible matérielle. Un démonstrateur de MATIP a été réalisée sur des FPGA Xilinx à travers la mise en oe{}uvre d'une application constituée de deux tâches statiques et deux tâches dynamiques. MATIP offre une bande passante de 2,4 Gb/s et une la latence pour le transfert d'un octet de 3,43 µs ce qui comparée à d'autres plateformes MPI (TMD-MPI, SOC-MPI, MPI HAL) met MATIP à l'état de l'art
Among the architectural targets that could be buid a system on chip (SoC), dynamically reconfigurable architectures (DRA) offer interesting potential for flexibility and dynamicity . However this potential is still difficult to use in massively parallel on chip applications. In our work we identified and analyzed the solutions currently proposed to use DRA and found their limitations including: the use of a particular technology or proprietary architecture, the lack of parallel applications consideration, the difficult scalability, the lack of a common language adopted by the community to use the flexibility of DRA ...In our work we propose a solution for deployment on an DRA of a parallel application using standard SoC design flows. This solution is called MATIP ( textit {MPI Application Platform Task Integreation}) and uses primitives of MPI standard Version 2 to make communications and to reconfigure the MP-RSoC architecture . MATIP is a Platform-Based Design (PBD) level solution.The MATIP platform is modeled in three layers: interconnection, communication and application. Each layer is designed to satisfies the requirements of heterogeneity and dynamicity of parallel applications. For this, MATIP uses a distributed memory architecture and utilizes the message passing parallel programming paradigm to enhance scalability of the platform.MATIP frees the designer of all the details related to interconnection, communication between tasks and management of dynamic reconfiguration of the hardware target. A demonstrator of MATIP was performed on Xilinx FPGA through the implementation of an application consisting of two static and two dynamic hardware tasks. MATIP offers a bandwidth of 2.4 Gb / s and latency of 3.43 microseconds for the transfer of a byte. Compared to other MPI platforms (TMD-MPI, SOC-MPI MPI HAL), MATIP is in the state of the art

APA, Harvard, Vancouver, ISO und andere Zitierweisen

29

Mosli, Bouksiaa Mohamed Said. „Performance variation considered helpful“. Electronic Thesis or Diss., Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLL001.

Der volle Inhalt der Quelle

Annotation:

Comprendre les performances d'une application multi-thread est difficile. Les threads interfèrent quand ils accèdent à la même ressource, ce qui ralentit leur exécution. Malheureusement, les outils de profiling existants se focalisent sur l'identification des causes de l'interférence, et non pas sur ses effets.Le développeur ne peut donc pas conclure si l'optimisation d'une interférence identifiée par un outil de profiling peut mener à une meilleure performance. Dans cette thèse, on propose de compléter les outils existants par un outil orienté-effet capable de quantifier l'impact de l'interférence sur la performance, indépendamment de la cause de l'interférence. Avec une évaluation de 27 applications, on montre que notre outil réussit à identifier 12 bottlenecks causés par 6 types d'interférence différents
Understanding the performance of a multi-threaded application is difficult. The threads interfere when they access the same resource, which slows their execution down. Unfortunately, current profiling tools focus on identifying the interference causes, not their effects.The developer can thus not know if optimizing the interference reported by a profiling tool can lead to better performance. In this thesis, we propose to complete the profiling toolbox with an effect-oriented profiling tool able to indicate how much interference impacts performance, regardless of the interference cause. With an evaluation of 27 applications, we show that our tool successfully identifies 12 performance bottlenecks caused by 6 different kinds of interference

APA, Harvard, Vancouver, ISO und andere Zitierweisen

30

Dinh, Nuong Quang. „Time warp and its applications on a distributed system“. Thesis, University of Bath, 1990. https://ethos.bl.uk/OrderDetails.do?uin=uk.bl.ethos.278198.

Der volle Inhalt der Quelle

APA, Harvard, Vancouver, ISO und andere Zitierweisen

31

JAN, BILAL. „Parallel and Distributed Programing for Data Computation Intensive Applications“. Doctoral thesis, Politecnico di Torino, 2015. http://hdl.handle.net/11583/2592696.

Der volle Inhalt der Quelle

Annotation:

Scientific Computing requires high computation power where large volumes of data are processed quickly usually in gigaFLOPS and teraFLOPS. Supercomputers, grid or cluster based systems are always the preferred choice for running such massively parallel scientific computing jobs. Due to its high performance and low cost GPUs are the preferred choice in High Performance Computing. The GPUs though originally were designed for rendering graphics in high resolution games, are now a days extensively used for computation intensive general purpose applications by the name GPGPU (General Purpose Graphic Processing Unit). Various programming tools and APIs have been developed for GPU computing with greater attention received by CUDA, OpenCL and OpenGL. This work uses OpenCL as parallel programming tool because of its open standard and heterogeneity. GPU Computing power has been exploited in running various applications such as sorting large data sets, design and implementation of parallel FFT library and the FFT based fast Magnetostatic field computation in the area of Micromagnetics. Sorting algorithms arrange a given sequence of input data into a certain order (monotonic increase or decrease) and are categorized by their computational complexity for best, average and worst case analysis. The time complexity is not the only deciding parameter, but other factors like stability, robustness, scalability, input distribution, memory storage and access patterns decide the applicability of a sorting algorithm for a certain application domain. The portion of the thesis work is devoted to the design and implementation of new parallel sorting techniques well suited for multi-processor architectures like GPUs and other multi-core systems. The novel sorting technique, Butterfly Network Sort, exploit high parallelism in its design and thus achieve considerable speedup against state-of-the-art sorting techniques. Fast Fourier Transforms library (named ToPe-FFT) is implemented using OpenCL. ToPe-FFT is based on the well-known Cooley-Tukey algorithm with auto-tuning for multiple GPUs. The open source ToPe-FFT implements several base radices along side the support for mixed-radices making it an almost arbitrary length FFT library. The library takes Complex-to-Complex (C2C) input type with dimension sizes up-to 3D. The design and interface of ToPe-FFT is similar to cuFFT and FFTW. The supported features of arbitrary input length, better accuracy in high dimension transforms, load balancing on multiple GPUs and above all significant speedup against cuFFT and FFTW makes ToPe-FFT promising in delivering maximum performance. An optimized version is tested in Micromagnetic simulations for performance improvement. In Micromagnetic simulations the computation of Magnetostatic field is the most time consuming part of the overall simulation time. In the case of a ferromagnetic region discretized into N number of elementary cells, the computation of Magnetostatic field at a particular location has a functional relationship with the magnetization at all other elements in the whole region. This long range elementary dipole interactions has high computation cost. In the FFT based Magnetostatic field computation, the given model is treated as discrete convolution problem with a reduced complexity. We have used an optimized version of our ToPe-FFT library for accelerating Magnetostatic field computation. Our GPU based optimized field solver has significant speedup against OOMMF Magnetostatic field computation time.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

32

Andersson, Filip, und Simon Norberg. „Scalable applications in a distributed environment“. Thesis, Blekinge Tekniska Högskola, Sektionen för datavetenskap och kommunikation, 2011. http://urn.kb.se/resolve?urn=urn:nbn:se:bth-3917.

Der volle Inhalt der Quelle

Annotation:

As the amount of simultaneous users of distributed systems increase, scalability is becoming an important factor to consider during software development. Without sufficient scalability, systems might have a hard time to manage high loads, and might not be able to support a high amount of users. We have determined how scalability can best be implemented, and what extra costs this leads to. Our research is based on both a literature review, where we have looked at what others in the field of computer engineering thinks about scalability, and by implementing a highly scalable system of our own. In the end we came up with a couple of general pointers which can help developers to determine if they should focus on scalable development, and what they should consider if they choose to do so.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

33

Moussa, Richard. „SEGMENTATION MULTI-AGENTS EN IMAGERIE BIOLOGIQUE ET MÉDICALE : APPLICATION AUX IRM 3D“. Phd thesis, Université Sciences et Technologies - Bordeaux I, 2011. http://tel.archives-ouvertes.fr/tel-00652445.

Der volle Inhalt der Quelle

Annotation:

La segmentation d'images est une opération cruciale pour le traitement d'images. Elle est toujours le point de départ des processus d'analyse de formes, de détection de mouvement, de visualisation, des estimations quantitatives de distances linéaires, de surfaces et de volumes. À ces fins, la segmentation consiste à catégoriser les voxels en des classes basées sur leurs intensités locales, leur localisation spatiale et leurs caractéristiques de forme ou de voisinage. La difficulté de la stabilité des résultats des méthodes de segmentation pour les images médicales provient des différents types de bruit présents. Dans ces images, le bruit prend deux formes : un bruit physique dû au système d'acquisition, dans notre cas l'IRM (Imagerie par Résonance Magnétique), et le bruit physiologique dû au patient. Ces bruits doivent être pris en compte pour toutes les méthodes de segmentation d'images. Durant cette thèse, nous nous sommes focalisés sur des modèles Multi-Agents basés sur les comportements biologiques des araignées et des fourmis pour effectuer la tâche de segmentation. Pour les araignées, nous avons proposé une approche semi-automatique utilisant l'histogramme de l'image pour déterminer le nombre d'objets à détecter. Tandis que pour les fourmis, nous avons proposé deux approches : la première dite classique qui utilise le gradient de l'image et la deuxième, plus originale, qui utilise une partition intervoxel de l'image. Nous avons également proposé un moyen pour accélérer le processus de segmentation grâce à l'utilisation des GPU (Graphics Processing Unit). Finalement, ces deux méthodes ont été évaluées sur des images d'IRM de cerveau et elles ont été comparées aux méthodes classiques de segmentation : croissance de régions et Otsu pour le modèle des araignées et le gradient de Sobel pour les fourmis.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

34

Nuentsa, Wakam Désiré. „Parallélisme et robustesse dans les solveurs hybrides pour grands systèmes linéaires : application à l'optimisation en dynamique des fluides“. Phd thesis, Université Rennes 1, 2011. http://tel.archives-ouvertes.fr/tel-00690965.

Der volle Inhalt der Quelle

Annotation:

Cette thèse présente un ensemble de routines pour la résolution des grands systèmes linéaires creuses sur des architectures parallèles. Les approches proposées s'inscrivent dans un schéma hybride combinant les méthodes directes et itératives à travers l'utilisation des techniques de décomposition de domaine. Dans un tel schéma, le problème initial est divisé en sous-problèmes en effectuant un partitionnement du graphe de la matrice coefficient du système. Les méthodes de Schwarz sont ensuite utilisées comme outils de préconditionnements des méthodes de Krylov basées sur GMRES. Nous nous intéressons tout d'abord au schéma utilisant un préconditionneur de Schwarz multiplicatif. Nous définissons deux niveaux de parallélisme: le premier est associé à GMRES préconditionné sur le système global et le second est utilisé pour résoudre les sous-systèmes à l'aide d'une méthode directe parallèle. Nous montrons que ce découpage permet de garantir une certaine robustesse à la méthode en limitant le nombre total de sous-domaines. De plus, cette approche permet d'utiliser plus efficacement tous les processeurs alloués sur un noeud de calcul. Nous nous intéressons ensuite à la convergence et au parallélisme de GMRES qui est utilisée comme accélerateur global dans l'approche hybride. L'observation générale est que le nombre global d'itérations, et donc le temps de calcul global, augmente avec le nombre de partitions. Pour réduire cet effet, nous proposons plusieurs versions de GMRES basés sur la déflation. Les techniques de déflation proposées utilisent soit un préconditionnement adaptatif soit une base augmentée. Nous montrons l'utilité de ces approches dans leur capacité à limiter l'influence du choix d'une taille de base de Krylov adaptée, et donc à éviter une stagnation de la méthode hybride globale. De plus, elles permettent de réduire considérablement le coût mémoire, le temps de calcul ainsi que le nombre de messages échangés par les différents processeurs. Les performances de ces méthodes sont démontrées numériquement sur des systèmes linéaires de grande taille provenant de plusieurs champs d'application, et principalement de l'optimisation de certains paramètres de conception en dynamique des fluides.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

35

Fernandes, de Carvalho Costa Genaro. „Automatic dynamic tuning of parallel/distributed applications on computational grids“. Doctoral thesis, Universitat Autònoma de Barcelona, 2009. http://hdl.handle.net/10803/5771.

Der volle Inhalt der Quelle

Annotation:

Las aplicaciones paralelas presentan diversos problemas de prestaciones al ser cambiadas para ejecutar en entornos Grid. Las características del sistema pueden ser diferentes en cada ejecución y en algunos casos dentro de una misma ejecución. Los recursos remotos comparten enlaces de red y, los procesos de la aplicación comparten las maquinas con otros procesos. En esos escenarios se propone el uso de la técnica de sintonización dinámica de prestaciones para ayudar las aplicaciones a adaptarse a los cambios en las características del sistema con la intención de resolver los problemas de prestaciones.
Esta tesis analiza el problema de la ejecución de aplicaciones paralelas en entornos Grid, herramientas para el análisis de prestaciones disponibles y modelos adecuados para la sintonización dinámica de aplicaciones paralelas en este tipo de entorno. De este análisis, se propone una arquitectura para sintonización dinámica de aplicaciones paralelas en entornos Grid llamada GMATE. Esta arquitectura incluye diversas contribuciones. En el caso donde un gestor de recursos de alto nivel decide el mapeo de procesos de la aplicación, se proponen dos aproximaciones para el seguimiento de procesos que habilita GMATE a localizar donde las capas de software del Grid ha mapeado los procesos de la aplicación. Una aproximación consiste en la integración de GMATE a las capas de software del Grid. La otra integra los componentes requeridos de GMATE dentro de los binarios de la aplicación. El primer enfoque requiere derechos de administración en cuanto que el segundo incrementa el binario del la aplicación, lo que torna más lento el arranque de la misma.
Para respetar las políticas de las organizaciones propietarias de los recursos, todas las comunicaciones usan el mismo certificado de seguridad de la aplicación. Esas comunicaciones son hechas con base en las capas del Grid. Esta aproximación habilita la arquitectura a monitorizar y sintonizar los procesos de la aplicación de forma dinámica a las restricciones de cortafuegos de las organizaciones y políticas de uso de la red en las mismas.
Para bajar la necesidad de comunicaciones en la arquitectura GMATE, se encapsula parte de la lógica requerida para colectar las medidas y para cambiar los parámetros de la aplicación en componentes encuestados que ejecutan dentro de espacio de memoria del proceso de la aplicación. Para colectar medidas, se ha creado componentes sensores que disminuyen la necesidad de comunicaciones llevando el procesamiento de eventos para dentro del proceso de la aplicación. Diferente de la instrumentación tradicional, los sensores pueden retrasar la transmisión de los eventos y ejecutar operaciones básicas como sumas, temporizadores, promedios o generación de eventos basados en umbrales. Esas capacidades reducen los requerimientos de comunicaciones que son útiles en situaciones de bajo ancho de banda. Se propone también el encapsulamiento de la lógica de cambio en las aplicaciones en componentes actuadores. Los actuadores son instalados en el flujo de ejecución de la aplicación y posibilita la sincronización y baja intrusión en cambio de variables y ejecución de funciones para modificar la aplicación. La arquitectura propuesta posibilita la comunicación entre sensores y actuadores lo cual habilita la sintonizaciones sencillas sin necesidad de comunicaciones.
Para aplicar la sintonización dinámica en entornos Grid, necesitamos de un modelo de prestaciones que pueda ser usado en entornos con heterogeneidad de red y procesadores para guiar el proceso. Se propone un modelo de prestaciones basado en una heurística para lograr usar el máximo número de esclavos y el mejor tamaño de grano en una ejecución Maestro-Esclavo en sistemas Grid. Se considera que una clase de aplicaciones pueden ser desarrolladas con la capacidad de cambiar el tamaño de grano en tiempo de ejecución y que esa acción cambia la relación entre cómputo y comunicación. En el escenario donde usuarios reciben un conjunto de recursos para una ejecución paralela, esos recursos pueden configurar un sistema de múltiples clústeres. La heurística del modelo presentado permite guiar la selección de los recursos para disminuir el tiempo total de ejecución de la aplicación. Se intenta buscar el punto donde el maestro usa el máximo número de esclavos posible asignando prioridad a aquellos más rápidos.
Se presentan los resultados de sintonización del tamaño de grano y número de esclavos en ejecuciones Maestro-Esclavo en entornos Grid donde se logra bajar el tiempo total de ejecución de la aplicación y aumentando la eficiencia de uso de los recursos. Se presentan las implementaciones de las aplicaciones multiplicación de matrices, N-Body y cargas sintéticas las cuales tienen diferentes grados en la relación entre cómputo y comunicación en escenarios de cambio del tamaño de grano.
When moving to Grid Computing, parallel applications face several performance problems. The system characteristics are different in each execution and sometimes within the same execution. Remote resources share network links and in some cases, the processes share machines using per-core allocation. In such scenarios we propose to use automatic performance tuning techniques to help an application adapt itself thus a system changes in order to overcome performance bottlenecks.
This thesis analyzes such problems of parallel application execution in Computational Grids, available tools for performance analysis and models to suit automatic dynamic tuning in such environments. From such an analysis, we propose system architecture for automatic dynamic tuning of parallel applications on computational Grids named GMATE. Its architecture includes several contributions. In cases where a Grid meta-scheduler decides application mapping, we propose two process tracking approaches that enable GMATE to locate where a Grid middleware maps application processes. One approach consists of the integration of GMATE components as Grid middleware. The other involves the need to embed a GMATE component inside application binaries. The first requires site administration privileges while the other increases the application binary which slows down application startup.
To obey organizational policies, all communications use the same application security certificates for authentication. The same communications are performed using Grid middleware API. That approach enables the monitoring and tuning process to adapt dynamically to organizational firewall restrictions and network usage policies.
To lower the communication needs of GMATE, we encapsulate part of the logic required to collect measurements and change application parameters in components that run inside the processing space. For measurements collection, we create sensor components that reduce the communication needs by event processing inside the process space. Different from traditional instrumentation, sensors can postpone the event transmission and perform basic operations such as summarizations, timers, averages or threshold based event generation. That reduces the communication requirements in cases where network bandwidth is expensive. We also encapsulate the modifications used to tune the application in components called actuators. Actuators may be installed at some point in the program flow execution and provide synchronization and low overhead control of application variables and function executions. As sensors and actuators can communicate with each other, we can perform simple tuning within process executions without the need for communication.
As the dynamic tuning is performance model-centric, we need a performance model that can be used on heterogeneous processors and network such Grid Systems. We propose a heuristic performance model to find the maximum number of workers and best grain size of a Master-Worker execution in such systems. We assume that some classes of application may be built capable of changing grain size at runtime and that change action can modify an application's compute-communication ratio. When users request a set of resources for a parallel execution, they may receive a multi-cluster configuration. The heuristic model allows for shrinking the set of resources without decreasing the application execution time. The idea is to reach the maximum number of workers the master can use, giving high priority to the faster ones.
We presented the results of the dynamic tuning of grain size and the number of workers in Master-Worker applications on Grid systems, lowering the total application execution time while raising system efficiency. We used the implementation of Matrix-Multiplication, N-Body and synthetic workloads to try out different compute-communication ratio changes in different grain size selections.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

36

Cadore, Cataldo Rodrigo. „Subutai : Distributed synchronization primitives for legacy and novel parallel applications“. Thesis, Lorient, 2019. http://www.theses.fr/2019LORIS541.

Der volle Inhalt der Quelle

Annotation:

Les applications parallèles sont essentielles pour utiliser efficacement la puissance de calcul des systèmes multi-processeurs (MPSoC). Cependant, ces applications ne s’adaptent pas sans effort au nombre de cœurs à cause des opérations de synchronisation qui limitent les gains de parallélisation. Les solutions existantes soit se restreignent à un sous-ensemble de primitives de synchronisation, soit nécessitent de modifier le code source de l'application, ou les deux. Nous présentons Subutai, une solution logiciel/matériel conçue pour distribuer les mécanismes de synchronisation sur le réseau sur puce, tout en restant compatible avec le code source originel. Subutai est composé d’un matériel spécialisé dans l’accélération des opérations de synchronisation, une mémoire privée, un pilote de système d’exploitation et une bibliothèque personnalisée. Nous ciblons la bibliothèque POSIX Threads (PThreads), largement utilisée comme bibliothèque de synchronisation native et en interne par d’autres bibliothèques telles que OpenMP ou TBB. Nous fournissons aussi des extensions à Subutai destinées à accélérer encore davantage les applications dans deux cas: (i) plusieurs applications dans un contexte d'exécution fortement disputé; et (ii) sérialisation d’accès pour les variables condition dans PThreads. Les résultats expérimentaux sur quatre applications du benchmark PARSEC fonctionnant sur un MPSoC à 64 cœurs montrent une accélération moyenne des applications de 1,57× par rapport à des solutions purement logicielles. Une accélération de 5% en plus est obtenue en utilisant notre politique d'ordonnancement Critical Section-aware comparée à un ordonnanceur Round-Robin de base
Parallel applications are essential for efficiently using the computational power of a MultiProcessor System-on-Chip (MPSoC). Unfortunately, these applications do not scale effortlessly with the number of cores because of synchronization operations that take away valuable computational time and restrict the parallelization gains. The existing solutions either restrict the application to a subset of synchronization primitives, require refactoring the source code of it, or both. We introduce Subutai, a hardware/software architecture designed to distribute the synchronization mechanisms over the Network-on-Chip. Subutai is comprised of novel hardware specialized in accelerating synchronization operations, a small private memory for recording events, an operating system driver, and a user space custom library that supports legacy and novel parallel applications. We target the POSIX Threads (PThreads) library as it is widely used as a synchronization library, and internally by other libraries such as OpenMP and Threading Building Blocks. We also provide extensions to Subutai intended to further accelerate parallel applications in two scenarios: (i) multiple applications running in a highly-contended scheduling scenario; (ii) remove the access serialization to condition variables in PThreads. Experimental results with four applications from the PARSEC benchmark running on a 64-core MPSoC show an average application speedup of 1.57× compared with the legacy software solutions. The same applications are further sped up to 5% using our proposed Critical Section-aware scheduling policy compared to a baseline Round-Robin scheduler without any changes in the application source code

APA, Harvard, Vancouver, ISO und andere Zitierweisen

37

Chapman, Barbara Mary. „Software support for advanced applications on distributed memory multiprocessor systems“. Thesis, Queen's University Belfast, 1998. http://ethos.bl.uk/OrderDetails.do?uin=uk.bl.ethos.263366.

Der volle Inhalt der Quelle

APA, Harvard, Vancouver, ISO und andere Zitierweisen

38

Bounaim, Aïcha. „Méthodes de décomposition de domaine : application à la résolution de problèmes de contrôle optimal“. Phd thesis, Université Joseph Fourier (Grenoble), 1999. http://tel.archives-ouvertes.fr/tel-00004809.

Der volle Inhalt der Quelle

Annotation:

Ce travail porte sur l'étude des méthodes de décomposition de domaine et leur application pour résoudre des problèmes de contrôle optimal régis par des équations aux dérivées partielles. Le principe de ces méthodes consiste à ramener des problèmes de grande taille sur des géométries complexes en une suite de sous-problèmes de taille plus petite sur des géométries plus simples. En considérant une décomposition sans recouvrement, l'intérêt de ces méthodes pour les problèmes de contrôle optimal réside au niveau de l'intégration de l'équation d'état, puisqu'il est possible de partitionner le problème en une suite de problèmes plus petits, quitte à contraindre les interfaces entre les sous-domaines à obéir à des conditions de raccordement afin de déduire la solution globale à partir des solutions locales. Dans une première partie, nous étudions le cas elliptique. Nous considérons simultanément la minimisation de la fonction coût et des raccordements sur les frontières entre les sous-domaines. Cette combinaison de problèmes de minimisation et de méthodes de décomposition de domaine est traitée par des techniques de Lagrangien augmenté. Nous montrons que, sur le domaine décomposé, le problème initial se réduit à la recherche d'un point-selle. Une étude des méthodes de Lagrangien nous a permis de choisir une variante d'algorithmes existants dans la littérature et de les combiner avec un algorithme de décomposition de domaine. Dans la seconde partie, nous développons l'extension de cette approche aux problèmes de contrôle optimal régis par des systèmes paraboliques en considérant uniquement une décomposition en espace du domaine de calcul. Dans une dernière partie, nous considérons une décomposition de domaine avec recouvrement à chaque pas de la minimisation. D'une part, nous construisons un algorithme parallèle en utilisant la méthode de Schwarz multiplicative en tant que solveur. Ceci permet de déduire naturellement l'état adjoint par transposition des systèmes directs locaux. L'algorithme global défini par la méthode de minimisation de type quasi-Newton et ce solveur de Schwarz constitue une méthode robuste de résolution du problème de contrôle optimal, mais coûteuse. D'autre part, et plus particulièrement, pour des problèmes de grande taille, l'algorithme de type quasi-Newton, combiné avec le solveur de Krylov BiCGSTAB préconditionné par une méthode de Schwarz additive, est plus compétitif dans la mesure oû l'on obtient de bonnes performances parallèles. De nombreux résultats sont présentés pour préciser le comportement des algorithmes d'optimisation quand ils sont utilisés avec des méthodes de Schwarz.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

39

Kilpatrick, Carol Elizabeth. „Capture and display of performanced information for parallel and distributed applications“. Diss., Georgia Institute of Technology, 1991. http://hdl.handle.net/1853/8193.

Der volle Inhalt der Quelle

APA, Harvard, Vancouver, ISO und andere Zitierweisen

40

Lee, Dong Ryeol. „A distributed kernel summation framework for machine learning and scientific applications“. Diss., Georgia Institute of Technology, 2012. http://hdl.handle.net/1853/44727.

Der volle Inhalt der Quelle

Annotation:

The class of computational problems I consider in this thesis share the common trait of requiring consideration of pairs (or higher-order tuples) of data points. I focus on the problem of kernel summation operations ubiquitous in many data mining and scientific algorithms. In machine learning, kernel summations appear in popular kernel methods which can model nonlinear structures in data. Kernel methods include many non-parametric methods such as kernel density estimation, kernel regression, Gaussian process regression, kernel PCA, and kernel support vector machines (SVM). In computational physics, kernel summations occur inside the classical N-body problem for simulating positions of a set of celestial bodies or atoms. This thesis attempts to marry, for the first time, the best relevant techniques in parallel computing, where kernel summations are in low dimensions, with the best general-dimension algorithms from the machine learning literature. We provide a unified, efficient parallel kernel summation framework that can utilize: (1) various types of deterministic and probabilistic approximations that may be suitable for both low and high-dimensional problems with a large number of data points; (2) indexing the data using any multi-dimensional binary tree with both distributed memory (MPI) and shared memory (OpenMP/Intel TBB) parallelism; (3) a dynamic load balancing scheme to adjust work imbalances during the computation. I will first summarize my previous research in serial kernel summation algorithms. This work started from Greengard/Rokhlin's earlier work on fast multipole methods for the purpose of approximating potential sums of many particles. The contributions of this part of this thesis include the followings: (1) reinterpretation of Greengard/Rokhlin's work for the computer science community; (2) the extension of the algorithms to use a larger class of approximation strategies, i.e. probabilistic error bounds via Monte Carlo techniques; (3) the multibody series expansion: the generalization of the theory of fast multipole methods to handle interactions of more than two entities; (4) the first O(N) proof of the batch approximate kernel summation using a notion of intrinsic dimensionality. Then I move onto the problem of parallelization of the kernel summations and tackling the scaling of two other kernel methods, Gaussian process regression (kernel matrix inversion) and kernel PCA (kernel matrix eigendecomposition). The artifact of this thesis has contributed to an open-source machine learning package called MLPACK which has been first demonstrated at the NIPS 2008 and subsequently at the NIPS 2011 Big Learning Workshop. Completing a portion of this thesis involved utilization of high performance computing resource at XSEDE (eXtreme Science and Engineering Discovery Environment) and NERSC (National Energy Research Scientific Computing Center).

APA, Harvard, Vancouver, ISO und andere Zitierweisen

41

Sunderland, Andrew Gareth. „Large scale applications on distributed-memory parallel computers using efficient numerical methods“. Thesis, University of Liverpool, 2000. http://ethos.bl.uk/OrderDetails.do?uin=uk.bl.ethos.367976.

Der volle Inhalt der Quelle

APA, Harvard, Vancouver, ISO und andere Zitierweisen

42

Gu, Weiming. „On-line monitoring and interactive steering of large-scale parallel and distributed applications“. Diss., Georgia Institute of Technology, 1995. http://hdl.handle.net/1853/9220.

Der volle Inhalt der Quelle

APA, Harvard, Vancouver, ISO und andere Zitierweisen

43

Antonio, Wendell De Oliveira Rodrigues. „Une Méthodologie pour le Développement d'Applications Hautes Performances sur des Architectures GPGPU: Application à la Simulation des Machines Éléctriques“. Phd thesis, Université des Sciences et Technologie de Lille - Lille I, 2012. http://tel.archives-ouvertes.fr/tel-00670221.

Der volle Inhalt der Quelle

Annotation:

Les phénomènes physiques complexes peuvent être simulés numériquement par des techniques mathématiques basées souvent sur la discrétisation des équations aux dérivées partielles régissant ces phénomènes. Ces simulations peuvent mener ainsi à la résolution de très grands systèmes. La parallélisation des codes de simulation numérique, c'est-à-dire leur adaptation aux architectures des calculateurs parallèles, est alors une nécessité pour parvenir à faire ces simulations en des temps non-exorbitants. Le parallélisme s'est imposé au niveau des architectures de processeurs et les cartes graphiques sont maintenant utilisées pour des fins de calcul généraliste, aussi appelé "General-Purpose computation on Graphics Processing Unit (GPGPU)", avec comme avantage évident l'excellent rapport performance/prix. Cette thèse se place dans le domaine de la conception de ces applications hautes-performances pour la simulation des machines électriques. Nous fournissons une méthodologie basée sur l'Ingénierie Dirigées par les Modèles (IDM) qui permet de modéliser une application et l'architecture sur laquelle l'exécuter afin de générer un code OpenCL. Notre objectif est d'aider les spécialistes en algorithmes de simulations numériques à créer un code efficace qui tourne sur les architectures GPGPU. Pour cela, une chaine de compilation de modèles qui prend en compte les plusieurs aspects du modèle de programmation OpenCL est fournie. De plus, pour rendre le code raisonnablement efficace par rapport à un code développé à la main, nous fournissons des transformations de modèles qui regardent des niveaux d'optimisations basées sur les caractéristiques de l'architecture (niveau de mémoire par exemple). Comme validation expérimentale, la méthodologie est appliquée à la création d'une application qui résout un système linéaire issu de la Méthode des Éléments Finis pour la simulation de machines électriques. Dans ce cas nous montrons, entre autres, la capacité de la méthodologie de passer à l'échelle par une simple modification de la multiplicité des unités GPU disponibles.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

44

Baird, Ian Jacob. „A light-weight middleware framework for fault-tolerant and secure distributed applications“. Diss., Rolla, Mo. : University of Missouri-Rolla, 2007. http://scholarsmine.mst.edu/thesis/pdf/baird_pdf_09007dcc804e84aa.pdf.

Der volle Inhalt der Quelle

Annotation:

Thesis (M.S.)--University of Missouri--Rolla, 2007.
Vita. The entire thesis text is included in file. Title from title screen of thesis/dissertation PDF file (viewed April 22, 2008) Includes bibliographical references (p. 70-71).

APA, Harvard, Vancouver, ISO und andere Zitierweisen

45

Hernandez, Jesus Israel. „Reactive scheduling of DAG applications on heterogeneous and dynamic distributed computing systems“. Thesis, University of Edinburgh, 2008. http://hdl.handle.net/1842/2336.

Der volle Inhalt der Quelle

Annotation:

Emerging technologies enable a set of distributed resources across a network to be linked together and used in a coordinated fashion to solve a particular parallel application at the same time. Such applications are often abstracted as directed acyclic graphs (DAGs), in which vertices represent application tasks and edges represent data dependencies between tasks. Effective scheduling mechanisms for DAG applications are essential to exploit the tremendous potential of computational resources. The core issues are that the availability and performance of resources, which are already by their nature heterogeneous, can be expected to vary dynamically, even during the course of an execution. In this thesis, we first consider the problem of scheduling DAG task graphs onto heterogeneous resources with changeable capabilities. We propose a list-scheduling heuristic approach, the Global Task Positioning (GTP) scheduling method, which addresses the problem by allowing rescheduling and migration of tasks in response to significant variations in resource characteristics. We observed from experiments with GTP that in an execution with relatively frequent migration, it may be that, over time, the results of some task have been copied to several other sites, and so a subsequent migrated task may have several possible sources for each of its inputs. Some of these copies may now be more quickly accessible than the original, due to dynamic variations in communication capabilities. To exploit this observation, we extended our model with a Copying Management(CM) function, resulting in a new version, the Global Task Positioning with copying facilities (GTP/c) system. The idea is to reuse such copies, in subsequent migration of placed tasks, in order to reduce the impact of migration cost on makespan. Finally, we believe that fault tolerance is an important issue in heterogeneous and dynamic computational environments as the availability of resources cannot be guaranteed. To address the problem of processor failure, we propose a rewinding mechanism which rewinds the progress of the application to a previous state, thereby preserving the execution in spite of the failed processor(s). We evaluate our mechanisms through simulation, since this allow us to generate repeatable patterns of resource performance variation. We use a standard benchmark set of DAGs, comparing performance against that of competing algorithms from the scheduling literature.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

46

Janjic, Vladimir. „Load balancing of irregular parallel applications on heterogeneous computing environments“. Thesis, University of St Andrews, 2012. http://hdl.handle.net/10023/2540.

Der volle Inhalt der Quelle

Annotation:

Large-scale heterogeneous distributed computing environments (such as Computational Grids and Clouds) offer the promise of access to a vast amount of computing resources at a relatively low cost. In order to ease the application development and deployment on such complex environments, high-level parallel programming languages exist that need to be supported by sophisticated runtime systems. One of the main problems that these runtime systems need to address is dynamic load balancing that ensures that no resources in the environment are underutilised or overloaded with work. This thesis deals with the problem of obtaining good speedups for irregular applications on heterogeneous distributed computing environments. It focuses on workstealing techniques that can be used for load balancing during the execution of irregular applications. It specifically addresses two problems that arise during work-stealing: where thieves should look for work during the application execution and how victims should respond to steal attempts. In particular, we describe and implement a new Feudal Stealing algorithm and also we describe and implement new granularity-driven task selection policies in the SCALES simulator, which is a work-stealing simulator developed for this thesis. In addition, we present the comprehensive evaluation of the Feudal Stealing algorithm and the granularity-driven task selection policies using the simulations of a large class of regular and irregular parallel applications on a wide range of computing environments. We show how the Feudal Stealing algorithm and the granularity-driven task selection policies bring significant improvements in speedups of irregular applications, compared to the state-of-the-art work-stealing algorithms. Furthermore, we also present the implementation of the task selection policies in the Grid-GUM runtime system [AZ06] for Glasgow Parallel Haskell (GpH) [THLPJ98], in addition to the implementation in SCALES, and we also present the evaluation of this implementation on a large set of synthetic applications.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

47

Crépin, Laurent. „Couplage de modèles population et individu-centrés pour la simulation parallélisée des systèmes biologiques : application à la coagulation du sang“. Phd thesis, Université de Bretagne occidentale - Brest, 2013. http://tel.archives-ouvertes.fr/tel-00880516.

Der volle Inhalt der Quelle

Annotation:

Plusieurs types d'expérimentation existent pour étudier et comprendre les systèmes biologiques. Dans ces travaux, nous nous intéressons à la simulation in silico, c'est-à-dire à la simulation numérique de modèles sur un ordinateur. Les systèmes biologiques sont composés d'entités, à la fois nombreuses et variées, en interaction les unes avec les autres. Ainsi, ils peuvent être modélisés par l'intermédiaire de deux approches complémentaires : l'approche population-centrée et l'approche individu-centrée. Face à la multitude et à la variété des phénomènes composant les systèmes biologiques, il nous semble pertinent de coupler ces deux approches pour obtenir une modélisation mixte. En outre, en raison de la quantité conséquente d'informations que représente l'ensemble des entités et des interactions à modéliser, la simulation numérique des systèmes biologiques est particulièrement coûteuse en temps de calcul informatique. Ainsi, dans ce mémoire, nous proposons des solutions techniques de parallélisation permettant d'exploiter au mieux les performances offertes par les architectures multicoeur et multiprocesseur et les architectures graphiques pour la simulation de systèmes biologiques à base de modélisations mixtes. Nous appliquons nos travaux au domaine de la coagulation du sang et plus particulièrement à l'étude de la cinétique biochimique à l'échelle microscopique ainsi qu'à la simulation d'un vaisseau sanguin virtuel. Ces deux applications nous permettent d'évaluer les performances offertes par les solutions techniques de parallélisation que nous proposons, ainsi que leur pertinence dans le cadre de la simulation des systèmes biologiques.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

48

Yeom, Jae-seung. „Optimizing Data Accesses for Scaling Data-intensive Scientific Applications“. Diss., Virginia Tech, 2014. http://hdl.handle.net/10919/64180.

Der volle Inhalt der Quelle

Annotation:

Data-intensive scientific applications often process an enormous amount of data. The scalability of such applications depends critically on how to manage the locality of data. Our study explores two common types of applications that are vastly different in terms of memory access pattern and workload variation. One includes those with multi-stride accesses in regular nested parallel loops. The other is for processing large-scale irregular social network graphs. In the former case, the memory location or the data item accessed in a loop is predictable and the load on processing a unit work (an array element) is relatively uniform with no significant variation. On the other hand, in the latter case, the data access per unit work (a vertex) is highly irregular in terms of the number of accesses and the locations being accessed. This property is further tied to the load and presents significant challenges in the scalability of the application performance. Designing platforms to support extreme performance scaling requires understanding of how application specific information can be used to control the locality and improve the performance. Such insights are necessary to determine which control and which abstraction to provide for interfacing an underlying system and an application as well as for designing a new system. Our goal is to expose common requirements of data-intensive scientific applications for scalability. For the former type of applications, those with regular accesses and uniform workload, we contribute new methods to improve the temporal locality of software-managed local memories, and optimize the critical path of scheduling data transfers for multi-dimensional arrays in nested loops. In particular, we provide a runtime framework allowing transparent optimization by source-to-source compilers or automatic fine tuning by programmers. Finally, we demonstrate the effectiveness of the approach by comparing against a state-of-the-art language-based framework. For the latter type, those with irregular accesses and non-uniform workload, we analyze how the heavy-tailed property of input graphs limits the scalability of the application. Then, we introduce an application-specific workload model as well as a decomposition method that allows us to optimize locality with the custom load balancing constraints of the application. Finally, we demonstrate unprecedented strong scaling of a contagion simulation on two state-of-the-art high performance computing platforms.
Ph. D.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

49

Lavallée, Ivan. „Contribution à l'algoritmique parallèle et distribuée : application à l'optimisation combinatoire“. Paris 11, 1986. http://www.theses.fr/1986PA112275.

Der volle Inhalt der Quelle

Annotation:

Cette thèse est divisée en trois parties : la première partie, précédée d'un chapitre 0 qui précise et justifie vocabulaire et notations, est composée de deux chapitres I et II, qui traitent du problème de la terminaison distribuée, apprentissage et détection, l'idée maîtresse étant celle de "mot circulant" qui généralise le concept de jeton circulant. Le mot circulant permettant un apprentissage de propriétés de l'algorithme distribué étudié. Le chapitre II fournit de plus un algorithme distribué d'identification des circuits élémentaires d'un graphe. La deuxième partie est consacrée à l'étude de trois grands problèmes combinatoires tels que : La recherche des plus courts chemins dans un graphe valué, pour la résolution duquel nous réutilisons des concepts du chapitre II et pour lequel l'algorithme distribué que nous construisons se distingue des autres algorithmes connus par sa totale asynchronicité. (Chapitre III). La recherche d'un arbre couvrant (chapitre IV) pour laquelle, en allant à contrario de quelques idées établies sur la question, on donne un algorithme distribué totalement asynchrone, minimisant le nombre de messages échangés, et ce, malgré des hypothèses moins restrictives (en particulier, nous admettons la possibilité d'arêtes équipondérées) que les autres algorithmes distribués élaborés pour ce faire. L'énumération implicite parallèle (chapitre V) pour laquelle on fait apparaître, en environnement parallèle, des phénomènes nouveaux, en particulier à propos des gains de performance en temps, qui tranchent avec quelques idées largement répandues. Pour ces trois chapitres, nous donnons la particularisation à un environnement parallèle type machine à mémoire partagée (PRAM), et pour les chapitres III et V, nous donnons, en annexe, les programmes, jeux d'essais et résultats de tests sur CRAY. La troisième partie, tirant les enseignements théoriques des deux précédentes, essaie de donner une définition du concept d'algorithme parallèle et distribuée qui soit cohérente avec ce qui se fait en séquentiel, et qui permette une évaluation et une comparaison des algorithmes parallèles ou distribués (chapitre VI). Le, tri, fusion, et le problème de l'arbre couvrant minimum du chapitre VII est une application du modèle du chapitre VI à quatre problèmes; recherche du maximum IV.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

50

Wu, Jiande. „Parallel Computing of Particle Filtering Algorithms for Target Tracking Applications“. ScholarWorks@UNO, 2014. http://scholarworks.uno.edu/td/1953.

Der volle Inhalt der Quelle

Annotation:

Particle filtering has been a very popular method to solve nonlinear/non-Gaussian state estimation problems for more than twenty years. Particle filters (PFs) have found lots of applications in areas that include nonlinear filtering of noisy signals and data, especially in target tracking. However, implementation of high dimensional PFs in real-time for large-scale problems is a very challenging computational task. Parallel & distributed (P&D) computing is a promising way to deal with the computational challenges of PF methods. The main goal of this dissertation is to develop, implement and evaluate computationally efficient PF algorithms for target tracking, and thereby bring them closer to practical applications. To reach this goal, a number of parallel PF algorithms is designed and implemented using different parallel hardware architectures such as Computer Cluster, Graphics Processing Unit (GPU), and Field-Programmable Gate Array (FPGA). Proposed is an improved PF implementation for computer cluster - the Particle Transfer Algorithm (PTA), which takes advantage of the cluster architecture and outperforms significantly existing algorithms. Also, a novel GPU PF algorithm implementation is designed which is highly efficient for GPU architectures. The proposed algorithm implementations on different parallel computing environments are applied and tested for target tracking problems, such as space object tracking, ground multitarget tracking using image sensor, UAV-multisensor tracking. Comprehensive performance evaluation and comparison of the algorithms for both tracking and computational capabilities is performed. It is demonstrated by the obtained simulation results that the proposed implementations help greatly overcome the computational issues of particle filtering for realistic practical problems.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Dissertationen zum Thema „Distributed Parallel Application“

Geben Sie eine Quelle nach APA, MLA, Chicago, Harvard und anderen Zitierweisen an