Dissertations / Theses on the topic 'Tolérance aux pannes byzantine'

To see the other types of publications on this topic, follow the link: Tolérance aux pannes byzantine.

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Tolérance aux pannes byzantine.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Shoker, Ali. "Byzantine fault tolerance from static selection to dynamic switching." Toulouse 3, 2012. http://thesesups.ups-tlse.fr/1924/.

Full text
Abstract:
La Tolérance aux pannes Byzantines (BFT) est de plus en plus crucial avec l'évolution d'applications et en raison de la croissance de l'innovation technologique en informatique. Bien que des dizaines de protocoles BFT aient été introduites dans les années précédentes, leur mise en œuvre ne semble pas satisfaisant. Pour faire face à cette complexité, due à la dependence d'un protocol d'une situation, nous tentons une approche qui permettra de sélectionner un protocole en fonction d'une situation. Ceci nous paraît, en s'inspirant de tout système d'encrage, comme une démarche nécessaire pour aborder la problématique de la BFT. Dans cette thèse, nous introduisons un modèle de sélection ainsi que l'algorithme qui permet de simplifier et d'automatiser le processus d'élection d'un protocole. Ce mécanisme est conçu pour fonctionner selon 3 modes : statique, dynamique et heuristique. Les deux derniers modes, nécessitent l'introduction d'un système réactif, nous ont conduits à présenter un nouveau modèle BFT : Adapt. Il réagit à tout changement et effectue, d'une manière adaptée, la commutation entre les protocoles d'une façon dynamique. Le mode statique permet aux utilisateurs de BFT de choisir un protocole BFT en une seule fois. Ceci est très utile dans les services Web et les " Clouds " où le BFT peut être fournit comme un service inclut dans le contrat (SLA). Ce mode est essentiellement conçu pour les systèmes qui n'ont pas trop d'états fluctuants. Pour ce faire, un processus d'évaluation est en charge de faire correspondre, à priori, les préférences de l'utilisateur aux profils du protocole BFT nommé, en fonction des critères de fiabilité et de performance. Le protocole choisi est celui qui réalise le meilleur score d'évaluation. Le mécanisme est bien automatisé à travers des matrices mathématiques, et produit des sélections qui sont raisonnables. D'autres systèmes peuvent cependant avoir des conditions flottantes, il s'agit de la variation des charges ou de la taille de message qui n'est pas fixe. Dans ce cas, le mode statique ne peut continuer à être efficace et risque de ne pas pouvoir s'adapter aux nouvelles conditions. D'où la nécessité de trouver un moyen permettant de répondre aux nouvelles exigences d'une façon dynamique. Adapt combine un ensemble de protocoles BFT ainsi que leurs mécanismes de commutation pour assurer l'adaptation à l'évolution de l'état du système. Par conséquent, le "Meilleur" protocole est toujours sélectionné selon l'état du système. On obtient ainsi une qualité optimisée de service, i. E. , la fiabilité et la performance. Adapt contrôle l'état du système grâce à ses mécanismes d'événements, et utilise une méthode de "Support Vecor Regrssion" pour conduire aux prédictions en temps réel pour l'exécution des protocoles (par exemple, débit, latence, etc. ). Ceci nous conduit aussi à un mode heuristique. En utilisant des heuristiques prédéfinies, on optimise les préférences de l'utilisateur afin d'améliorer le processus de sélection. L'évaluation de notre approche montre que le choix du "meilleur" protocole est automatisé et proche de la réalité de la même façon que dans le mode statique. En mode dynamique, Adapt permet toujours d'obtenir la performance optimale des protocoles disponibles. L'évaluation démontre, en plus, que la performance globale du système peut être améliorée de manière significative. Explorer d'autres cas qui ne conduisent pas de basculer entre les protocoles. Ceci est rendu possible grâce à la réalisation des prévisions d'une grande precision qui peuvent atteindre plus de 98% dans de nombreux cas. La thèse montre que cette adaptabilité est rendue possible grâce à l'utilisation des heuristiques dans un mode dynamique
Byzantine Fault Tolerance (BFT) is becoming crucial with the revolution of online applications and due to the increasing number of innovations in computer technologies. Although dozens of BFT protocols have been introduced in the previous decade, their adoption by practitioners sounds disappointing. To some extant, this indicates that existing protocols are, perhaps, not yet too convincing or satisfactory. The problem is that researchers are still trying to establish 'the best protocol' using traditional methods, e. G. , through designing new protocols. However, theoretical and experimental analyses demonstrate that it is hard to achieve one-size-fits-all BFT protocols. Indeed, we believe that looking for smarter tac-tics like 'fasten fragile sticks with a rope to achieve a solid stick' is necessary to circumvent the issue. In this thesis, we introduce the first BFT selection model and algorithm that automate and simplify the election process of the 'preferred' BFT protocol among a set of candidate ones. The selection mechanism operates in three modes: Static, Dynamic, and Heuristic. For the two latter modes, we present a novel BFT system, called Adapt, that reacts to any potential changes in the system conditions and switches dynamically between existing BFT protocols, i. E. , seeking adaptation. The Static mode allows BFT users to choose a single BFT protocol only once. This is quite useful in Web Services and Clouds where BFT can be sold as a service (and signed in the SLA contract). This mode is basically designed for systems that do not have too fuctuating states. In this mode, an evaluation process is in charge of matching the user preferences against the profiles of the nominated BFT protocols considering both: reliability, and performance. The elected protocol is the one that achieves the highest evaluation score. The mechanism is well automated via mathematical matrices, and produces selections that are reasonable and close to reality. Some systems, however, may experience fluttering conditions, like variable contention or message payloads. In this case, the static mode will not be e?cient since a chosen protocol might not fit the new conditions. The Dynamic mode solves this issue. Adapt combines a collection of BFT protocols and switches between them, thus, adapting to the changes of the underlying system state. Consequently, the 'preferred' protocol is always polled for each system state. This yields an optimal quality of service, i. E. , reliability and performance. Adapt monitors the system state through its Event System, and uses a Support Vector Regression method to conduct run time predictions for the performance of the protocols (e. G. , throughput, latency, etc). Adapt also operates in a Heuristic mode. Using predefined heuristics, this mode optimizes user preferences to improve the selection process. The evaluation of our approach shows that selecting the 'preferred' protocol is automated and close to reality in the static mode. In the Dynamic mode, Adapt always achieves the optimal performance among available protocols. The evaluation demonstrates that the overall system performance can be improved significantly too. Other cases explore that it is not always worthy to switch between protocols. This is made possible through conducting predictions with high accuracy, that can reach more than 98% in many cases. Finally, the thesis shows that Adapt can be smarter through using heursitics
APA, Harvard, Vancouver, ISO, and other styles
2

Leduc, Guilain. "Performance et sécurité d'une Blockchain auto-adaptative et innovante." Electronic Thesis or Diss., Université de Lorraine, 2022. http://www.theses.fr/2022LORR0220.

Full text
Abstract:
La recherche sur les cadres applicatifs de la blockchain propose rarement une évaluation de performances. Cette thèse propose une méthodologie complète pour aider les intégrateurs logiciels à mieux comprendre et mesurer l'influence des paramètres de configuration sur la qualité globale des performances du service à long terme. Afin d'améliorer les performances, le nouveau protocole de consensus adaptatif Sabine (Self-Adaptive BlockchaIn coNsEnsus) est proposé afin de modifier dynamiquement l'un de ces paramètres dans le cadre du consensus PBFT. Le paramètre de configuration de ce consensus est le nombre de validateurs impliqués et résulte d'un compromis entre sécurité et performance. Le protocole Sabine vient donc maximiser ce nombre sous réserve que le débit de sortie corresponde au débit d'entrée. Sabine est évaluée et validée dans des contextes réels, dont les résultats montrent que Sabine a une erreur relative acceptable entre les débits de transaction demandée et engagée. Deux nouveaux algorithmes de sélection des validateurs sont proposés et renversent le paradigme aléatoire des protocoles actuels pour choisir les nœuds amenant à de meilleures performances. Le premier se base sur un système de réputation récompensant les nœuds les plus rapides. Le second sélectionne les nœuds les plus proches en imposant un roulement continu de la sélection. Ces deux algorithmes ont été simulés et leurs impacts sur la décentralisation discutés. Cette sélection, associée avec Sabine, permet d'améliorer la sécurité en laissant plus de marge au système pour augmenter le nombre de validateurs. Ces différents travaux ouvrent la voie à des chaînes plus réactives, avec moins de latence et plus de débit
Research on blockchain application frameworks rarely offers performance evaluation. This thesis proposes a comprehensive methodology to help software integrators better understand and measure the influence of configuration parameters on the overall quality of long-term service performance. In order to improve performance, the new adaptive consensus protocol Sabine (Self-Adaptive BlockchaIn coNsEnsus) is proposed to dynamically modify one of these parameters in the PBFT consensus. The configuration parameter of this consensus is the number of validators involved and result of a trade-off between security and performance. The Sabine protocol maximises this number provided that the output rate matches the input rate. Sabine is evaluated and validated in real-world settings, the results of which show that Sabine has an acceptable relative error between the requested and committed transaction rates. Two new validator selection algorithms are proposed that reverse the random paradigm of current protocols to select the nodes leading to better performance. The first is based on a reputation system that rewards the fastest nodes. The second selects the closest nodes by imposing a continuous rotation of the selection. These two algorithms have been simulated and their impact on decentralisation discussed. This selection, associated with Sabine, improves security by giving the system more margin to increase the number of validators. This work opens the way to more reactive chains, with less latency and more throughput
APA, Harvard, Vancouver, ISO, and other styles
3

Farina, Giovanni. "Tractable Reliable Communication in Compromised Networks." Electronic Thesis or Diss., Sorbonne université, 2020. http://www.theses.fr/2020SORUS310.

Full text
Abstract:
Une communication fiable est une primitive fondamentale dans les systèmes distribués sujets aux pannes Byzantines (c'est-à-dire arbitraires et éventuellement malveillants) pour garantir l'intégrité, l’authenticité et la livraison des messages échangés entre les processus. Son adoption pratique dépend fortement des hypothèses du système. Plusieurs solutions ont été proposées jusqu'à présent dans la littérature mettant en œuvre une telle primitive, mais certaines manquent d'évolutivité et / ou exigent des conditions de réseau topologiques difficiles à vérifier. Cette thèse vise à étudier et à résoudre certains des problèmes et défis ouverts implémentant une telle primitive de communication. Plus précisément, nous analysons comment une primitive de communication fiable peut être implémentée dans 1) un système distribué statique où un sous-ensemble de processus est compromis, 2) un système distribué dynamique où une partie des processus est Byzantiné, et 3) un système distribué statique où chaque processus peut être compromis et récupérer. Nous définissons plusieurs protocoles plus efficaces et nous caractérisons des conditions de réseau alternatives garantissant leur exactitude
Reliable communication is a fundamental primitive in distributed systems prone to Byzantine (i.e. arbitrary, and possibly malicious) failures to guarantee the integrity, delivery, and authorship of the messages exchanged between processes. Its practical adoption strongly depends on the system assumptions. Several solutions have been proposed so far in the literature implementing such a primitive, but some lack in scalability and/or demand topological network conditions computationally hard to be verified. This thesis aims to investigate and address some of the open problems and challenges implementing such a communication primitive. Specifically, we analyze how a reliable communication primitive can be implemented in 1) a static distributed system where a subset of processes is compromised, 2) a dynamic distributed system where part of the processes is Byzantine faulty, and 3) a static distributed system where every process can be compromised and recover. We define several more efficient protocols and we characterize alternative network conditions guaranteeing their correctness
APA, Harvard, Vancouver, ISO, and other styles
4

Solat, Siamak. "Novel fault-tolerant, self-configurable, scalable, secure, decentralized, and high-performance distributed database replication architecture using innovative sharding to enable the use of BFT consensus mechanisms in very large-scale networks." Electronic Thesis or Diss., Université Paris Cité, 2023. http://www.theses.fr/2023UNIP7025.

Full text
Abstract:
Cette thèse de doctorat se compose de 6 chapitres. Dans le premier chapitre, en guise d'introduction, nous donnons un aperçu des objectifs généraux et des motivations des réseaux décentralisés et permissionless, ainsi que des obstacles auxquels ils sont confrontés. Dans l'introduction, nous évoquons également la solution irrationnelle et illogique, connue sous le nom de « blockchain permissioned », qui a été proposée pour améliorer les performances des réseaux similaires à Bitcoin. Cette question a été détaillée au chapitre 5. Dans le chapitre 2, nous rendons clairs et intelligibles les systèmes que l'idée proposée, « Parallel Committees », est basée sur de tels réseaux. Nous détaillons les fonctionnalités indispensables et les défis essentiels des systèmes de réplication. Ensuite, dans le chapitre 3, nous discutons des limitations de scalabilité et du faible débit des systèmes de réplication qui utilisent des mécanismes de consensus pour traiter les transactions et comment ces problèmes peuvent être améliorés en utilisant des techniques de sharding. Nous décrivons les défis les plus importants dans le sharding des systèmes de réplication distribuée, une approche qui a déjà été mise en œuvre dans plusieurs systèmes de réplication basés sur la blockchain et, bien qu'elle ait montré un potentiel significatif pour améliorer les performances et la scalabilité, les techniques de sharding actuelles ont encore des limitations de scalabilité et des défis de sécurité. Nous expliquons pourquoi la plupart des protocoles de sharding actuels utilisent une approche d'allocation aléatoire pour distribuer les nœuds entre les shards pour des raisons de sécurité. Nous décrivons également comment traiter une transaction dans un système de réplication partitionné basé sur les protocoles de sharding actuels. Nous expliquons comment un « shared-ledger » partagé sur les shards impose des limitations de scalabilité et des défis de sécurité au réseau, et expliquons pourquoi les transactions « cross-shards » ou « inter-shards » sont indésirables et plus coûteuses en raison des problèmes qu'elles causent, y compris « atomicity failure » et les défis de « state transition », ainsi qu'une passe en revue des solutions proposées. Nous passons également en revue certains des travaux récents les plus remarquables qui utilisent des techniques de sharding pour les systèmes de réplication. Cette partie de l'ouvrage a été publiée sous la forme d'un chapitre de livre (peer-reviewed) in « Building Cybersecurity Applications with Blockchain Technology and Smart Contracts » (Springer, 2023). Dans le chapitre 4, nous proposons une nouvelle technique de sharding, « Parallel Committees », prenant en charge à la fois le « processing-sharding » et le « storage/state sharding », pour améliorer la scalabilité et les performances des systèmes de réplication distribués qui utilisent des mécanismes de consensus pour traiter les demandes des clients (client requests). Nous introduisons une approche innovante et originale pour répartir les nœuds entre les shards à l'aide d'un processus de génération de clé publique qui atténue simultanément l'attaque Sybil et sert de mécanisme de preuve de travail (proof-of-work). Notre approche réduit efficacement les transactions « inter-shards » indésirables, qui sont plus complexes et coûteuses à traiter que les transactions « intra-shards ». L'idée proposée a été publiée dans la conférence IEEE BCCA 2023. Nous expliquons ensuite pourquoi nous n'utilisons pas la structure de la blockchain dans l'idée proposée, un sujet abordé en détail au chapitre 5. Cette explication et clarification a été publiée dans le Journal of Software (JSW), Volume 16, Number 3, May 2021. Et dans le dernier chapitre de cette thèse, le chapitre 6, nous résumons les points importants et les conclusions de cette recherche
This PhD thesis consists of 6 Chapters. In the first Chapter, as an introduction, we provide an overview of the general goals and motives of decentralized and permissionless networks, as well as the obstacles they face. In the introduction, we also refer to the irrational and illogical solution, known as "permissioned blockchain" that has been proposed to improve the performance of networks similar to Bitcoin. This matter has been detailed in Chapter 5. In Chapter 2, we make clear and intelligible the systems that the proposed idea, Parallel Committees, is based on such networks. We detail the indispensable features and essential challenges in replication systems. Then in Chapter 3, we discuss in detail the low performance and scalability limitations of replication systems that use consensus mechanisms to process transactions, and how these issues can be improved using the sharding technique. We describe the most important challenges in the sharding of distributed replication systems, an approach that has already been implemented in several blockchain-based replication systems and although it has shown remarkable potential to improve performance and scalability, yet current sharding techniques have several significant scalability and security issues. We explain why most current sharding protocols use a random assignment approach for allocating and distributing nodes between shards due to security reasons. We also detail how a transaction is processed in a sharded replication system, based on current sharding protocols. We describe how a shared-ledger across shards imposes additional scalability limitations and security issues on the network and explain why cross-shard or inter-shard transactions are undesirable and more costly, due to the problems they cause, including atomicity failure and state transition challenges, along with a review of proposed solutions. We also review some of the most considerable recent works that utilize sharding techniques for replication systems. This part of the work has been published as a peer-reviewed book chapter in "Building Cybersecurity Applications with Blockchain Technology and Smart Contracts" (Springer, 2023). In Chapter 4, we propose a novel sharding technique, Parallel Committees, supporting both processing and storage/state sharding, to improve the scalability and performance of distributed replication systems that use a consensus to process clients' requests. We introduce an innovative and novel approach of distributing nodes between shards, using a public key generation process that simultaneously mitigates Sybil attack and serves as a proof-of-work mechanism. Our approach effectively reduces undesirable cross-shard transactions that are more complex and costly to process than intra-shard transactions. The proposed idea has been published as peer-reviewed conference proceedings in the IEEE BCCA 2023. We then explain why we do not make use of a blockchain structure in the proposed idea, an issue that is discussed in great detail in Chapter 5. This clarification has been published in the Journal of Software (JSW), Volume 16, Number 3, May 2021. And, in the final Chapter of this thesis, Chapter 6, we summarize the important points and conclusions of this research
APA, Harvard, Vancouver, ISO, and other styles
5

Drid, Hamza. "Tolérance aux pannes dans les réseaux optiques de type WDM." Rennes 1, 2010. http://www.theses.fr/2010REN1S031.

Full text
Abstract:
La tolérance aux pannes est une propriété indispensable des réseaux optiques à cause de la bande passante importante offerte par la technologie WDM (Wavelength Division Multiplexing). La tolérance aux pannes signifie que le réseau a la capacité de maintenir un service acceptable, même si une panne dans le réseau survient. Dans cette thèse, nous étudions la tolérance aux pannes des réseaux optiques. Le travail effectué dans cette thèse s'articule autour de deux grandes parties. La première partie aborde la tolérance aux pannes des réseaux optiques formés d'un domaine unique. Dans cette partie, nous analysons et classons, dans un premier temps, les différents mécanismes proposés dans la littérature pour la protection de ce type de réseau. Dans un deuxième temps, notre étude se focalise sur la protection par p-cycles à cause des avantages offerts par ce mécanisme de protection : faible temps de reprise et bonne utilisation de ressources. La difficulté majeure de ce mécanisme réside dans le calcul de l'ensemble le plus efficace possible de p-cycles protégeant le réseau pour une certaine charge. Pour cela nous proposons une solution pour calculer un ensemble de p-cycles efficace protégeant le réseau, et améliorant les performances des solutions proposées dans la littérature. La première partie de cette thèse est réservée à la tolérance aux pannes d'un domaine simple car elle fait l'hypothèse que chaque noeud dans le réseau possède une vision entière et détaillée de la topologie physique du réseau. Une telle hypothèse n'est plus valide quand il s'agit d'un réseau de taille importante, un réseau multi-domaine par exemple. Très peu d'études scientifiques ont été menées sur la tolérance aux pannes des réseaux multi-domaines. La deuxième partie de cette thèse décrit les travaux actuels portant sur la protection contre les pannes dans les réseaux multi-domaines et propose une comparaison quantitative et qualitative entre les solutions proposées dans la littérature. Nous proposons également une solution qui se base sur la protection par p-cycles et l'agrégation de topologie. Elle surmonte les problèmes des solutions proposées dans la littérature
Survivability in optical network is an important issue due to the huge bandwidth offered by optical technology. Survivability means that the network has the ability to maintain an acceptable service level even after an occurrence of failures within the network. In this thesis, we study the survivability in optical networks. Indeed, our work focuses on two main parts. The first part addresses the survivability in networks composed of one single domain. Firstly, we study and classify the various mechanisms of survivability proposed in the literature. Then we focus on p-cycles design. The major challenge of p-cycle design resides in finding an optimal set of p-cycles protecting the network for a given working capacity. In our thesis we propose a novel heuristic approach, which computes an efficient set of p-cycles protecting the network in one step. Our heuristic approach takes into consideration two main criteria: the redundancy and the number of p-cycles involved in the solution. The mechanisms studied in the first part are typically destined to single-domain protection, because they assume that each node in the network may have a complete vision of the physical topology of the network. Such an assumption is not realistic in the case of large networks, such as a multi-domain networks. Few works have focused on survivability in multi-domain optical networks. The second part of this thesis describes and evaluates existing solutions and compares their performances. We propose also a solution based on p-cycles and topology aggregation which overcomes the different problems of the existing solutions
APA, Harvard, Vancouver, ISO, and other styles
6

Christian, Delbé. "Tolérance aux pannes pour objets actifs asynchrones : modèle, protocole et expérimentations." Phd thesis, Université de Nice Sophia-Antipolis, 2007. http://tel.archives-ouvertes.fr/tel-00207953.

Full text
Abstract:
L'objectif premier de cette thèse est de proposer un protocole de tolérance aux pannes par recouvrement arrière pour le modèle à objets actifs asynchrones communicants ASP (Asynchronous Sequential Processes) et son implémentation en Java ProActive. Cette thèse généralise la problématique soulevée par le développement de ce protocole : nous étudions le recouvrement d'une application répartie depuis un état global non cohérent. Nous proposons donc dans un premier temps un protocole par points de reprise et son implémentation ne supposant pas que les états globaux soient cohérents. Nous montrons à travers des expérimentations réalistes utilisant des applications réparties communicantes que notre solution et son implémentation présentent de bonnes performances. Nous contribuons aussi de manière plus générale à l'étude du recouvrement depuis un état global non cohérent en définissant formellement une nouvelle condition de recouvrabilité, la P-cohérence, basée sur la notion de promesse d'évènement. Cette définition s'intègre dans un formalisme événementiel capable de prendre en compte la sémantique de n'importe quel système ; elle est donc applicable dans un cadre général. En particulier, en appliquant ce formalisme au modèle ASP, nous prouvons la correction de notre protocole en montrant que les états globaux formés durant l'exécution sont toujours recouvrables. Enfin, nous contribuons plus spécifiquement au domaine des grilles de calcul en proposant une extension de notre protocole et son implémentation adaptée à ce contexte. Cette extension se base sur la constitution automatique de groupes de recouvrement au déploiement de l'application. Elle permet une répartition indépendante des mémoires stables et un confinement des effets d'une panne au seul groupe concerné.
APA, Harvard, Vancouver, ISO, and other styles
7

Jafar, Samir. "Programmation des systèmes parallèles distribués : tolérance aux pannes, résilience et adaptabilité." Phd thesis, Grenoble INPG, 2006. http://tel.archives-ouvertes.fr/tel-00085169.

Full text
Abstract:
Les grilles et les grappes sont des architectures de plus en plus utilisées dans le domaine du calcul scientifique distribué. Le nombre important de constituants hétérogènes (processeurs, mémoire, interconnexion) dans ces architectures dynamiques font que le risque de défaillance est très important. Compte tenu de la durée considérable de l'exécution d'une application parallèle distribuée, ce risque de défaillance doit être contrôlé par l'utilisation de technique de tolérance aux pannes.
Dans ce travail, la représentation de l'état de l'exécution d'un programme parallèle est un graphe, dynamique, de flot de données construit à l'exécution. Cette description du parallélisme est indépendante du nombre de ressources et donc exploitée pour résoudre les problèmes liés à la dynamicité des plateformes considérées. La définition de formats portables pour la représentation des noeuds du graphe résout les problèmes d'hétérogénéité. La sauvegarde du graphe de flot de données d'une application durant son exécution sur une plateforme, constitue des points de reprise pour cette application. Par la suite, une reprise est possible sur un autre type ou nombre de processus. Deux méthodes de sauvegarde / reprise, avec une analyse formelle de leurs complexités, sont présentées : SEL (Systematic Event Logging) et TIC (Theft-Induced Checkpointing). Des mesures expérimentales d'un prototype sur des applications caractéristiques montrent que le surcoût à l'exécution peut être amorti, permettant d'envisager des exécutions tolérantes aux pannes qui passent à l'échelle.
APA, Harvard, Vancouver, ISO, and other styles
8

Lahrach, Farid. "Tolérance aux pannes des circuits FPGAs à base de mémoire SRAM." Thesis, Troyes, 2016. http://www.theses.fr/2016TROY0028.

Full text
Abstract:
De nos jours, les circuits FPGAs à base de mémoire SRAM sont omniprésents dans les applications électroniques embarquées. Ainsi, ces circuits sont devenus un acteur principal dans l’amélioration du rendement de l’ensemble du spectre des systèmes-sur-puce (SoC). Néanmoins, les pannes se sont accentuées dans ces technologies émergentes, qu’il s’agisse de pannes permanentes provenant d’une forte densité d’intégration, associée à une complexité élevée des procédés de fabrication, ou de pannes transitoires découlant des particules chargées qui heurtent les FPGAs dans leurs environnements d’exploitation. La tolérance aux pannes des circuits FPGAs à base de mémoire SRAM est donc un paramètre essentiel pour assurer la sûreté de fonctionnement des applications implémentées. Dans le cadre de cette thèse, nous proposons une stratégie de tolérance aux pannes qui s’accommode des contraintes de fiabilité pour un système implémenté dans un FPGA à base de mémoire SRAM. Cette stratégie présente une grande flexibilité et un coût faible comparé à la technique de la redondance modulaire triple (TMR), et permet la gestion en temps d’exécution qui est une caractéristique importante pour les applications critiques. Dans cette thèse, nous proposons également des tests spécifiques, appelés algorithmes March, qui permettent de détecter les pannes intra-mots dans la mémoire de configuration d’un circuit FPGA- SRAM. Ces tests présentent l’avantage de bénéficier d’une implémentation rapide et d’obtenir un taux de couverture élevé
Nowadays, SRAM-based FPGAs are omnipresent for embedded electronic applications. Consequently, these circuits became the key player of the overall System-On-Chip (SoC) yield enhancement. However, faults are increasingly pronounced in these emergent technologies, from permanent faults arising from circuit processing at nanometer scales to transient soft errors arising from high-energy particle hits. So fault-tolerance of SRAM-based FPGA is an important system metric to ensure the dependability of embedded applications. The first part of this thesis exposes a comprehensive technique to cope with multiple faults in applications implemented in SRAM-based FPGA without incurring substantial area, power, or performance penalties. This approach has three main benefits compared to redundancy-based fault-tolerance: it’s very low overhead, the option for runtime management, and its complete flexibility. Run-time management can be a very valuable feature of a system, particularly for mission-critical applications. This fault-tolerance approach handles runtime problems on-line, minimizing the amount of system downtime and eliminating the need for outside intervention. The last part of this thesis is oriented toward configuration memory array of SRAM-based FPGA test and diagnostic. New fault models in configuration frames and March algorithms are proposed. These tests have the advantage to benefit from a fast implementation and achieving high fault coverage
APA, Harvard, Vancouver, ISO, and other styles
9

Delbé, Christian. "Tolérance aux pannes pour objets actifs asynchrones : protocole, modèle et expérimentations." Nice, 2007. http://www.theses.fr/2007NICE4002.

Full text
Abstract:
The main goal of this thesis is to define a rollback-recovery fault tolerance protocol for the asynchronous communicating active objects model ASP (Asynchronous Sequential Processes), and its Java implementation ProActive. This work generalises the problem raised by the development of this protocol: we study the recovery of a distributed execution from an inconsistent global state. We then propose a checkpointing protocol and its implementation that does not rely on consistent global states. We demonstrate the model efficiency through realistic experiments using communicating distributed applications that this solution is efficient in practice. Another more general contribution to the problematic of recovering from a inconsistent global state by formally is the definition of the P-consistency, a new recoverability condition based on the concept of promised event. This definition is part of an event-based formalism which can be applied to any system. In particular, by applying this formalism to the ASP model, we are able to prove the correctness of our protocol by showing that every global state created during the execution is a recoverable state. Finally, we propose an extension of our protocol and an implementation adapted to the context of grid computing. This extension relies on the constitution of recovery groups during the deployment of the application. It allows to independently distribute stable storage and to limit the effects of a failure to the concerned group
L'objectif premier de cette thèse est de proposer un protocole de tolérance aux pannes par recouvrement arrière pour le modèle à objets actifs asynchrones communicants ASP (Asynchronous Sequential Processes) et son implémentation en Java ProActive. Cette thèse généralise la problématique soulevée par le développement de ce protocole : nous étudions le recouvrement d'une application répartie depuis un état global non cohérent. Nous proposons donc dans un premier temps un protocole par points de reprise et son implémentation ne supposant pas que les états globaux soient cohérents. Nous montrons à travers des expérimentations réalistes utilisant des applications réparties communicantes que notre solution et son implémentation présentent de bonnes performances. Nous contribuons aussi de manière plus générale à l'étude du recouvrement depuis un état global non cohérent en définissant formellement une nouvelle condition de recouvrabilité, la P-cohérence, basée sur la notion de promesse d'évènement. Cette définition s'intègre dans un formalisme événementiel capable de prendre en compte la sémantique de n'importe quel système ; elle est donc applicable dans un cadre général. En particulier, en appliquant ce formalisme au modèle ASP, nous prouvons la correction de notre protocole en montrant que les états globaux formés durant l'exécution sont toujours recouvrables. Enfin, nous contribuons plus spécifiquement au domaine des grilles de calcul en proposant une extension de notre protocole et son implémentation adaptée à ce contexte. Cette extension se base sur la constitution automatique de groupes de recouvrement au déploiement de l'application. Elle permet une répartition indépendante des mémoires stables et un confinement des effets d'une panne au seul groupe concerné
APA, Harvard, Vancouver, ISO, and other styles
10

Abdallah, Maha. "Gestion transactionnelle dictatoriale : de la haute performance à la tolérance aux pannes." Versailles-St Quentin en Yvelines, 2001. http://www.theses.fr/2001VERS0016.

Full text
Abstract:
La norme actuelle dans le domaine de la validation atomique des transactions est la validation atomique a deux phases (2pc). Malgré son grand succès, 2pc est inefficace en termes de latence et de coût de communication même en l'absence de pannes, et est bloquant en cas de pannes. Cette thèse a pour but d'étudier et de proposer de nouvelles solutions au problème de la validation atomique, capables de répondre aux exigences des systèmes actuels en termes de haute-performance et de tolérance aux pannes. La première phase du 2pc est une phase de votes durant laquelle les participants à la transaction ont le droit à un abandon unilatéral. Retirer le droit de veto à tous les participants réduit considérablement le coût de la validation atomique, mais introduit quelques contraintes sur la façon dont le contrôle de concurrence et la reprise après pannes sont gérés par les différents participants. A la lumière de cette observation, et dans sa première partie, cette thèse comporte trois contributions majeures. Premièrement, elle introduit le problème de la validation atomique dictatoriale, une variante du problème de la validation atomique classique, caractérisée par l'absence de droits de veto des participants à la transaction. La deuxième contribution qui en découle étant l'expression de trois conditions nécessaires et suffisantes caractérisant un sgbd compatible avec l'approche dictatoriale. Enfin, une solution pragmatique au nouveau problème est aussi proposée, permettant ainsi d'étendre le domaine d'applicabilité de la gestion dictatoriale des transactions aux systèmes utilisés de nos jours. Dans sa seconde partie, le problème de la validation atomique non-bloquante est étudié, et deux solutions lui sont proposées : la première étant adaptée au contexte synchrone, et la deuxième résout le problème dans un contexte asynchrone. Un outil logiciel basé sur nos différentes solutions a été aussi développé dans le contexte des standards transactionnels actuels
APA, Harvard, Vancouver, ISO, and other styles
11

Chouikhi, Samira. "Tolérance aux pannes dans un réseau de capteurs sans fil multi-canal." Thesis, Paris Est, 2016. http://www.theses.fr/2016PESC1031/document.

Full text
Abstract:
Le développement dans les micros systèmes électromécaniques (MEMS) combiné avec l'émergence des nouvelles technologies de l'information et de la communication a permis l'intégration des fonctionnalités de collecte, de traitement et de transmission des données dans un seul dispositif minuscule qui est le capteur sans fil. En voie de conséquence, les réseaux composés de ces capteurs offrent aujourd'hui une pléiade d'avantages par rapport aux réseaux traditionnels notamment en termes de simplicité et de coût de déploiement. Ceci a conduit au développement d'une gamme très variée d'applications des réseaux de capteurs sans fil dans les domaines de la santé, de l'environnement, de l'industrie, des infrastructures, des activités spatiales, ou encore des activités militaires et dans plusieurs autres domaines. Cependant, de nouveaux défis surgissent des caractéristiques particulières de ces réseaux. En réalité, de nombreuses applications de ces réseaux sont critiques et exigent qu'un fonctionnement correct du réseau soit maintenu le plus longtemps possible. Par contre, les environnements dans lesquels ces réseaux sont déployés rendent la mission de maintien en condition correcte de ces réseaux très compliquée et même parfois impossible ; d'où la nécessité d'intégrer des mécanismes d'auto-correction qui visent à surmonter les problèmes qui puissent surgir dans le réseau sans intervention humaine. Dans ce contexte, nous avons, dans cette thèse, concentré notre étude sur les techniques et les mécanismes mis en œuvre pour améliorer la propriété de tolérance aux pannes dans les réseaux de capteurs sans fil. Tout d'abord, nous avons proposé des approches centralisées et distribuées pour l'auto-rétablissement de la connectivité et la réallocation des canaux dans un contexte de réseaux de capteurs sans fil reposant sur des communications multi-canal après la panne d'un nœud critique. Après la formulation du problème sous la forme d'un problème d'optimisation multi-objectif, nous avons proposé des algorithmes basés sur des heuristiques de coloration de graphes et d'arbre de Steiner, très connus dans la théorie de graphes pour la résolution de ce type de problèmes. Dans une deuxième partie de cette thèse, nous avons étudié un cas d'application particulier, l'agriculture de précision, et avons proposé une solution distribuée pour le rétablissement du fonctionnement du réseau de capteurs sans fil
The development in Micro Electro-Mechanic Systems (MEMS) combined with the emergence of new information and communication technologies allowed the integration of the data sensing, processing and transmission in a single tiny device which is the wireless sensor. Consequently, the networks formed by these sensors offer a lot advantages compared with the traditional networks, in particular in terms of the deployment simplicity and cost. This led to the development of a wide range of Wireless Sensor Networks' applications in the domains of health, environment, industry, infrastructures, spatial activities, or even military activities and in many other domains. However, new challenges appear from the particular characteristics of these networks. In fact, many applications of this type of networks are critical and require that the correct functioning of the network is maintained as long as possible. However, the environments in which these networks are deployed return the mission of network maintenance very complicated or even impossible; hence, the necessity of integrating mechanisms of self-correction which aim to overcome the appeared problems without a human intervention. In this context, we focused our study on the techniques and mechanisms implemented to improve the property of fault tolerance in the wireless sensor networks. First, we proposed centralized and distributed approaches for the connectivity restoration and the channel reallocation in a multi-channel communication context after the failure of a critical node. After the formulation of the problem as a multi-objective optimization problem, we proposed some algorithms based on the heuristics of graphs coloring and Steiner tree, very known in the graph theory to solve this type of problems. In a second part in this thesis, we studied a particular application case, precision agriculture, and we proposed a distributed solution for the failure recovery in wireless sensor networks
APA, Harvard, Vancouver, ISO, and other styles
12

Marin, Olivier-Gilles. "L'architecture logicielle DARX : adaptation de la résistance aux pannes aux systèmes multi-agents." Le Havre, 2003. http://www.theses.fr/2003LEHA0008.

Full text
Abstract:
Les applications réparties sont très sensibles aux défaillances de sites ou de processus. Ceci est d'autant plus vrai pour les systèmes multi-agents, susceptibles de déployer des multitudes d'agents sur un grand nombre de localisations. Toutefois, la tolérance aux fautes reste un procédé coûteux ; il convient donc de l'appliquer avec discernement. Le travail effectué dans cette thèse porte sur l'adaptation dynamique de la tolérance aux fautes au sein des plates-formes multi-agents. Le but de cette recherche est double : (1) fournir des méthodes de fiabilisation efficaces pour les systèmes multi-agents, ainsi que (2) développer un patron de conception pour des applications réparties déployables à large échelle, que ce soit au niveau du nombre de sites ou du nombre de processus/agents. L'architecture logicielle DARX tend vers ces objectifs en fournissant un support de réplication à la fois transparent, orienté agents, et adaptatif en ce sens qu'il tient compte du contexte d'exécution
Distributed applications are very sensitive to both host and process failures. This is all the truer for multi-agent systems, which are likely to deploy multitudes of agents on a great number of locations. However, fault tolerance involves costly mechanisms; it is thus advisable to apply it wisely. This thesis work relates to the dynamic adaptation of fault tolerance within multi-agents platforms. The aim of this research is double: (1) to provide effective methods for ensuring fail-proof multi-agent computations, (2) to develop a framework for the design of scalable applications, in terms of the number of hosts as well as the number of processes/agents. The DARX framework strives to achieve this twofold objective by providing transparent, agent-specific replication support which adapts to the computation context
APA, Harvard, Vancouver, ISO, and other styles
13

Yu, Lei. "Management et tolérance aux pannes des services sur grilles informatiques pour l'intégration d'applications." Châtenay-Malabry, Ecole centrale de Paris, 2008. http://www.theses.fr/2008ECAP1072.

Full text
Abstract:
Depuis les années 90, le terme « grille de calcul » a été proposé pour définir une infrastructure de calcul distribuée, qu'il s'agisse de ressources partagées à grande échelle, d'applications optimisées, ou de calcul à haute performance. Actuellement, la technologie des grilles de calcul évolue vers la notion de services grilles, convergence entre le web service et les grilles de calcul. Dans ce contexte, une architecture orientée services (OGSA : Open Grid Services Architecture) est apparue. La conception de services de grilles se définie comme une série de standards et de spécifications qui supportent la création des services de façon transparente et de plate-formes indépendantes. Plusieurs travaux de recherches soutiennent la thèse que la structure orientée services est une solution appropriée pour réaliser l'intégration d'applications scientifiques sur grilles informatiques. De même cette structure peut être employée pour établir un système robuste et réparti pour intégrer des applications. Dans ce manuscript, une nouvelle approche pour l'intégration d'applications scientifiques en format des services, basée sur l'encapsulation, au moyen de WS-Resources, est proposé. Un allocateur centralisé est développé et un nouvel algorithme d'ordonnancement des tâches, MWL, est proposé. Avec cet allocateur et ce MWL, les tâches peuvent être ordonnées et distribuées aux ressources qui sont le moins chargées dans le système. Afin de maintenir l'état d'une tâche dans une WS-Resource, de nouvelles propriétés de ce WS-Resource sont définies et sont employées pour fournir l'information nécessaire pour mettre en place des algorithmes d'ordonnancement des tâches plus efficaces (par exemple MCT). Pour l'intégration d'applications à grande échelle, nous proposons une structure d'ordonnancement des tâches de façon distribuée, échelonnable et robuste. Dans cette structure, une solution en deux-étapes est décrite pour résoudre le problème de tolérance aux pannes, à savoir le niveau d'un algorithme d'ordonnancement des tâches et le niveau d'un mécanisme de détection des défaillances. L'algorithme DDFT est un algorithme d'ordonnancement des tâches robuste pour assurer la soumission et l'exécution des tâches même en cas de défaillance d'un allocateur ou lors de la communication. Une série d'algorithmes est alors proposés pour détecter ces défaillances et reconstruire automatiquement la structure d'ordonnancement. Finalement, un simulateur basé sur SimGrid est développé. Ce simulateur peut être utilisé pour simuler des topologies différentes des systèmes d'ordonnancement des tâches de manière réparties
Grid computing is analogous to the power grid in the way that computing resources will be provided in the same way as gas and electricity are provided to us now. Along with the deployment of more and more heterogeneous clusters, the problem of requiring middlewares to leverage existing IT infrastructure to optimize compute resources and manage data and computing workloads has emerged. Grid computing has become an increasingly popular solution to optimize resource allocation and integrate variable computing resources in highly charged IT environments. Several research efforts have been conducted to support the thesis that the Grid services oriented architecture is a suitable solution for realizing legacy scientific applications integration in a grid environment, and this structure can be used to build a scalable, robust and distributed integration system. A new approach for application integration is proposed, applying WS-Resource to wrap legacy applications into Grid services. Then a centralized meta-scheduler is implemented and a new scheduling algorithm, MWL, is proposed. With the meta-scheduler and MWL, jobs can be scheduled and mapped to the resources which have the minimum workload. In order to maintain job state in WS-Resource, WS-Resource properties are defined and are used to provide information for implementing more effective job scheduling (e. G. MCT). For large-scale application integration, a distributed, scalable and robust scheduling structure is proposed. In this structure, a two-step solution is described to solve the fault-tolerant issues: the scheduling algorithm level and the failure detection mechanism. The DDFT algorithm is a robust scheduling algorithm to ensure jobs submission and mapping even if there is a failure of scheduler or connection. Moreover a series of algorithms are proposed to detect the failed scheduler or connection and reconstruct automatically the scheduling structure. Finally, a simulator based on SimGrid is developed. This simulator can be used tosimulate different topologies of distributed scheduling system
APA, Harvard, Vancouver, ISO, and other styles
14

Voge, Marie-Emilie. "Optimisation des réseaux de télécommunications : Réseaux multiniveaux, Tolérance aux pannes et Surveillance du trafic." Phd thesis, Université de Nice Sophia-Antipolis, 2006. http://tel.archives-ouvertes.fr/tel-00171565.

Full text
Abstract:
Les problèmes étudiés dans cette thèse sont motivés par des questions issues de l'optimisation des réseaux de télécommunication. Nous avons abordé ces problèmes sous deux angles principaux. D'une part nous avons étudié leurs propriétés de complexité et d'inapproximabilité. D'autre part nous avons dans certains cas proposé des algorithmes exacts ou d'approximation ou encore des méthodes heuristiques que nous avons pu comparer à des formulations en programmes linéaires mixtes sur des instances particulières.

Nous nous intéressons aussi bien aux réseaux de coeur qu'aux réseaux d'accès. Dans le premier chapitre, nous présentons brièvement les réseaux d'accès ainsi que les réseaux multiniveaux de type IP/WDM et l'architecture MPLS que nous considérons pour les réseaux de coeur. Ces réseaux sont composés d'un niveau physique sur lequel est routé un niveau virtuel. A leur tour les requêtes des utilisateurs sont routées sur le niveau virtuel. Nous abordons également la tolérance aux pannes dans les réseaux multiniveaux qui motive deux problèmes que nous avons étudiés.

Le second chapitre est consacré à la conception de réseaux virtuels. Dans un premier temps nous modélisons un problème prenant en compte la tolérance aux pannes, puis nous en étudions un sous-problème, le groupage. Notre objectif est de minimiser le nombre de liens virtuels, ou tubes, à installer pour router un ensemble de requêtes quelconque lorsque le niveau physique est un chemin orienté.

Le troisième chapitre traite des groupes de risque (SRRG) induits par l'empilement de niveaux au sein d'un réseau multiniveaux. Grâce à une modélisation par des graphes colorés, nous étudions la connexité et la vulnérabilité aux pannes de ces réseaux.

L'objet du quatrième chapitre est le problème du placement d'instruments de mesure du trafic dans le réseau d'accès d'un opérateur. Nous considérons aussi bien les mesures passives qu'actives. La surveillance du trafic possède de nombreuses applications, en particulier la détection de pannes et l'évaluation des performances d'un réseau.
APA, Harvard, Vancouver, ISO, and other styles
15

Bernard, Thibault. "Marches aléatoires et mot circulant, adaptativité et tolérance aux pannes dans les environnements distribués." Phd thesis, Université de Reims - Champagne Ardenne, 2006. http://tel.archives-ouvertes.fr/tel-00143600.

Full text
Abstract:
Nous proposons dans ces travaux une étude des marches aléatoires dans l'algorithmique distribuée pour les réseaux dynamiques. Nous montrons dans un premier temps que les marches aléatoires sont un outil viable pour la conception d'algorithmes distribués. Ces
algorithmes reposent principalement sur les trois propriétés fondamentales des marches aléatoires (Percussion, Couverture, Rencontre). Nous fournissons une méthode qui évalue
le temps ́ecoulé avant que ces trois propriétés soient vérifiées. Cela nous permet d'évaluer de la complexité de nos algorithmes. Dans un second temps, nous proposons l'utilisation d'un jeton circulant aléatoirement sous forme de mot circulant afin de collecter sur ce jeton des informations topologiques. Ces informations permettent la construction et la maintenance d'une structure couvrante du réseau de communication. Ensuite, nous
avons utilisé cette structure pour concevoir un algorithme de circulation de jeton tolérant aux pannes pour les environnements dynamiques. Cet algorithme a la particularité d'être complètement décentralisé. Nous proposons dans un dernier temps d'adapter notre circulation de jeton pour proposer une solution au problème d'allocation de ressources dans les réseaux ad-hoc.
APA, Harvard, Vancouver, ISO, and other styles
16

Voge, Marie-Émilie. "Optimisation des réseaux de télécommunications : réseaux multiniveaux, tolérance aux pannes et surveillance du trafic." Nice, 2006. http://www.theses.fr/2006NICE4085.

Full text
Abstract:
Les problèmes étudiés dans cette thèse sont motivés par des questions issues de l'optimisation des réseaux de télécommunication. Nous avons abordé ces problèmes sous deux angles principaux. D'une part nous avons étudié leurs propriétés de complexité et d'inapproximabilité. D'autre part nous avons dans certains cas proposé des algorithmes exacts ou d'approximation ou encore des méthodes heuristiques que nous avons pu comparer à des formulations en programme linéaires mixtes sur des instances particulières. Nous nous intéressons aussi bien aux réseaux de coeur qu'aux réseaux d'accès. Dans le premier chapitre, nous présentons brièvement les réseaux d'accès ainsi que les réseaux multiniveaux de type IP/WDM et l'architecture MPLS que nous considérons pour les réseaux de coeur. Ces réseaux sont composés d'un niveau physique sur lequel est routé un niveau virtuel. A leur tour les requêtes des utilisateurs sont routées sur le niveau virtuel. Nous abordons également la tolérance aux pannes dans les réseaux multiniveaux qui motive deux problèmes que nous avons étudiés. Le second chapitre est consacré à la conception de réseaux virtuels. Dans un premier temps nous modélisons un problème prenant en compte la tolérance aux pannes, puis nous en étudions un sous-problème, le groupage. Notre objectif est de minimiser le nombre de liens virtuels, ou tubes, à installer pour router un ensemble de requêtes quelconque lorsque le niveau physique est un chemin orienté. Le troisième chapitre traite des groupes de risque (SRRG) induits par l'empilement de niveaux au sein d'un réseau multiniveaux. Grâce à une modélisation par des graphes colorés, nous étudions la connexité et la vulnérabilité aux pannes de ces réseaux. L'objet du *quatrième chapitre* est le problème du placement d'instruments de mesure du trafic dans le réseau d'accès d'un opérateur. Nous considérons aussi bien les mesures passives qu'actives. La surveillance du trafic possède de nombreuses applications, en particulier la détection de pannes et l'évaluation des performances d'un réseau
This thesis is devoted to optimization problems arising in telecommunication networks. We tackle these problems from two main points of view. On the one hand we study their complexity and approximability properties. On the second hand, we propose heuristic methods, approximation algorithms or even exact algorithms that we compare with mixed integer linear programming formulations on specific instances. We are interested in backbone networks as well as access networks. In the first chapter, we briefly present access networks and IP/WDM multilayer backbone networks using the MPLS architecture. These networks are composed of a physical layer on which is routed a virtual layer. In turn, the users' requests are routed on the virtual layer. We also present multilayer network survivability issues motivating two of the questions we have studied. The second chapter is dedicated to the design of virtual networks. First we propose a mixed integer linear programming formulation with network survivability constraints. Then we study a sub-problem, the grooming problem. Our objective is to minimize the number of virtual links, needed to route a given set of requests when the physical layer is a directed path. The third chapter deals with Shared Risk Resource Groups (SRRG) induced by stacking up network layers in multilayer networks. Thanks to the colored graphs model, we study connexity and failure vulnerability of these networks. The positioning of active and passive traffic measurement points in the access network of an internet service provider is the subject of the fourth chapter
APA, Harvard, Vancouver, ISO, and other styles
17

Shou, Yanbo. "Cryptographie sur les courbes elliptiques et tolérance aux pannes dans les réseaux de capteurs." Thesis, Besançon, 2014. http://www.theses.fr/2014BESA2015/document.

Full text
Abstract:
L’émergence des systèmes embarqués a permis le développement des réseaux de capteurs sans fil dans de nombreux domaines différents. Cependant, la sécurité reste un problème ouvert. La vulnérabilité des nœuds est principalement liée au manque de ressources. En effet, l’unité de traitement ne dispose pas d’assez de puissance et de mémoire pour gérer des mécanismes de sécurité très complexes.La cryptographie est une solution qui est largement utilisée pour sécuriser les réseaux. Par rapport à la cryptographie symétrique, la cryptographie asymétrique nécessite des calculs plus compliqués,mais elle offre une distribution de clés plus sophistiquée et la signature numérique. Dans cette thèse, nous essayons d’optimiser la performance d’ECC (Elliptic Curve Cryptography), un cryptosystème asymétrique qui est connu pour sa robustesse et son utilisation de clé plus courte par rapport à RSA. Nous proposons d’utiliser le parallélisme pour accélérer le calcul de la multiplication scalaire, qui est reconnue comme l’opération la plus coûteuse sur les courbes elliptiques. Les résultats de tests ont montré que notre solution offre un gain intéressant malgré une augmentation de la consommation d’énergie.La deuxième partie de la contribution concerne l’application de la tolérance aux pannes dans notre architecture de parallélisation. Nous utilisons les nœuds redondants pour la détection des pannes et la restauration du calcul. Ainsi, en utilisant l’ECC et la tolérance aux pannes, nous proposons une solution de sécurité efficace et sûre pour les systèmes embarqués
The emergence of embedded systems has enabled the development of wireless sensor networks indifferent domains. However, the security remains an open problem. The vulnerability of sensor nodesis mainly due to the lack of resources. In fact, the processing unit doesn’t have enough power ormemory to handle complex security mechanisms.Cryptography is a widely used solution to secure networks. Compared with symmetric cryptography,the asymmetric cryptography requires more complicated computations, but it offers moresophisticated key distribution schemes and digital signature.In this thesis, we try to optimize the performance of ECC. An asymmetric cryptosystem which isknown for its robustness and the use of shorter keys than RSA. We propose to use parallelismtechniques to accelerate the computation of scalar multiplications, which is recognized as the mostcomputationally expensive operation on elliptic curves. The test results have shown that our solutionprovides a significant gain despite an increase in energy consumption.The 2nd part of our contribution is the application of fault tolerance in our parallelism architecture.We use redundant nodes for fault detection and computation recovery. Thus, by using ECC and faulttolerance, we propose an efficient and reliable security solution for embedded systems
APA, Harvard, Vancouver, ISO, and other styles
18

Lahoud, Samer. "Routage et allocation de flots avec tolérance aux pannes dans les réseaux Internet nouvelle génération." Télécom Bretagne, 2006. http://www.theses.fr/2006TELB0011.

Full text
Abstract:
Avec l'évolution de l'Internet, le dimensionnement des réseaux coeurs est devenu un enjeu stratégique pour les opérateurs. De nouvelles stratégies sont mises en oeuvre dans les réseaux Internet Nouvelle Génération (ING) pour permettre l'évolution du réseau ainsi que la tolérance aux pannes tout en garantissant un bon retour sur investissement. En particulier, les réseaux ING proposent une architecture à deux couches: un réseau de transport utilisant les technologies optiques comme DWDM et un réseau de données utilisant IP/GMPLS. Dans cette thèse, nous étudions les problèmes d'allocation de flots dans les réseaux de transport. Nous considérons différentes stratégies d'allocation qui privilégient l'équité, la maximisation du volume alloué, ou la minimisation des coûts. Nous étudions différents mécanismes de tolérance aux pannes, notamment la protection par lien et par chemin, et évaluons le partage de la bande passante de secours ainsi que la protection variable. Pour ces différents problèmes, nous proposons des algorithmes d'approximation qui calculent des solutions à un facteur garanti de l'optimal en un temps polynomial. Dans les réseaux de données, nous étudions deux variantes du problème de routage. Nous présentons un algorithme polynomial pour le routage off-line qui inclut différents objectifs d'ingénierie de trafic et fournit une flexibilité de contrôle de la qualité de la solution et une complexité réduite. Dans une autre variante, nous étudions le problème du routage on-line de tunnels à bande passante garantie. Notre approche considère différents mécanismes de tolérance aux pannes et utilise une nouvelle mesure de l'efficacité d'utilisation du réseau.
APA, Harvard, Vancouver, ISO, and other styles
19

Huc, Florian. "Conception de Réseaux Dynamiques Tolérants aux Pannes." Phd thesis, Université de Nice Sophia-Antipolis, 2008. http://tel.archives-ouvertes.fr/tel-00472781.

Full text
Abstract:
Cette thèse aborde différents aspects de la conception d'un réseau de télécommunications. Un tel réseau utilise des technologies hétérogènes : liens antennes-satellites, radio, fibres optiques ou bien encore réseaux embarqués dans un satellite. Les problématiques varient en fonction de la partie du réseau considérée, du type de requêtes et de l'objectif. Le cas des requêtes de type paquets est abordé dans le cadre des réseaux en forme de grille, mais le thème principal est le routage de requêtes de type connections (unicast et multicast). Les objectifs considérés sont : la conception d'un réseau embarqué dans un satellite de télécommunication, de taille minimum et tolérant des pannes de composants; le dimensionnement des liens d'un réseau afin qu'il supporte des pannes corrélées ou qu'il offre une bonne qualité de service, ou s'il autorise des connections {\em multicast}; le dimensionnement de la taille des buffers d'un réseau d'accés radio; et l'optimisation de l'utilisation des ressources d'un réseau dynamique orienté connections. Dans tous ces cas la problématique du routage de connections est centrale. Mon approche consiste à utiliser la complémentarité de techniques algorithmique et d'optimisation combinatoire ainsi que d'outils issus de la théorie des graphes tels la pathwidth et des notions reliées -process number, jeux de captures et treewidth-, différents types de coloration -impropre et pondérée, proportionnelle, directed star colouring-, les graphes d'expansion et des techniques de partitions telle la quasi partition.
APA, Harvard, Vancouver, ISO, and other styles
20

Lemarinier, Pierre. "Fiabilité et traitement de la volatilité dans les systèmes de calcul global." Paris 11, 2006. http://www.theses.fr/2006PA112258.

Full text
Abstract:
Les systèmes de calcul agrègent de plus en plus de processeurs et sont par conséquent plus fréquemment affectés par des pannes franches. Les applications de calcul à passage de messages sont en grande partie développées selon la norme MPI. De nombreux travaux sur la tolérance aux pannes automatique et transparente pour les applications ont été menés au sein des librairies MPI. Tous ces travaux sont basés sur des techniques de points de reprise, coordonnés ou non coordonnés. Néanmoins aucune comparaison entre les différents protocoles n'a été réalisée en terme de coût et d'impact sur les performances des applications. Nous proposons dans cette étude la première comparaison entre ces différents protocoles. Dans un premier temps, nous décrivons dans un modèle commun un protocole à enregistrement de message pessimiste distant, un protocole à enregistrement de messages pessimiste sur l'émetteur, un protocole à enregistrement de messages causal ainsi que deux protocoles à points de reprise coordonnés : un protocole non bloquant et un protocole bloquant. La deuxième partie de cette thèse décrit les implémentations des quatre premiers protocoles dans la librairie MPICH et l'implémentation du dernier protocole dans la librairie MPICH2. Nous résumons les résultats des expériences menées sur les protocoles à enregistrement de messages pessimistes puis nous exposons en détail les résultats des mesures de performances réalisées sur les implémentations des protocoles causal et à points de reprise coordonnés à l'aide de micro benchmarks et d'applications numériques, pour différentes plateformes de calcul
The distributed computing systems gather more and more processors and are thus subjected to higher failure frequencies. The message passing applications are now generally written using the MPI interface. Numbers of automatic and transparent fault tolerant protocols for message passing libraries have been proposed and implemented. All these protocols rely on checkpoint/restart mechanisms, coordinated or not. However, no comparison of these protocols have been presented yet, in term of cost on the initial performance of MPI applications. We expose in this paper the first comparison between the different kind of fault tolerant protocols. The first part describes in a common model five protocols: a distant pessimistic message logging protocol, a sender based pessimistic message logging protocol, a causal message logging protocol, a non blocking coordinated checkpoint protocol and finally a blocking coordinated checkpoint protocol. The second part of this thesis presents the implementation of the fourth first protocols in the MPICH library and the fifth protocol in the MPICH2 library. Then we sum up the experiment results we obtained for the pessimistic protocols implementation and detail the performance measurements of the causal implementation and the coordinated checkpoint implementations, using micro benchmarks and NAS applications on different computing systems
APA, Harvard, Vancouver, ISO, and other styles
21

Aliouat, Makhlouf. "Reprise de processus dans un environnement distribué après pannes matérielles transitoires ou permanentes." Phd thesis, Grenoble INPG, 1986. http://tel.archives-ouvertes.fr/tel-00320133.

Full text
APA, Harvard, Vancouver, ISO, and other styles
22

Pucel, Xavier. "A unified point of view on diagnosability." Toulouse, INSA, 2008. http://eprint.insa-toulouse.fr/archive/00000237/.

Full text
Abstract:
Le problème du diagnostic de défaillances à base de modèle dans les systèmes complexes a reçu un intérêt croissant durant les dernières décennies. Ce problème doit être pris en compte dés la phase de conception du système, au moyen de l'analyse de la diagnosticabilité. La diagnosticabilité est la propriété d'un système consistant à exhiber des symptômes différents pour un ensemble de situations de défaillances anticipées. Plusieurs approches ont été développées basées sur différents formalismes de modélisation, toutefois les raisonnements menant à la diagnosticabilité sont très semblables dans toutes ces approches. Cette thèse développe une comparaison des approches existantes et établit une définition unifiée de la diagnosticabilité. Une nouvelle approche pour l'analyse de diagnosticabilité, basée sur les modes de faute partiels, est décrite et implémentée dans le contexte des architectures orientées services, plus précisément sur des web services. Une nouvelle généralisation de la définition de la diagnosticabilité à n'importe quel ensemble d'état est présentée, qui permet de prendre en compte de nouveaux types de propriétés, comme les préconditions de réparation, ou la qualité de service. Ces travaux ouvrent des perspectives pour le raisonnement de diagnosticabilité indépendant du modèle, pour la diagnosticabilité basée sur d'autres types de modèles, ainsi que pour l'intégration du diagnostic dans un outil de surveillance plus général. Le diagnostic et l'analyse de diagnosticabilité des systèmes logiciels est encore un domaine jeune, et ouvre de nombreuses connections avec le domaine de la sécurité informatique
The problem of model-based fault diagnosis in complex systems has received an increasing interest over the past decades. Experience has proved that it needs to be taken into account during the system design stage, by means of diagnosability analysis. Diagnosability is the ability of a system to exhibit different symptoms for a set of anticipated fault situations. Several approaches for diagnosability have been developed using different modelling formalisms. , yet the reasoning for diagnosability analysis is very similar in all these approaches. This thesis provides a comparison of these and a unified definition of diagnosability. An original approach for diagnosability analysis, based on partial fault modes, is described and implemented in the context of service oriented architecture, more precisely on web services. An original generalization of the definition of diagnosability to any set of system states is presented, that accounts for many kinds of properties, like repair preconditions or quality of service. This work opens perspectives for model independent diagnosability reasoning, diagnosability based on other types of models, and in integrating diagnosis into a general purpose supervision tool. Model-based diagnosis and diagnosability of software systems is still a young applicative domain, and opens many connections with the software safety engineering domain
APA, Harvard, Vancouver, ISO, and other styles
23

Fuguet, Tortolero César. "Introduction de mécanismes de tolérance aux pannes franches dans les architectures de processeur « many-core » à mémoire partagée cohérente." Thesis, Paris 6, 2015. http://www.theses.fr/2015PA066462/document.

Full text
Abstract:
L'augmentation continue de la puissance de calcul requise par les applications telles que la cryptographie, la simulation, ou le traitement du signal a fait évoluer la structure interne des processeurs vers des architectures massivement parallèles (dites « many-core »). Ces architectures peuvent contenir des centaines, voire des milliers de cœurs afin de fournir une puissance de calcul importante avec une consommation énergétique raisonnable. Néanmoins, l'importante densité de transistors fait que ces architectures sont très susceptibles aux pannes matérielles. L'augmentation dans la variabilité du processus de fabrication, et dans les facteurs de stress des transistors, dégrade à la fois le rendement de fabrication, et leur durée de vie. Nous proposons donc un mécanisme complet de tolérance aux pannes franches, permettant les architectures « many-core » à mémoire partagée cohérente de fonctionner dans un mode dégradé. Ce mécanisme s'appuie sur un logiciel embarqué et distribué dans des mémoires sur puce (« firmware »), qui est exécuté par les cœurs à chaque démarrage du processeur. Ce logiciel implémente plusieurs algorithmes distribués permettant de localiser les composants défaillants (cœurs, bancs mémoires, et routeurs des réseaux sur puce), de reconfigurer l'architecture matérielle, et de fournir une cartographie de l'infrastructure matérielle fonctionnelle au système d'exploitation. Le mécanisme supporte aussi bien des défauts de fabrication, que des pannes de vieillissement après que la puce est en service dans l'équipement. Notre proposition est évaluée en utilisant un prototype virtuel précis au cycle d'une architecture « many-core » existante
The always increasing performance demands of applications such as cryptography, scientific simulation, network packets dispatching, signal processing or even general-purpose computing has made of many-core architectures a necessary trend in the processor design. These architectures can have hundreds or thousands of processor cores, so as to provide important computational throughputs with a reasonable power consumption. However, their important transistor density makes many-core architectures more prone to hardware failures. There is an augmentation in the fabrication process variability, and in the stress factors of transistors, which impacts both the manufacturing yield and lifetime. A potential solution to this problem is the introduction of fault-tolerance mechanisms allowing the processor to function in a degraded mode despite the presence of defective internal components. We propose a complete in-the-field reconfiguration-based permanent failure recovery mechanism for shared-memory many-core processors. This mechanism is based on a firmware (stored in distributed on-chip read-only memories) executed at each hardware reset by the internal processor cores without any external intervention. It consists in distributed software procedures, which locate the faulty components (cores, memory banks, and network-on-chip routers), reconfigure the hardware architecture, and provide a description of the functional hardware infrastructure to the operating system. Our proposal is evaluated using a cycle-accurate SystemC virtual prototype of an existing many-core architecture. We evaluate both its latency, and its silicon cost
APA, Harvard, Vancouver, ISO, and other styles
24

Bouguerra, Mohamed slim. "Tolérance aux pannes dans des environnements de calcul parallèle et distribué : optimisation des stratégies de sauvegarde/reprise et ordonnancement." Phd thesis, Université de Grenoble, 2012. http://tel.archives-ouvertes.fr/tel-00910358.

Full text
Abstract:
Le passage de l'échelle des nouvelles plates-formes de calcul parallèle et distribué soulève de nombreux défis scientifiques. À terme, il est envisageable de voir apparaître des applications composées d'un milliard de processus exécutés sur des systèmes à un million de coeurs. Cette augmentation fulgurante du nombre de processeurs pose un défi de résilience incontournable, puisque ces applications devraient faire face à plusieurs pannes par jours. Pour assurer une bonne exécution dans ce contexte hautement perturbé par des interruptions, de nombreuses techniques de tolérance aux pannes telle que l'approche de sauvegarde et reprise (checkpoint) ont été imaginées et étudiées. Cependant, l'intégration de ces approches de tolérance aux pannes dans le couple formé par l'application et la plate-forme d'exécution soulève des problématiques d'optimisation pour déterminer le compromis entre le surcoût induit par le mécanisme de tolérance aux pannes d'un coté et l'impact des pannes sur l'exécution d'un autre coté. Dans la première partie de cette thèse nous concevons deux modèles de performance stochastique (minimisation de l'impact des pannes et du surcoût des points de sauvegarde sur l'espérance du temps de complétion de l'exécution en fonction de la distribution d'inter-arrivées des pannes). Dans la première variante l'objectif est la minimisation de l'espérance du temps de complétion en considérant que l'application est de nature préemptive. Nous exhibons dans ce cas de figure tout d'abord une expression analytique de la période de sauvegarde optimale quand le taux de panne et le surcoût des points de sauvegarde sont constants. Par contre dans le cas où le taux de panne ou les surcoûts des points de sauvegarde sont arbitraires nous présentons une approche numérique pour calculer l'ordonnancement optimal des points de sauvegarde. Dans la deuxième variante, l'objectif est la minimisation de l'espérance de la quantité totale de temps perdu avant la première panne en considérant les applications de nature non-préemptive. Dans ce cas de figure, nous démontrons tout d'abord que si les surcoûts des points sauvegarde sont arbitraires alors le problème du meilleur ordonnancement des points de sauvegarde est NP-complet. Ensuite, nous exhibons un schéma de programmation dynamique pour calculer un ordonnancement optimal. Dans la deuxième partie de cette thèse nous nous focalisons sur la conception des stratégies d'ordonnancement tolérant aux pannes qui optimisent à la fois le temps de complétion de la dernière tâche et la probabilité de succès de l'application. Nous mettons en évidence dans ce cas de figure qu'en fonction de la nature de la distribution de pannes, les deux objectifs à optimiser sont tantôt antagonistes, tantôt congruents. Ensuite en fonction de la nature de distribution de pannes nous donnons des approches d'ordonnancement avec des ratios de performance garantis par rapport aux deux objectifs.
APA, Harvard, Vancouver, ISO, and other styles
25

Bouguerra, Mohamed Slim. "Tolérance aux pannes dans des environnements de calcul parallèle et distribué : optimisation des stratégies de sauvegarde/reprise et ordonnancement." Thesis, Grenoble, 2012. http://www.theses.fr/2012GRENM023/document.

Full text
Abstract:
Le passage de l'échelle des nouvelles plates-formes de calcul parallèle et distribué soulève de nombreux défis scientifiques. À terme, il est envisageable de voir apparaître des applications composées d'un milliard de processus exécutés sur des systèmes à un million de coeurs. Cette augmentation fulgurante du nombre de processeurs pose un défi de résilience incontournable, puisque ces applications devraient faire face à plusieurs pannes par jours. Pour assurer une bonne exécution dans ce contexte hautement perturbé par des interruptions, de nombreuses techniques de tolérance aux pannes telle que l'approche de sauvegarde et reprise (checkpoint) ont été imaginées et étudiées. Cependant, l'intégration de ces approches de tolérance aux pannes dans le couple formé par l'application et la plate-forme d'exécution soulève des problématiques d'optimisation pour déterminer le compromis entre le surcoût induit par le mécanisme de tolérance aux pannes d'un coté et l'impact des pannes sur l'exécution d'un autre coté. Dans la première partie de cette thèse nous concevons deux modèles de performance stochastique (minimisation de l'impact des pannes et du surcoût des points de sauvegarde sur l'espérance du temps de complétion de l'exécution en fonction de la distribution d'inter-arrivées des pannes). Dans la première variante l'objectif est la minimisation de l'espérance du temps de complétion en considérant que l'application est de nature préemptive. Nous exhibons dans ce cas de figure tout d'abord une expression analytique de la période de sauvegarde optimale quand le taux de panne et le surcoût des points de sauvegarde sont constants. Par contre dans le cas où le taux de panne ou les surcoûts des points de sauvegarde sont arbitraires nous présentons une approche numérique pour calculer l'ordonnancement optimal des points de sauvegarde. Dans la deuxième variante, l'objectif est la minimisation de l'espérance de la quantité totale de temps perdu avant la première panne en considérant les applications de nature non-préemptive. Dans ce cas de figure, nous démontrons tout d'abord que si les surcoûts des points sauvegarde sont arbitraires alors le problème du meilleur ordonnancement des points de sauvegarde est NP-complet. Ensuite, nous exhibons un schéma de programmation dynamique pour calculer un ordonnancement optimal. Dans la deuxième partie de cette thèse nous nous focalisons sur la conception des stratégies d'ordonnancement tolérant aux pannes qui optimisent à la fois le temps de complétion de la dernière tâche et la probabilité de succès de l'application. Nous mettons en évidence dans ce cas de figure qu'en fonction de la nature de la distribution de pannes, les deux objectifs à optimiser sont tantôt antagonistes, tantôt congruents. Ensuite en fonction de la nature de distribution de pannes nous donnons des approches d'ordonnancement avec des ratios de performance garantis par rapport aux deux objectifs
The parallel computing platforms available today are increasingly larger. Typically the emerging parallel platforms will be composed of several millions of CPU cores running up to a billion of threads. This intensive growth of the number of parallel threads will make the application subject to more and more failures. Consequently it is necessary to develop efficient strategies providing safe and reliable completion for HPC parallel applications. Checkpointing is one of the most popular and efficient technique for developing fault-tolerant applications on such a context. However, checkpoint operations are costly in terms of time, computation and network communications. This will certainly affect the global performance of the application. In the first part of this thesis, we propose a performance model that expresses formally the checkpoint scheduling problem. Two variants of the problem have been considered. In the first variant, the objective is the minimization of the expected completion time. Under this model we prove that when the failure rate and the checkpoint cost are constant the optimal checkpoint strategy is necessarily periodic. For the general problem when the failure rate and the checkpoint cost are arbitrary we provide a numerical solution for the problem. In the second variant if the problem, we exhibit the tradeoff between the impact of the checkpoints operations and the lost computation due to failures. In particular, we prove that the checkpoint scheduling problem is NP-hard even in the simple case of uniform failure distribution. We also present a dynamic programming scheme for determining the optimal checkpointing times in all the variants of the problem. In the second part of this thesis, we design several fault tolerant scheduling algorithms that minimize the application makespan and in the same time maximize the application reliability. Mainly, in this part we point out that the growth rate of the failure distribution determines the relationship between both objectives. More precisely we show that when the failure rate is decreasing the two objectives are antagonist. In the second hand when the failure rate is increasing both objective are congruent. Finally, we provide approximation algorithms for both failure rate cases
APA, Harvard, Vancouver, ISO, and other styles
26

Fuguet, Tortolero César. "Introduction de mécanismes de tolérance aux pannes franches dans les architectures de processeur « many-core » à mémoire partagée cohérente." Electronic Thesis or Diss., Paris 6, 2015. http://www.theses.fr/2015PA066462.

Full text
Abstract:
L'augmentation continue de la puissance de calcul requise par les applications telles que la cryptographie, la simulation, ou le traitement du signal a fait évoluer la structure interne des processeurs vers des architectures massivement parallèles (dites « many-core »). Ces architectures peuvent contenir des centaines, voire des milliers de cœurs afin de fournir une puissance de calcul importante avec une consommation énergétique raisonnable. Néanmoins, l'importante densité de transistors fait que ces architectures sont très susceptibles aux pannes matérielles. L'augmentation dans la variabilité du processus de fabrication, et dans les facteurs de stress des transistors, dégrade à la fois le rendement de fabrication, et leur durée de vie. Nous proposons donc un mécanisme complet de tolérance aux pannes franches, permettant les architectures « many-core » à mémoire partagée cohérente de fonctionner dans un mode dégradé. Ce mécanisme s'appuie sur un logiciel embarqué et distribué dans des mémoires sur puce (« firmware »), qui est exécuté par les cœurs à chaque démarrage du processeur. Ce logiciel implémente plusieurs algorithmes distribués permettant de localiser les composants défaillants (cœurs, bancs mémoires, et routeurs des réseaux sur puce), de reconfigurer l'architecture matérielle, et de fournir une cartographie de l'infrastructure matérielle fonctionnelle au système d'exploitation. Le mécanisme supporte aussi bien des défauts de fabrication, que des pannes de vieillissement après que la puce est en service dans l'équipement. Notre proposition est évaluée en utilisant un prototype virtuel précis au cycle d'une architecture « many-core » existante
The always increasing performance demands of applications such as cryptography, scientific simulation, network packets dispatching, signal processing or even general-purpose computing has made of many-core architectures a necessary trend in the processor design. These architectures can have hundreds or thousands of processor cores, so as to provide important computational throughputs with a reasonable power consumption. However, their important transistor density makes many-core architectures more prone to hardware failures. There is an augmentation in the fabrication process variability, and in the stress factors of transistors, which impacts both the manufacturing yield and lifetime. A potential solution to this problem is the introduction of fault-tolerance mechanisms allowing the processor to function in a degraded mode despite the presence of defective internal components. We propose a complete in-the-field reconfiguration-based permanent failure recovery mechanism for shared-memory many-core processors. This mechanism is based on a firmware (stored in distributed on-chip read-only memories) executed at each hardware reset by the internal processor cores without any external intervention. It consists in distributed software procedures, which locate the faulty components (cores, memory banks, and network-on-chip routers), reconfigure the hardware architecture, and provide a description of the functional hardware infrastructure to the operating system. Our proposal is evaluated using a cycle-accurate SystemC virtual prototype of an existing many-core architecture. We evaluate both its latency, and its silicon cost
APA, Harvard, Vancouver, ISO, and other styles
27

Perronne, Lucas. "Vers des protocoles de tolérance aux fautes byzantines efficaces et robustes." Thesis, Université Grenoble Alpes (ComUE), 2016. http://www.theses.fr/2016GREAM075/document.

Full text
Abstract:
Au cours de la dernière décennie, l'informatique en nuage (Cloud Computing) suscita un important changement de paradigme dans de nombreux systèmes d'information. Ce nouveau paradigme s'illustre principalement par la délocalisation de l'infrastructure informatique hors du parc des entreprises, permettant ainsi une utilisation des ressources à la demande. La prise en charge de serveurs locaux s'est donc vue peu à peu remplacée par la location de serveurs distants, auprès de fournisseurs spécialisés tels que Google, Amazon, Microsoft. Afin d'assurer la pérennité d'un tel modèle économique, il apparaît nécessaire de fournir aux utilisateurs diverses garanties relatives à la sécurité, la disponibilité, ou encore la fiabilité des ressources mises à disposition. Ces facteurs de qualité de service (QoS pour Quality of Service) permettent aux fournisseurs et aux utilisateurs de s'accorder sur le niveau de prestation escompté. En pratique, les serveurs mis à disposition des utilisateurs doivent épisodiquement faire face à des fautes arbitraires (ou byzantines). Il s'agit par exemple de ruptures temporaires du réseau, du traitement de messages corrompus, ou encore d’arrêts inopinés. Le contexte d'informatique en nuage s'est vu néanmoins propice à l'émergence de technologies telles que la virtualisation ou la réplication de machines à états. De telles technologies permettent de pallier efficacement à l’occurrence de pannes via l'implémentation de protocoles de tolérance aux pannes.La tolérance aux fautes byzantines (BFT pour Byzantine Fault Tolerance) est un domaine de recherche implémentant les concepts de réplication de machines à états, qui vise à assurer la continuité et la fiabilité des services en présence de comportements arbitraires. Afin de répondre à cette problématique, de nombreux protocoles furent proposés. Ceux-ci se doivent d'être efficaces afin de masquer le surcoût lié à la réplication, mais également robustes afin de maintenir un niveau de performance élevé en présence de fautes. Nous constatons d'abord qu'il est délicat de relever ces deux défis à la fois: les protocoles actuels sont soit conçus pour être efficaces au détriment de leur robustesse, soit pour être robustes au détriment de leur efficacité. Cette thèse se focalise autour de cette problématique, l'objectif étant de fournir les instruments nécessaires à la conception de protocoles à la fois robustes et efficaces.Notre intérêt se porte principalement vers deux types de dénis de service liés à la gestion des requêtes. Le premier de ces dénis de service est causé par la corruption partielle d'une requête lors de son émission par un client. Le deuxième est causé par l'abandon intentionnel d'une requête lors de sa réception par un réplica. Afin de faire face efficacement à ces deux comportements byzantins, plusieurs mécanismes dédiés furent implémentés dans les protocoles de BFT robustes. En pratique, ces mécanismes engendrent d'importants surcoûts, ce qui nous permet d'introduire notre première contribution: la définition de plusieurs principes de conception génériques destinés à réduire ces surcoûts tout en assurant un niveau de robustesse équivalent.La seconde contribution de cette thèse illustre ER-PBFT, un nouveau protocole implémentant ces principes de conception sur PBFT, la référence en matière de tolérance aux fautes byzantines. Nous démontrons l'efficacité de notre nouvelle politique de robustesse, à la fois en présence de comportements byzantins mais également lors de scénarios sans faute.La troisième contribution illustre ER-COP, un nouveau protocole orienté à la fois vers l’efficacité et la robustesse, implémentant nos principes de conception sur COP, le protocole de BFT fournissant les meilleures performances à l'heure actuelle dans un environnement sans faute. Nous évaluons le surcoût engendré par l'intégration de notre politique de robustesse, et nous démontrons la capacité de ER-COP à tolérer l'occurrence de comportements byzantins
Over the last decade, Cloud computing instigated an important switch of paradigm in numerous information systems. This new paradigm is mainly illustrated by the re-location of the whole IT infrastructures out of companies’ warehouses. The use of local servers has thus being replaced by remote ones, rented from dedicated providers such as Google, Amazon, Microsoft.In order to ensure the sustainability of this economic model, it appears necessary to provide several guarantees to users, related to the security, availability, or even reliability of the proposed resources. Such quality of service (QoS) factors allow providers and users to reach an agreement on the expected level of dependability. Practically, the proposed servers must episodically cope with arbitrary faults (also called byzantine faults), such as incorrect/corrupted messages, servers crashes, or even network failures. Nevertheless, the Cloud computing environment encouraged the emergence of technologies such as virtualization or state machine replication. These technologies allow cloud providers to efficiently face the occurrences of faults through the implementation of fault tolerance protocols.Byzantine Fault Tolerance (BFT) is a research area involving state machine replication concepts, and aiming at ensuring continuity and reliability of hosted services in presence of any kind of arbitrary behaviors. In order to handle such threat, numerous protocols were proposed. These protocols must be efficient in order to counterbalance the extra cost of replication, and robust in order to lower the impact of byzantine behaviors on the system performance. We first noticed that tackling both these concerns at the same time is difficult: current protocols are either designed to be efficient at the expense of their robustness, or robust at the expense of their efficiency. We tackle this specific problem in this thesis, our goal being to provide the required tools to design both efficient and robust BFT protocols.Our focus is mainly dedicated to two types of denial-of-service attacks involving requests management. The first one is caused by the partial corruption of a request transmitted by a client. The second one is caused by the intentional drop of a request upon receipt. In order to face efficiently both these byzantine behaviors, several mechanisms were integrated in robust BFT protocols. In practice, these mecanisms involve high overheads, and thus lead to the significant performance drop of robust protocols compared to efficien ones. This assessment allows us to introduce our first contribution: the definition of several generic design principles, applicable to numerous existing BFT protocols, and aiming at reducing these overheads while maintaining the same level of robustness.The second contribution introduces ER-PBFT, a new protocol implementing these design principles on PBFT, the reference in terms of byzantine fault tolerance. We demonstrate the efficiency of our new robustness policy, both in fault-free scenarios and in presence of byzantine behaviors.The third contribution highlights ER-COP, a new BFT protocol dedicated to both efficiency and robustness, implementing our design principles on COP, the BFT protocol providing for now the best performances in a fault-free environment. We evaluate the additional cost introduced by our robustness policy, and we demonstrate ER-COP's ability to handle byzantine behaviors
APA, Harvard, Vancouver, ISO, and other styles
28

Zhang, Zhen. "Détection des pannes franches et reconfiguration automatique dans un micro-réseau intégré sur puce." Paris 6, 2011. http://www.theses.fr/2011PA066430.

Full text
APA, Harvard, Vancouver, ISO, and other styles
29

Makassikis, Constantinos. "Conception d'un modèle et de frameworks de distribution d'applications sur grappes de PCs avec tolérance aux pannes à faible coût." Electronic Thesis or Diss., Nancy 1, 2011. http://www.theses.fr/2011NAN10011.

Full text
Abstract:
Les grappes de PCs constituent des architectures distribuées dont l'adoption se répand à cause de leur faible coût mais aussi de leur extensibilité en termes de noeuds. Notamment, l'augmentation du nombre des noeuds est à l'origine d'un nombre croissant de pannes par arrêt qui mettent en péril l'exécution d'applications distribuées. L'absence de solutions efficaces et portables confine leur utilisation à des applications non critiques ou sans contraintes de temps.MoLOToF est un modèle de tolérance aux pannes de niveau applicatif et fondée sur la réalisation de sauvegardes. Pour faciliter l'ajout de la tolérance aux pannes, il propose une structuration de l'application selon des squelettes tolérants aux pannes, ainsi que des collaborations entre le programmeur et le système de tolérance des pannes pour gagner en efficacité. L'application de MoLOToF à des familles d'algorithmes parallèles SPMD et Maître-Travailleur a mené aux frameworks FT-GReLoSSS et ToMaWork respectivement. Chaque framework fournit des squelettes tolérants aux pannes adaptés aux familles d'algorithmes visées et une mise en oeuvre originale. FT-GReLoSSS est implanté en C++ au-dessus de MPI alors que ToMaWork est implanté en Java au-dessus d'un système de mémoire partagée virtuelle fourni par la technologie JavaSpaces. L'évaluation des frameworks montre un surcoût en temps de développement raisonnable et des surcoûts en temps d'exécution négligeables en l'absence de tolérance aux pannes. Les expériences menées jusqu'à 256 noeuds sur une grappe de PCs bi-coeurs, démontrent une meilleure efficacité de la solution de tolérance aux pannes de FT-GReLoSSS par rapport à des solutions existantes de niveau système (LAM/MPI et DMTCP)
PC clusters are distributed architectures whose adoption spreads as a result of their low cost but also their extensibility in terms of nodes. In particular, the increase in nodes is responsable for the increase of fail-stop failures which jeopardize distributed applications. The absence of efficient and portable solutions limits their use to non critical applications or without time constraints. MoLOToF is a model for application-level fault tolerance based on checkpointing. To ease the addition of fault tolerance, it proposes to structure applications using fault-tolerant skeletons as well as collaborations between the programmer and the fault tolerance system to gain in efficiency. The application of MoLOToF on SPMD and Master-Worker families of parallel algorithms lead to FT-GReLoSSS and ToMaWork frameworks respectively. Each framework provides fault-tolerant skeletons suited to targeted families of algorithms and an original implementation. FT-GReLoSSS uses C++ on top of MPI while ToMaWork uses Java on top of virtual shared memory system provided by JavaSpaces technology. The frameworks' evaluation reveals a reasonable time development overhead and negligible runtime overheads in absence of fault tolerance. Experiments up to 256 nodes on a dualcore PC cluster, demonstrate a better efficiency of FT-GReLoSSS' fault tolerance solution compared to existing system-level solutions (LAM/MPI and DMTCP)
APA, Harvard, Vancouver, ISO, and other styles
30

Nolot, Florent. "Stabilisation des horloges de phases dans les systèmes distribués." Amiens, 2002. http://www.theses.fr/2002AMIE0205.

Full text
APA, Harvard, Vancouver, ISO, and other styles
31

Diouri, Mohammed El Mehdi. "Efficacité énergétique dans le calcul très haute performance : application à la tolérance aux pannes et à la diffusion de données." Phd thesis, Ecole normale supérieure de lyon - ENS LYON, 2013. http://tel.archives-ouvertes.fr/tel-00881094.

Full text
Abstract:
Les infrastructures de calcul très haute performance ont connu une croissance rapide en particulier ces dernières années. Cette croissance a toujours été motivée par les besoins accrus en puissance de calcul qu'expriment les scientifiques dans divers domaines. Cependant, ces systèmes devenus de plus en plus larges constituent de gros consommateurs d'électricité et consomment déjà plusieurs mégawatts. Afin de consommer ''moins'' et ''mieux'', nous avons proposé un environnement logiciel qui d'une part, permet de choisir avant de pré-exécuter l'application, les versions de services applicatifs consommant le moins d'énergie, et qui d'autre part, repose sur une grille électrique intelligente pour planifier les réservations des ressources de calcul de ces infrastructures. Cet environnement, appelé SESAMES, a été adapté à deux services applicatifs indispensables au calcul très haute performance : la tolérance aux pannes et la diffusion de données. Des validations expérimentales ont montré que l'on peut réduire la consommation énergétique de chacun des deux services étudiés en s'appuyant sur les estimations énergétiques précises fournies par SESAMES pour n'importe quel contexte d'exécution et pour n'importe quelle plate-forme dotée de wattmètres. Notre méthodologie d'estimation repose sur une description du contexte d'exécution et sur une calibration de la plate-forme d'exécution basée sur la collecte de mesures énergétiques. Des simulations ont démontré que l'ordonnanceur multi-critères des réservations de ressources proposé dans SESAMES, permet de réduire à la fois la consommation énergétique, le coût financier et l'impact environnemental de ces réservations, tout en respectant les contraintes imposées par l'utilisateur et le fournisseur d'énergie.
APA, Harvard, Vancouver, ISO, and other styles
32

Makassikis, Constantinos. "Conception d'un modèle et de frameworks de distribution d'applications sur grappes de PCs avec tolérance aux pannes à faible coût." Phd thesis, Université Henri Poincaré - Nancy I, 2011. http://tel.archives-ouvertes.fr/tel-00591083.

Full text
Abstract:
Les grappes de PCs constituent des architectures distribuées dont l'adoption se répand à cause de leur faible coût mais aussi de leur extensibilité en termes de noeuds. Notamment, l'augmentation du nombre des noeuds est à l'origine d'un nombre croissant de pannes par arrêt qui mettent en péril l'exécution d'applications distribuées. L'absence de solutions efficaces et portables confine leur utilisation à des applications non critiques ou sans contraintes de temps. MoLOToF est un modèle de tolérance aux pannes de niveau applicatif et fondée sur la réalisation de sauvegardes. Pour faciliter l'ajout de la tolérance aux pannes, il propose une structuration de l'application selon des squelettes tolérants aux pannes, ainsi que des collaborations entre le programmeur et le système de tolérance des pannes pour gagner en efficacité. L'application de MoLOToF à des familles d'algorithmes parallèles SPMD et Maître-Travailleur a mené aux frameworks FT-GReLoSSS et ToMaWork respectivement. Chaque framework fournit des squelettes tolérants aux pannes adaptés aux familles d'algorithmes visées et une mise en oeuvre originale. FT-GReLoSSS est implanté en C++ au-dessus de MPI alors que ToMaWork est implanté en Java au-dessus d'un système de mémoire partagée virtuelle fourni par la technologie JavaSpaces. L'évaluation des frameworks montre un surcoût en temps de développement raisonnable et des surcoûts en temps d'exécution négligeables en l'absence de tolérance aux pannes. Les expériences menées jusqu'à 256 noeuds sur une grappe de PCs bi-coeurs, démontrent une meilleure efficacité de la solution de tolérance aux pannes de FT-GReLoSSS par rapport à des solutions existantes de niveau système (LAM/MPI et DMTCP).
APA, Harvard, Vancouver, ISO, and other styles
33

Ahmadi, Sajjad. "Contribution à l'étude de la tolérance de pannes de convertisseurs multiniveaux en pont en H." Electronic Thesis or Diss., Université de Lorraine, 2021. http://www.theses.fr/2021LORR0026.

Full text
Abstract:
La sûreté de fonctionnement de la conversion d’énergie est indispensable pour un grand nombre d’applications, en particulier lors de la mise en œuvre de convertisseurs multiniveaux. Par conséquent, il est important d’assurer la continuité de service de ces convertisseurs, lors de la défaillance d’un des semi-conducteurs. Dans cet objectif, ce mémoire propose un onduleur monophasé multiniveaux à tolérance de pannes, de structure Neutral Point Clamped (NPC) en pont en H, à cinq niveaux. L’algorithme de diagnostic de défaut est basé sur une étude préliminaire des modes de défaillance et repose donc sur analyse des conséquences d’un défaut, basée sur de la logique. Il ne nécessite ni modélisation des composants de l’onduleur, ni calculs complexes. Bien que moins sujettes à défaillance que les interrupteurs actifs, les diodes de clamp peuvent également être en défaut. Dans ce mémoire, l’identification d’une diode de clamp défaillante est également étudiée. De plus, un quantificateur de tension est mis en œuvre lors du diagnostic, afin d’éviter toute fausse détection en raison des erreurs de mesure et des chutes de tension dans le circuit. Suite au diagnostic d’un défaut, des mesures correctives sont appliquées afin de pouvoir assurer la tension et le courant de sortie à leurs valeurs nominales, lors de la défaillance en circuit ouvert d’un interrupteur actif, d’une diode de clamp ou d’une diode de roue libre. Le contenu harmonique des grandeurs électriques de sortie de l’onduleur n’est donc pas affecté par le défaut. La structure proposée pour l’onduleur à tolérance de pannes ne comporte ni contacteur, ni interrupteurs bidirectionnels ; les mesures correctives peuvent donc être appliquées très rapidement. Une sélection de résultats de simulation et de résultats expérimentaux illustre et démontre l’efficacité et la validité de l’approche proposée. Un défaut est détecté en 20 µs et localisé entre 20 et 60 µs après son apparition, selon le semi-conducteur défaillant (interrupteur actif ou diode de clamp)
Ensuring service continuity in safety-critical applications is indispensable. In some of these applications, the multilevel inverters play a vital role. Hence, employing a multilevel converter with fault tolerant feature is of great importance. In this regard, a fault tolerant five-level Neutral Point Clamped (NPC) inverter is proposed in this research work. The proposed fault diagnosis algorithm is based on failure mode analysis, which is a logic based approach. The realization of this strategy does not require any component modeling and complicated calculations. Although switches are more fragile than clamping diodes, clamping diodes are also subjected to breakdown. Hence, identification of a defective clamping diode is also studied in this research work. Moreover, for fault detection procedure, a voltage quantifier is proposed to avoid any misdiagnosis arising from measurement errors and voltage drop in the circuit. Following to the fault diagnosis, the proposed fault tolerant strategy aims to restore the rated voltage and current at the inverter terminal in the presence of an open-circuit fault in a switch or in a clamping or anti-parallel diode. Compared with healthy operation, harmonic content of the terminal voltage and current is not increased. The proposed fault tolerant structure does not include any contactor or bidirectional switch, which allows fast triggering of fault tolerant operation. The simulation and experimental results are presented to validate the effectiveness of the proposed approaches. A fault is detected in 20 µs and localized between 20 and 60 µs after occurrence, depending on the faulty semiconductor (switch or clamping diode)
APA, Harvard, Vancouver, ISO, and other styles
34

Da, penha coelho Alexandre Augusto. "Tolérance aux fautes et fiabilité pour les réseaux sur puce 3D partiellement connectés." Thesis, Université Grenoble Alpes (ComUE), 2019. http://www.theses.fr/2019GREAT054.

Full text
Abstract:
Le paradigme de réseaux sur puce (NoC), basé sur un mécanisme modulaire de commutation par paquets, peut répondre à de nombreux défis de communication sur puce tels que la complexité du câblage, la latence des communications et la bande passante. De plus, les avantages combinés des circuits intégrés 3D et des NoCs offrent la possibilité de concevoir un système haute performance dans une zone limitée de la puce. Les NoCs 3D souffrent de certains problèmes de fiabilité tels que la variabilité des processus de fabrication 3D-IC. En particulier, le faible rendement de la connexion verticale a un impact significatif sur la conception des piles de matrices tridimensionnelles avec un grand nombre de TSV. De même, les progrès des technologies de fabrication de circuits intégrés entraînent une augmentation potentielle de leur sensibilité aux effets des rayonnements présents dans l'environnement dans lequel ils vont fonctionner. En fait, le nombre croissant de défaillances transitoires est devenu, au cours des dernières années, une préoccupation majeure dans la conception des systèmes de contrôle critiques. Par conséquent, l'évaluation de la sensibilité des circuits et des applications aux événements causés par les particules énergétiques présentes dans l'environnement réel est une préoccupation majeure à laquelle il faut répondre. Cette thèse présente donc des contributions dans deux domaines importants de la recherche sur la fiabilité : dans la conception et la mise en œuvre de schémas de routage à tolérance de pannes sans blocage pour les réseaux sur puce tridimensionnels émergents ; et dans la conception de cadres d'injection de défauts capables d'émuler des défauts transitoires simples et multiples dans les circuits basés sur HDL. La première partie de cette thèse aborde les problèmes des défauts transitoires et permanents dans l'architecture des NoCs 3D et présente une nouvelle unité de calcul de routage résiliente ainsi qu'un nouveau schéma de routage tolérant aux défauts d'exécution. Un nouveau mécanisme résilient est introduit afin de tolérer les défauts transitoires se produisant dans l'unité de calcul de route (RCU), qui est l'élément logique le plus important dans les routeurs NoC. En combinant un circuit de détection de défauts fiable à double échantillonnage au niveau du circuit et un mécanisme de réacheminement économique, nous développons une solution complète de tolérance aux fautes qui peut détecter et corriger efficacement ces erreurs fatales avant que les paquets affectés ne quittent le routeur. Pourtant, dans la première partie de cette thèse, un nouveau schéma de routage à tolérance de pannes pour les réseaux 3D sur puce à connexion verticale partielle appelé FL-RuNS est présenté. Grâce à une distribution asymétrique des canaux virtuels, FL-RuNS peut garantir une distribution de paquets à 100% sous un ensemble non contraint de temps d'exécution et de pannes permanentes des liaisons verticales. Dans le but d'émuler les effets du rayonnement sur les nouvelles conceptions de SoCs, la deuxième partie de cette thèse aborde les méthodologies d'injection de fautes en introduisant deux outils appelés NETFI-2 et NoCFI. NETFI-2 est une méthodologie d'injection de fautes capable d'émuler des défauts transitoires tels que SEU et SET dans un circuit HDL. Des expériences approfondies réalisées sur deux études de cas attrayantes sont présentées pour démontrer les caractéristiques et les avantages de NETFI-2. Enfin, dans la dernière partie de ce travail, nous présentons NoCFI comme une nouvelle méthodologie pour injecter des défauts multiples tels que les MBU et SEMT dans une architecture de réseaux sur puce. NoCFI combine ASIC-design-flow, afin d'extraire les informations de layout, et FPGA-design-flow pour émuler plusieurs défauts transitoires
Networks-on-Chip (NoC) have emerged as a viable solution for the communication challenges in highly complex Systems-on-Chip (SoC). The NoC architecture paradigm, based on a modular packet-switched mechanism, can address many of the on-chip communication challenges such as wiring complexity, communication latency, and bandwidth. Furthermore, the combined benefits of 3D IC and Networks-on-Chip (NoC) schemes provide the possibility of designing a high-performance system in a limited chip area. The major advantages of Three-Dimensional Networks-on-Chip (3D-NoCs) are a considerable reduction in the average wire length and wire delay, resulting in lower power consumption and higher performance. However, 3D-NoCs suffer from some reliability issues such as the process variability of 3D-IC manufacturing. In particular, the low yield of vertical connection significantly impacts the design of three-dimensional die stacks with a large number of Through Silicon Via (TSV). Equally concerning, advances in integrated circuit manufacturing technologies are resulting in a potential increase in their sensitivity to the effects of radiation present in the environment in which they will operate. In fact, the increasing number of transient faults has become, in recent years, a major concern in the design of critical SoC. As a result, the evaluation of the sensitivity of circuits and applications to events caused by energetic particles present in the real environment is a major concern that needs to be addressed. So, this thesis presents contributions in two important areas of reliability research: in the design and implementation of deadlock-free fault-tolerant routing schemes for the emerging three-dimensional Networks-on-Chips; and in the design of fault injection frameworks able to emulate single and multiple transient faults in the HDL-based circuits. The first part of this thesis addresses the issues of transient and permanent faults in the architecture of 3D-NoCs and introduces a new resilient routing computation unit as well as a new runtime fault-tolerant routing scheme. A novel resilient mechanism is introduced in order to tolerate transient faults occurring in the route computation unit (RCU), which is the most important logical element in NoC routers. Failures in the RCU can provoke misrouting, which may lead to severe effects such as deadlocks or packet loss, corrupting the operation of the entire chip. By combining a reliable fault detection circuit leveraging circuit-level double-sampling, with a cost-effective rerouting mechanism, we develop a full fault-tolerance solution that can efficiently detect and correct such fatal errors before the affected packets leave the router. Yet in the first part of this thesis, a novel fault-tolerant routing scheme for vertically-partially-connected 3D Networks-on-Chip called FL-RuNS is presented. Thanks to an asymmetric distribution of virtual channels, FL-RuNS can guarantee 100% packet delivery under an unconstrained set of runtime and permanent vertical link failures. With the aim to emulate the radiation effects on new SoCs designs, the second part of this thesis addresses the fault injection methodologies by introducing two frameworks named NETFI-2 (Netlist Fault Injection) and NoCFI (Networks-on-Chip Fault Injection). NETFI-2 is a fault injection methodology able to emulate transient faults such as Single Event Upsets (SEU) and Single Event Transient (SET) in a HDL-based (Hardware Description Language) design. Extensive experiments performed on two appealing case studies are presented to demonstrate NETFI-2 features and advantage. Finally, in the last part of this work, we present NoCFI as a novel methodology to inject multiple faults such as MBUs and SEMT in a Networks-on-Chip architecture. NoCFI combines ASIC-design-flow, in order to extract layout information, and FPGA-design-flow to emulate multiple transient faults
APA, Harvard, Vancouver, ISO, and other styles
35

Andrei, Geanina. "Contribution à la commande tolerante aux pannes dans la conduite du vol." Thesis, Toulouse, INSA, 2010. http://www.theses.fr/2010ISAT0033/document.

Full text
Abstract:
Cette thèse fait appel à la commande non linéaire inverse pour faire la synthèse de lois de commande permettant de faire face à deux types de pannes à bord des avions de transport.Il s’agit d’abord de pannes affectant certains actionneurs mais qui ne mettent pas en cause la commandabilité globale de l’avion: cette situation se présentera notamment dans le cas d’une panne isolée dont les effets peuvent être théoriquement compensés compte tenu de la redondance relative de certains actionneurs du point de vue de leurs effets sur la dynamique du vol de l’aéronef. Le problème qui se pose alors est celui de la réaffectation des surfaces de commande de l’avion de façon à maintenir pour celui-ci, lorsque c’est possible, un comportement standard aussi bien en situation d’équilibre qu’en manœuvre. Le cas de panne de ce type considéré dans cette thèse est celui d’un aileron et il s’agira, notamment au cours d’une manœuvre de mise en roulis d’assurer une réponse standard de l’avion. A ce niveau, la recherche de la solution de ce problème nous conduira à allier la commande non linéaire inverse à des techniques classiques de la Programmation Mathématique sollicitées en ligne de façon à tenir compte de toutes les contraintes matérielles et structurales à prendre en compte pour assurer la sécurité de l’avion. Il s’agit d’autre part des pannes affectant l’ensemble d’une chaîne de commande et conduisant à des situations catastrophiques où l’avion n’est plus globalement commandable au sens classique du terme et nécessitant l’interruption immédiate du vol commercial pour rechercher une solution de survie pour les personnes à bord de l’appareil au travers d’un atterrissage d’urgence. Dans cette thèse on considère le cas d’une perte totale de puissance pour les chaînes de commande des gouvernes et on développe une stratégie de retour basée sur une succession de phases de vol auxquelles seront associés des objectifs de commande limités en fonction des possibilités offertes par les seuls actionneurs principaux restants, les moteurs. La aussi, la commande non linéaire inverse jouera un rôle important pour faire la synthèse des éléments de lois de commande permettant d’effectuer les manœuvres essentielles pour mettre l’avion en conditions acceptable d’atterrissage
This thesis uses the nonlinear inverse control technique to synthesize control laws for dealing with two types of failures aboard transport airplanes. The first type of failure affects some actuators without compromising the overall controllability of the airplane: this situation arises particularly in the case of an isolated fault whose effects can theoretically be compensated taking into account the redundancy of actuators in terms of their effects on the dynamics of flight. The problem that arises is the reallocation of control surfaces to maintain for it, when possible, a standard behaviour in both equilibrium and makeover situations. The case of an aileron failure is studied here and a roll manoeuvre is considered for standard response of the aircraft. At this level, looking for the solution of this problem will lead us to combine the nonlinear inverse control technique and classical Mathematical Programming solicited online in order to take account of all material and structural constraints to be taken into account to ensure safety of the aircraft. The second considered type of failure affects an entire chain of command, leading to catastrophic situations where the aircraft is no more controllable in the classical sense and requires the immediate interruption of commercial flight to find a solution for the survival of people on board the aircraft through an emergency landing. In this thesis we consider the case of total loss of power for aerodynamic actuators and we develop a flight safety strategy based on a sequence of flight phases to which are associated limited control objectives based on the few opportunities from the only remaining actuators, the aircraft engines. Here too, the nonlinear inverse control technique plays an important role in the synthesis of control laws essential to put the airplane inacceptable conditions for landing
APA, Harvard, Vancouver, ISO, and other styles
36

Belloum, Adam Scander. "Étude d'un système multiprocesseurs reconfigurable dédié aux traitements d'images basé sur les processeurs de signaux." Compiègne, 1996. http://www.theses.fr/1996COMPD877.

Full text
Abstract:
L'objectif de ce travail est d'étudier la faisabilité d'un système de vision parallèle et reconfigurable à base de processeurs de signaux. Les caractéristiques principales de ce dernier ont été déterminées grâce à l'étude de quelques algorithmes connus en traitement d'images : filtre de Deriche, Transformée de Hough, reconstruction 3D par des méthodes géométriques. Dans ce système de vision, les traitements de haut niveau sont exécutés par des processeurs de signaux, alors que les traitements de bas niveau sont câblés pour une exécution en temps réel. Les échanges interprocesseurs sont assurés par les ports de communication des D. S. P. (TMS320C40 ou ADSP21060) à travers un réseau d'interconnexion reconfigurable multi-niveaux (MRN), implémenté en utilisant des circuits électroniques programmables. Le réseau proposé permet de connecter les éléments de calcul selon différentes topologies (hypercube, grille, arbre binaire,. . . ). Des chemins redondants ont été prévus pour permettre la tolérance aux pannes dans le réseau. La récursivité de ce dernier permet de construire facilement une architecture massivement parallèle. Une étude comparative a montré que seules les structures intégrant moins de 1024 nœuds présentent des caractéristiques équivalentes à celles des réseaux conventionnels (hypercube, grille,. . . ). L'existence de chemins redondants entre chaque paire de nœuds du réseau nous a poussé à faire une étude sur la tolérance aux pannes dans le MRN, ce qui a permis de montrer, en utilisant le concept des ensembles de pannes interdits, que le MRN pouvait tolérer jusqu'a 32 pannes simultanées sans se déconnecter. Parallèlement, une étude sur l'évolution du diamètre du réseau en présence de pannes a montré qu'il restait très proche du diamètre normal pour les structures intégrant moins de 1024 nœuds. Pour synchroniser les différentes horloges du réseau, une approche matérielle basée sur la hiérarchisation de la référence a été utilisée, permettant à chaque groupe de nœuds de se synchroniser par rapport a une horloge unique issue du niveau supérieur de la hiérarchie. Des liens dédiés à cette tache sont prévus, ce qui permet le contrôle des délais de propagation dans le réseau.
APA, Harvard, Vancouver, ISO, and other styles
37

Krawezik, Géraud. "Contribution à l'étude de la programmation des machines parallèles complexes." Paris 11, 2004. http://www.theses.fr/2004PA112160.

Full text
Abstract:
Cette thèse a pour but l'étude de la programmation des machines parallèles complexes destinées aux grands problèmes numériques. Elle s'intéresse principalement à trois points qui sont tout d'abord l'étude des langages standards de programmation parallèle et leur efficacité respective. Ensuite nous étudions une bibliothèque de programmation parallèle tolérante aux fautes et son environnement d'exécution. Enfin nous abordons le problème des langages prospectifs, avec tout d'abord la présentation de différents langages déjà existants et leurs caractéristiques respectives qui nous permettent d'arriver à la définition d'un nouveau langage. Dans la première partie, nous montrons que le modèle de programmation OpenMP dans le cadre des machines à mémoire partagée peut surpasser en terme de performances le langage MPI qui est actuellement le langage de référence en matière de parallélisme. Mais cela se fait au détriment de la facilité de programmation qui se veut le principal attrait d'OpenMP. Dans la partie suivante, nous présentons MPICH-V, une implémentation de MPI automatiquement tolérante aux pannes, et notamment son environnement d'exécution en en examinant trois aspects primordiaux qui sont le lancement distribué, les connexions entres les nœuds de calcul, et enfin la détection des fautes. Nous discutons différents choix techniques dans chacun des cas avant d'étendre ces propositions au cadre plus large des grilles de calcul. Dans la dernière partie enfin, nous abordons les langages parallèles prospectifs et leurs détails ainsi que des exemples de programmation, avant de proposer un nouveau langage, basé sur un mécanisme de mémoire partagée et des communications programmées
The goal of this thesis?is to study the programming of complex parallel machines, which are used to solve large scale numerical problems. It mainly concentrates in three points which are first the study of standard parallel languages and their respective efficiency. Then we will study a fault tolerant parallel programming labrary and its runtime. At last we will consider the future languages, with the presentation of already existing ones and their common caracteristics before presenting the definition of a new language. In the first part, we will show that the OpenMP tool in the case of shared memory machines enables the user to get more performance than with MPI which is now the standard of parallel programming. But this is done with a high programming effort which goes against the easyness intended in OpenMP. In the next part, we will present MPICH-V, an automatic fault-tolerant implementation, and especially its runtime, by presenting three caracteristics that are important for this part, which are the remote launching, the connection between nodes and the handling of fault detection. In each case we will discuss the possible technical choices before extending them to a grid environment. At last, we will present upcoming parallel languages with different examples of their usage, before presenting our own, based on a shared memory mechanism and programmed communications
APA, Harvard, Vancouver, ISO, and other styles
38

Pley, Julien. "Protocoles d'accord pour la gestion d'une grille de calcul dynamique." Rennes 1, 2007. ftp://ftp.irisa.fr/techreports/theses/2007/pley.pdf.

Full text
Abstract:
Nous présentons un système de gestion de grilles de calcul dynamique où les ressources fédérées sont mises à disposition par différentes institutions. Au sein d'un domaine, les ressources peuvent interagir de façon synchrone. Les interactions entre ressources de domaines distincts sont asynchrones. Une machine ou un domaine peut joindre et quitter la grille à tout moment, de manière délibérée, ou suite à une défaillance. Nous proposons une solution tolérante aux défaillances qui exploite cette structure hiérarchique pour résoudre les problèmes d'évolution de la composition de la grille et de placement des tâches avec équilibrage de charge. Chaque service est la composition d'un protocole synchrone et d'un protocole d'accord asynchrone qui est toujours une déclinaison du problème fondamental du Consensus. Nous définissons l'insensibilité aux suspicions erronées, une métrique inédite pour comparer des protocoles de Consensus utilisant des détecteurs de défaillances "Losange S"
We present a middleware for dynamic grids where the federated resources are provided by different institutions. Within a domain, the resources interact in a synchronous manner. Interactions between resources belonging to different domains are asynchronous. Every machine or domain can join or leave the grid at any time; due to failures, or on purpose. We propose a fault-tolerant solution which takes advantage of this hierarchical structure to solve the grid membership problem and the load-balanced task allocation problem. Each service is the composition of a synchronous protocol and an asynchronous agreement protocol which is always a variation of the fundamental Consensus problem. We define the "insensitivity to erroneous suspicions"; a new metric to compare different Consensus protocols based on Diamond S failure detectors
APA, Harvard, Vancouver, ISO, and other styles
39

Haddar, Mohamed Amine. "Codage d’algorithmes distribués d’agents mobiles à l’aide de calculs locaux." Thesis, Bordeaux 1, 2011. http://www.theses.fr/2011BOR14429/document.

Full text
Abstract:
De nos jours, les systèmes distribués doivent répondre de plus en plus à de nouvelles exigences de qualité de service et à l’émergence de nouvelles applications comme le calcul sur la grille ; ce qui généralement se traduit par des impératifs de dynamicité et de mobilité. Si des solutions satisfaisantes existent pour des environnements distribués statiques, elles sont inadaptées dans le cas où le système devient dynamique (mobilité, évolution, modification de composants). En effet, la conception d’algorithmes distribués est traditionnellement fondée sur l’hypothèse d’un réseau dont la topologie est statique. Notre objectif dans cette thèse est de définir et d’étudier un modèle à base d’agents mobiles pour l’implémentation et l’exécution d’algorithmes distribués codés par des calculs locaux.Ce modèle doit tenir en compte des pannes qui peuvent altérer le fonctionnement du système distribué. Il doit aussi améliorer les performances vis-à-vis des modèles classiques (à envoi de messages)
Today, distributed systems must satisfy increasinglynew requirements for quality of service and the emergence ofnew applications such as Grid Computing, whichgenerally results in requirements of dynamicity andmobility. If satisfactory solutions exist forstatic distributed environments, they are inadequate in the casewhere the system becomes dynamic (mobility, evolution,components change). Indeed, the design of distributed algorithms istraditionally based on the assumption of a network whosetopology is static. Our goal, in this thesis, is to defineand study a model based on mobile agents to implementand execute distributed algorithms encoded by local computations.This model must take into account failures that can alter thethe distributed system operation. It should also improveperformance vis-à-vis the classical models (message passing systems)
APA, Harvard, Vancouver, ISO, and other styles
40

Moataz, Fatima Zahra. "Vers des réseaux optiques efficaces et tolérants aux pannes : complexité et algorithmes." Thesis, Nice, 2015. http://www.theses.fr/2015NICE4077/document.

Full text
Abstract:
Nous étudions dans cette thèse des problèmes d’optimisation avec applications dans les réseaux optiques. Les problèmes étudiés sont liés à la tolérance aux pannes et à l’utilisation efficace des ressources. Les résultats obtenus portent principalement sur la complexité de calcul de ces problèmes. La première partie de cette thèse est consacrée aux problèmes de trouver des chemins et des chemins disjoints. La recherche d’un chemin est essentielle dans tout type de réseaux afin d’y établir des connexions et la recherche de chemins disjoints est souvent utilisée pour garantir un certain niveau de protection contre les pannes dans les réseaux. Nous étudions ces problèmes dans des contextes différents. Nous traitons d’abord les problèmes de trouver un chemin et des chemins lien ou nœud- disjoints dans des réseaux avec nœuds asymétriques, c’est-à-dire des nœuds avec restrictions sur leur connectivité interne. Ensuite, nous considérons les réseaux avec des groupes de liens partageant un risque (SRLG) en étoile : ensembles de liens qui peuvent tomber en panne en même temps suite à un événement local. Dans ce type de réseaux, nous examinons le problème de recherche des chemins SRLG-disjoints. La deuxième partie de cette thèse est consacrée au problème de routage et d’allocation de spectre (RSA) dans les réseaux optiques élastiques (EONs). Les EONs sont proposés comme la nouvelle génération des réseaux optiques et ils visent une utilisation plus efficace et flexible des ressources optiques. Le problème RSA est central dans les EONs. Il concerne l’allocation de ressources aux requêtes sous plusieurs contraintes
We study in this thesis optimization problems with application in optical networks. The problems we consider are related to fault-tolerance and efficient resource allocation and the results we obtain are mainly related to the computational complexity of these problems. The first part of this thesis is devoted to finding paths and disjoint paths. Finding a path is crucial in all types of networks in order to set up connections and finding disjoint paths is a common approach used to provide some degree of protection against failures in networks. We study these problems under different settings. We first focus on finding paths and node or link-disjoint paths in networks with asymmetric nodes, which are nodes with restrictions on their internal connectivity. Afterwards, we consider networks with star Shared Risk Link Groups (SRLGs) which are groups of links that might fail simultaneously due to a localized event. In these networks, we investigate the problem of finding SRLG-disjoint paths. The second part of this thesis focuses on the problem of Routing and Spectrum Assignment (RSA) in Elastic Optical Networks (EONs). EONs are proposed as the new generation of optical networks and they aim at an efficient and flexible use of the optical resources. RSA is the key problem in EONs and it deals with allocating resources to requests under multiple constraints. We first study the static version of RSA in tree networks. Afterwards, we examine a dynamic version of RSA in which a non-disruptive spectrum defragmentation technique is used. Finally, we present in the appendix another problem that has been studied during this thesis
APA, Harvard, Vancouver, ISO, and other styles
41

García-Gutiérrez, Luis Antonio. "Développement d'un contrôle actif tolérant aux défaillances appliqué aux systèmes PV." Thesis, Toulouse 3, 2019. http://www.theses.fr/2019TOU30071.

Full text
Abstract:
Cette thèse de doctorat aborde la problématique de la réalisation d'un système de contrôle actif de détection de défaut et diagnosis (FDD) pour un système de conversion photovoltaïque. Ce type de système de production d'énergie électrique est composé de panneaux solaires, d'un dispositif MPPT, d'un convertisseur de courant DC-DC, d'un onduleur DC-AC et d'une charge. Le système de contrôle actif à tolérance de pannes qui a été développé dans cette thèse est composé de deux étages : * Un étage assurant la fonction de diagnostic et comprenant les fonctions de détection de défauts, la fonction d'isolement de défauts, l'identification de défauts et l'estimation de l'ampleur du/des défaut(s) * Une fonction de reconfiguration du système photovoltaïque. Ce manuscrit est divisé en quatre chapitres : * Introduction au problème et révision de l'état de la technique * Modélisation mathématique du système photovoltaïque avec une validation expérimental de ce dernier effectué sur la plateforme PV de caractérisation du bâtiment réel ADREAM (Laboratoire LAAS-CNRS) * Conception et mise en œuvre du système de diagnostic de pannes du système photovoltaïque comprenant un Système actif à tolérance de pannes * Un système de diagnostic expérimental en cours de développement à l'aide d'un dispositif FPGA
This work contributes by developing an active fault tolerant control (AFTC) for Photovoltaic (PV) systems. The fault detection and diagnosis (FDD) methodology is based on the analysis of a model that compares real-time measurement. We use a high granularity PV array model in the FDD tool to allow faults to be detected in complex conditions. Firstly, the research focuses on fault detection in complex shadow conditions. A real-time approach is presented to emulate the electrical characteristics of PV modules under complex shadow conditions. Using a precise emulators approach is a real challenge to study the high non-linearity and the complexity of PV systems in partial shading. The real-time emulation was validated with simple experimental results under failure conditions to design specific fault-detection algorithms in a first sample. The second part of the research addresses the FDD method for DC/DC and DC/AC power converters that are connected to the grid. Primary results allowed us to validate the system's recovery for normal operating points after a fault with this complete AFTC approach. Emulations based on the simulation of distributed power converters, fault detection methodologies based on a model, and a hybrid diagnostician were then presented
APA, Harvard, Vancouver, ISO, and other styles
42

Lodygensky, Oleg. "Contribution aux infrastructures de calcul global : délégation inter plates-formes, intégration de services standards et application à la physique des hautes énergies." Phd thesis, Université Paris Sud - Paris XI, 2006. http://tel.archives-ouvertes.fr/tel-00147815.

Full text
Abstract:
La généralisation et les puissances aujourd'hui disponibles des ressources informatiques, ordinateurs, espaces de stockages, réseaux, permettent d'imaginer de nouvelles méthodes de travail ou de loisir, inconcevables, il y a encore peu. Les ordinateurs monolithiques centralisés, ont peu à peu laissé place à des architectures distribuées "client/serveur" qui se trouvent elles mêmes concurencées par de nouvelles organisations de systèmes distribués, les systèmes "pair à pair". Cette migration n'est pas le fait de spécialistes; les utilisateurs les moins avertis utilisent tous les jours ces nouvelles technologies, que ce soit pour échanger des courriers électroniques, à des fins commerciales à travers le "e-commerce" sur le Web, ou encore pour échanger des fichiers, hors de toute infrastructure, "d'égal à égal".
Les mondes du commerce, de l'industrie et de la recherche, ont bien compris les avantages et les enjeux de cette révolution et investissent massivement dans la recherche et le développement autour de ces nouvelles technologies, que l'on appelle les "grilles", qui désignent des ressources informatiques globales et qui ouvrent une nouvelle approche. Une des disciplines autour des grilles concerne le calcul. Elle est l'objet des travaux présentés ici.

Sur le campus de l'Université Paris-Sud, à Orsay, une synergie est née entre le Laboratoire de Recherche en Informatique (LRI) d'une part, et le Laboratoire de l'Accélérateur Linéaire (LAL), d'autre part, afin de mener à bien, ensemble, des travaux sur les infrastructures de grille qui ouvrent de nouvelles voies d'investigation pour le premier et de nouvelles méthodes de travail pour le second.

Les travaux présentés dans ce manuscrit sont le résultat de cette collaboration pluridisciplinaire. Ils se sont basés sur XtremWeb, la plate-forme de recherche et de production de calcul global développée au LRI. Nous commençons par présenter un état de l'art des systèmes distribués à grande Èchelle, ses principes fondamentaux, son architecture basée sur les services.
Puis nous introduisons XtremWeb et détaillons les modifications que nous avons dû apporter, tant au niveau de son architecture que de son implémentation, afin de mieux répondre aux exigences et aux besoins de ce type de plate-forme. Nous présentons ensuite deux études autour de cette plate-forme permettant de généraliser l'utilisation de ressources inter grilles, d'une part, et d'utiliser sur une grille des services qui n'ont pas été prévus à cette fin, d'autre part. Enfin, nous présentons l'utilisation, les problèmes à résoudre et les avantages à tirer de notre plate-forme par la communauté de recherche en physique des hautes énergies, grande consommatrice de ressources informatiques.
APA, Harvard, Vancouver, ISO, and other styles
43

Durand, Anaïs. "Algorithmes distribués efficaces adaptés à un contexte incertain." Thesis, Université Grenoble Alpes (ComUE), 2017. http://www.theses.fr/2017GREAM037/document.

Full text
Abstract:
Les systèmes distribués sont de plus en plus grands et complexes, alors que leur utilisation s'étend à de nombreux domaines (par exemple, les communications, la domotique, la surveillance, le ``cloud''). Par conséquent, les contextes d'exécution des systèmes distribués sont très divers. Dans cette thèse, nous nous focalisons sur des contextes incertains, autrement dit, le contexte n'est pas complètement connu au départ ou il est changeant. Plus précisément, nous nous focalisons sur deux principaux types d'incertitudes : une identification incomplète des processus et la présence de fautes. L'absence d'identification est fréquente dans de grands réseaux composés d'appareils produits et déployés en masse. De plus, l'anonymat est souvent une demande pour la sécurité et la confidentialité. De la même façon, les grands réseaux sont exposés aux pannes comme la panne définitive d'un processus ou une perte de connexion sans fil. Néanmoins, le service fourni doit rester disponible.Cette thèse est composée de quatre contributions principales. Premièrement, nous étudions le problème de l'élection de leader dans les anneaux unidirectionnels de processus homonymes (les processus sont identifiés mais leur ID n'est pas forcément unique). Par la suite, nous proposons un algorithme d'élection de leader silencieux et autostabilisant pour tout réseau connecté. Il s'agit du premier algorithme fonctionnant sous de telles conditions qui stabilise en un nombre polynomial de pas de calcul. La troisième contribution est une nouvelle propriété de stabilisation conçue pour les réseaux dynamiques qui garantit des convergences rapides et progressives après des changements topologiques. Nous illustrons cette propriété avec un algorithme de synchronisation d'horloges. Finalement, nous considérons la question de la concurrence dans les problèmes d'allocation de ressources. En particulier, nous étudions le niveau de concurrence qui peut être atteint dans une grande classe de problèmes d'allocation de ressources, l'allocation de ressources locales
Distributed systems become increasingly wide and complex, while their usage extends to various domains (e.g., communication, home automation, monitoring, cloud computing). Thus, distributed systems are executed in diverse contexts. In this thesis, we focus on uncertain contexts, i.e., the context is not completely known a priori or is unsettled. More precisely, we consider two main kinds of uncertainty: processes that are not completely identified and the presence of faults. The absence of identification is frequent in large networks composed of massively produced and deployed devices. In addition, anonymity is often required for security and privacy. Similarly, large networks are exposed to faults (e.g, process crashes, wireless connection drop), but the service must remain available.This thesis is composed of four main contributions. First, we study the leader election problem in unidirectional rings of homonym processes, i.e., processes are identified but their ID is not necessarily unique. Then, we propose a silent self-stabilizing leader election algorithm for arbitrary connected network. This is the first algorithm under such conditions that stabilizes in a polynomial number of steps. The third contribution is a new stabilizing property designed for dynamic networks that ensures fast and gradual convergences after topological changes. We illustrate this property with a clock synchronizing algorithm. Finally, we consider the issue of concurrency in resource allocation problems. In particular, we study the level of concurrency that can be achieved in a wide class of resource allocation problem, i.e., the local resource allocation
APA, Harvard, Vancouver, ISO, and other styles
44

Hoarau, William. "Injection de fautes dans les systèmes distribués." Paris 11, 2008. http://www.theses.fr/2008PA112152.

Full text
Abstract:
Dans un réseau constitué de plusieurs milliers d’ordinateurs, l’apparition de fautes est inévitable. Etre capable de tester le comportement d’un programme distribué dans un environnement où l’on peut contrôler les fautes (comme le crash d’un processus) est une fonctionnalité importante pour le déploiement de programmes fiables. Dans cette thèse, nous présentons FAIL (pour FAult Injection Language), un langage qui permet d’élaborer des scénarios de fautes complexes relativement facilement, tout en déchargeant l’utilisateur de l’écriture de code de bas niveau. En outre, il est possible de construire des scénarios de fautes probabilistes (pour des tests quantitatifs) ou déterministes et reproductibles (pour étudier le comportement de l’application dans des cas particuliers). Ensuite, nous présentons FCI (FAIL Cluster Implementation), notre injecteur de fautes, qui consiste en un compilateur, une bibliothèque d’exécution et une plate-forme pour l’injection de fautes dans des applications distribuées. FCI est capable de s’interfacer avec de nombreux langages de programmation sans nécessiter la modification de leur code source. Nous présentons également les tests que nous avons conduit sur différentes applications distribuées
In large scale distributed systems, the occurrence of faults is unavoidable. Being able to control faults (such as the crash of a process) is an important tool to deploy reliable distributed systems. In this thesis, we present FAIL (for Fault Injection Language), a language that permits to elaborate complex fault scenarios easily. It is possible to design probabilistic scenarios (for quantitative tests) as well as deterministic reproduciple ones. We then present FAIL-FCI (FAIL Cluster Implementation), our fault injector, that consists in a compiler, a runtime library, and a middleware platform for distributed fault-injection. FCI can be interfaced with various programming languages and does not require source code modification. We also present various tests we conducted on several distributed applications
APA, Harvard, Vancouver, ISO, and other styles
45

Mouafo, Tchinda Yves. "Robustesse des applications temps-réel multicoeurs : techniques de construction d'un ordonnacement équitable tolérant aux pannes matérielles." Thesis, Chasseneuil-du-Poitou, Ecole nationale supérieure de mécanique et d'aérotechnique, 2017. http://www.theses.fr/2017ESMA0015/document.

Full text
Abstract:
Cette thèse propose des techniques de construction d'une séquence d'ordonnancement valide par un algorithme équitable pour des systèmes temps-réel multicoeurs subissant des pannes processeurs permanentes. Selon la nature des tâches les concepteurs peuvent allouer ou pas du temps supplémentaire pour récupérer l'exécution perdue. Dans un premier temps, nous traitons le cas de la défaillance d'un seul coeur. Nous montrons alors que s'il n'y a pas d'allocation de temps supplémentaire, prévoir un coeur de plus que le minimum nécessaire permet de construire une séquence valide : c'est la Technique de la Redondance Matérielle Limitée. Toutefois, si une telle allocation s'impose, nous proposons trois techniques : la Technique des Sous-tâches de Substitution qui augmente le WCET des tâches afin de prévoir du temps additionnel en remplacement du temps perdu, la Technique Contraindre puis Relâcher qui crée une marge de temps entre le délai critique et la période d'une tâche pour rattraper l'exécution perdue et la Technique du Flux Apériodique (TFA) qui réordonnance l'exécution perdue dans les unités de temps creux équitablement réparties. Ensuite, l'utilisation conjointe de ces techniques est envisagée en fonction de la nature des tâches impactées. Enfin, le cas de la défaillance de plusieurs coeurs est étudié. Pour ajuster la charge du système au nombre de coeurs fonctionnels, deux approches sont proposées : le changement de mode de criticité qui modifie les paramètres temporels de certaines tâches et l'abandon de certaines tâches en fonction de leur importance dans le système
This thesis proposes several techniques to build a valid schedule with a Pfair algorithm for multicore real-time systems despite permanent processor failures. Depending on the nature of the tasks, additional time may be allocated or not to recover the lost execution. First, we consider a single core failure. We then show that if no additional time is allocated, the use of a single more core than the required minimum provides a valid schedule : it is the Limited Hardware Redundancy Technique. However, if full recovery is mandatory, we propose three techniques : the Substitute Subtasks Technique which increases the WCET to provide additionnal time which can be used to recover the lost time, the Constrain and Release Technique which creates a time margin between each task's deadline and the following period which can be used to recover the lost execution and the Aperiodic Flow Technique which reschedules the lost execution within the idle time units. Then, these techniques are mixed to adapt the scheduling behaviour to the nature of the impacted tasks. Finally, the case of the failure of several cores is studied.To adapt the system load to the number of remaining functionnal cores we use the criticality mode change which modifies the temporal parameters of some tasks or we discard some tasks according to their importance
APA, Harvard, Vancouver, ISO, and other styles
46

Khorguani, Ana. "Gestion de données persistantes efficace pour des serveurs hybrides avec mémoire non-volatile." Electronic Thesis or Diss., Université Grenoble Alpes, 2023. http://www.theses.fr/2023GRALM069.

Full text
Abstract:
Les technologies de mémoire non-volatile (NVMM) offrent une excellente opportunité pour créer des programmes rapides et tolérants aux fautes, car elles fournissent un stockage persistant utilisable comme mémoire principale. Cependant, puisque les caches du processeur restent volatiles, des solutions sont nécessaires pour récupérer un état cohérent à partir de la NVMM après un crash. Dans cette thèse, nous proposons des techniques de sauvegarde de points de reprise en NVMM afin de rendre les programmes multi-threads tolérants aux fautes. Nous nous concentrons principalement sur l'optimisation des performances en fonctionnement normal et étudions des solutions qui écrivent périodiquement les structures de données persistantes dans la NVMM.Notre premier travail, ResPCT, se concentre sur une architecture mémoire où une seule copie des données est enregistrée directement dans la NVMM. ResPCT utilise la journalisation In-Cache-Line pour suivre efficacement les modifications pendant l'exécution du programme et pour restaurer un état cohérent après un crash. L'API ResPCT permet aux programmeurs de positionner des points de redémarrage dans leur programme, ce qui simplifie l'identification de l'état du programme persistant et peut également contribuer à améliorer les performances. Des expériences menées avec des benchmarks et des applications représentatives montrent que ResPCT surpasse les solutions de l'état de l'art.L'évaluation de ResPCT montre que s'appuyer sur une seule copie des données en NVMM peut limiter les performances. Par conséquent, dans la deuxième partie de notre étude, nous examinons une approche alternative qui intègre la DRAM dans l'architecture mémoire. Le système proposé implique de maintenir une copie de travail des données dans la DRAM, ce qui permet au programme de fonctionner sur cette copie plutôt que sur la version plus lente stockée dans la NVMM. Dans ce travail, nous comparons plusieurs techniques d'écriture des données de la DRAM vers la NVMM lors de la sauvegarde d'un point de reprise. Nos résultats montrent que même si certaines techniques présentent des avantages par rapport aux autres, le choix de la méthode la plus adaptée pour transférer les modifications de la DRAM vers la NVMM dépend des caractéristiques spécifiques des applications
Non-volatile memory (NVMM) technologies are a great opportunity to build fast fault-tolerant programs, as they provide persistent storage in main memory. However, since the processor caches remain volatile, solutions are needed to recover a consistent state from NVMM after a crash. In this thesis, we propose fast checkpointing approaches in NVMM to make multi-threaded programs fault tolerant. We focus on achieving high failure-free performance by flushing persistent data structures to NVMM periodically.Our first work, ResPCT, considers a memory architecture where a single copy of the data is saved directly in NVMM. ResPCT uses In-Cache-Line logging to efficiently track modifications during failure-free execution, and to restore a consistent state after a crash. The ResPCT API enables programmers to position restart points in their program, which simplifies the identification of the persistent program state and can also help improving performance. Experiments with representative benchmarks and applications, show that ResPCT outperforms state-of-the-art solutions.Our evaluation of ResPCT shows that relying on a single copy of the data in NVMM can limit performance. Therefore, in the second part of our study, we consider an alternative approach that integrates DRAM into the memory architecture. The proposed system involves maintaining a working copy of the data in DRAM, enabling the program to operate on this copy rather than on the slower version stored in NVMM. In this work, we compare several techniques to write data from DRAM to NVMM during checkpoints. Our results show that even though some techniques have advantages over others, choosing the most suitable method for transferring modifications from DRAM to NVMM depends on the specific characteristics of the applications
APA, Harvard, Vancouver, ISO, and other styles
47

Hanna, Fouad. "Etude et développement du nouvel algorithme distribué de consensus FLC permfettant de maintenir la cohérence des données partagées et tolérant aux fautess." Thesis, Besançon, 2016. http://www.theses.fr/2016BESA2051.

Full text
Abstract:
De nos jours, le travail collaboratif a pris une place très importante dans plusieurs domaines, et notamment dans le domaine du télédiagnostic médical. Et la cohérence des données partagées est un enjeu primordial dans ce type d'application. De plus, pour garantir la cohérence des données, l'utilisation d'un algorithme de consensus est un élément indispensable dans les plateformes collaboratives. Nous présentons ici un nouvel algorithme de consensus, nommé FLC, permettant de garantir la cohérence des données partagées dans les systèmes distribués collaboratifs complètement asynchrones. Notre algorithme est tolérant aux pannes et a pour objectif d'améliorer la performance de consensus et notamment lorsque les processus participants tombent en panne. Ce nouvel algorithme utilise l'oracle leader Omega pour contourner le résultat d'impossibilité du théorème FLP. L'algorithme est décentralisé et adopte le modèle de pannes crash-stop. L'algorithme FLC s'appuie sur deux idées principales. La première propose de réaliser, au début de chaque cycle d'exécution, une phase simple d'élection de processus leader garantissant l'existence d'un seul leader par cycle. La deuxième bénéficie de la stabilité du système et plus particulièrement du fait que le processus leader ne tombe pas en panne d'un consensus à l'autre. Les performances de notre algorithme ont été analysées et comparées à celles des algorithmes les plus connus dans le domaine. Les résultats obtenus par simulation en utilisant la plateforme Neko ont montré que notre algorithme donne les meilleures performances lorsque le réseau utilisé est un réseau multicast et qu'aucun processus ne tombent en panne ainsi que pour les situations dans lesquelles l'algorithme de consensus subit une ou plusieurs pannes de processus coordinateurs/leaders
Nowadays, collaborative work took a very important place in many fields and particularly in the medicaltelediagnosis field. The consistency of shared data is a key issue in this type of applications. Moreover, itis essential to use a consensus algorithm to ensure data consistency in collaborative platforms. We presenthere our new consensus algorithm FLC that helps to ensure data consistency in asynchronous collaborativedistributed systems. Our algorithm is fault tolerant and aims to improve the performance of consensus ingeneral and particularly in the case of process crashes. The new algorithm uses the leader oracle tocircumvent the impossibility result of the FLP theorem. It is decentralized and considers the crash-stop failuremodel. The FLC algorithm is based on two main ideas. The first is to perform, at the beginning of eachround, a simple election phase guaranteeing the existence of only one leader per round. The second is totake advantage of system stability and more particularly of the fact that the leader does not crash betweentwo consecutive consensus runs. The performance of our algorithm was analyzed and compared to the mostknown algorithms in the domain. The results obtained by simulation, using the Neko platform, demonstratedthat our algorithm gave the best performance when using a multicast network in the best case scenario and insituations where the algorithm undergoes one or more crashes of coordinators/leaders processes
APA, Harvard, Vancouver, ISO, and other styles
48

Franca, Rezende Tuanir. "Leaderless state-machine replication : from fail-stop to Byzantine failures." Electronic Thesis or Diss., Institut polytechnique de Paris, 2021. http://www.theses.fr/2021IPPAS016.

Full text
Abstract:
Les services distribués modernes doivent être hautement disponibles, car nos sociétés en sont de plus en plus dépendantes. La manière la plus courante d'obtenir une haute disponibilité est de répliquer les données dans plusieurs répliques du service. De cette façon, le service reste opérationnel en cas de pannes, car les clients peuvent être relayés vers d'autres répliques qui fonctionnent. Dans les systèmes distribués, la technique classique pour mettre en œuvre de tels services tolérants aux pannes est appelée réplication de machine d'état (State-Machine Replication, SMR), où un service est défini comme une machine d'état déterministe et chaque réplique conserve une copie locale de la machine. Pour garantir la cohérence du service, les répliques se coordonnent entre elles et conviennent de l'ordre des transitions à appliquer à leurs copies de la machine d'état. La réplication effectuée par les services Internet modernes s'étend sur plusieurs lieux géographiques (géo-réplication). Cela permet une disponibilité accrue et une faible latencea, puisque les clients peuvent communiquer avec la réplique géographique la plus proche. En raison de leur dépendance avec une réplique leader, coordonnant les changements de transition, les protocoles SMR classiques offrent une évolutivité et une disponibilité limitées dans ce contexte. Pour résoudre ce problème, les protocoles récents suivent plutôt une approche sans leader, dans laquelle chaque réplique est capable de progresser en utilisant un quorum de ses pairs. Ces nouveaux protocoles sans leader sont complexes et chacun d'entre eux présente une approche ad-hoc de l'absence de leader. La première contribution de cette thèse est un framework qui capture l'essence de SMR sans leader (Leaderless SMR) et la formalisation de certaines de ses limites. En raison de la nature de plus en plus sensible des services répliqués, l'utilisation de simples pannes bénignes n'est plus suffisante. Les recherches récentes se dirigent vers le développement de protocoles qui supportent le comportement arbitraire de certaines répliques (pannes Byzantines) et qui prospèrent également dans un environnement géo-répliqué. Les blockchains sont un exemple de ce nouveau type de services répliqués sensibles qui a fait l'objet de nombreuses recherches. Les blockchains sont alimentées par des protocoles de réplication byzantins adaptés pour fonctionner sur des centaines, voire des milliers de répliques. Lorsque le contrôle de membership à ces répliques est ouvert, c'est-à-dire que n'importe qui peut faire fonctionner une réplique, on dit que la blockchain est permissionless. Dans le cas inverse, lorsque l'adhésion est contrôlée par un ensemble d'entités connues, comme des entreprises, nous disons que la blockchain est permissioned. Les blockchains permissioned utilisent des protocoles SMR byzantins. Comme ces protocoles utilisent un leader, ils souffrent de problèmes d'évolutivité et de disponibilité, de la même manière que leurs homologues non byzantins. Dans la deuxième partie de cette thèse, nous adaptons notre framework pour supporter les pannes byzantines et présentons le premier framework pour le SMR byzantin sans leader. De plus, nous montrons que lorsqu'il est correctement instancié, il permet de contourner les problèmes de scalabilité dans les protocoles SMR byzantins dirigés par des leaders pour les permissioned blockchains
Modern distributed services are expected to be highly available, as our societies have been growing increasingly dependent on them. The common way to achieve high availability is through the replication of data in multiple service replicas. In this way, the service remains operational in case of failures as clients can be relayed to other working replicas. In distributed systems, the classic technique to implement such fault-tolerant services is called State-Machine Replication (SMR), where a service is defined as a deterministic state-machine and each replica keeps a local copy of the machine. To guarantee that the service remains consistent, replicas coordinate with each other and agree on the order of transitions to be applied to their copies of the state-machine. The replication performed by modern Internet services spans across several geographical locations (geo-replication). This allows for increased availability and low latency, since clients can communicate with the closest geo-graphical replica. Due to their reliance on a leader replica, classical SMR protocols offer limited scalability and availability under this setting. To solve this problem, recent protocols follow instead a leaderless approach, in which each replica is able to make progress using a quorum of its peers. These new leaderless protocols are complex and each one presents an ad-hoc approach to leaderlessness. The first contribution of this thesis is a framework that captures the essence of Leaderless State-Machine Replication (Leaderless SMR) and the formalization of some of its limits. Due to the increasingly sensitive nature of replicated services, leveraging simple benign failures is no longer enough. Recent research is headed towards developing protocols that support arbitrary behavior of some replicas (Byzantine failures) and that also thrive in a geo-replicated environment. An example of this new type of sensitive replicated services that has been the focus of a lot of research are blockchains. Blockchains are powered by Byzantine replication protocols adapted to work over hundreds or even thousands of replicas. When the membership control over such replicas is open, that is, anyone can run a replica, we say the blockchain is permissionless. In the converse case, when the membership is controlled by a set of known entities like companies, we say the blockchain is permissioned. When such Byzantine protocols follow the classic leader-driven approach they suffer from scalability and availability issues, similarly to their non-byzantine counterparts. In the second part of this thesis, we adapt our framework to support Byzantine failures and present the first framework for Byzantine Leaderless SMR. Furthermore, we show that when properly instantiated it allows to sidestep the scalability problems in leader-driven Byzantine SMR protocols for permissioned blockchains
APA, Harvard, Vancouver, ISO, and other styles
49

Maurer, Alexandre. "Communication fiable dans les réseaux multi-sauts en présence de fautes byzantines." Thesis, Paris 6, 2014. http://www.theses.fr/2014PA066347/document.

Full text
Abstract:
A mesure que les réseaux s'étendent, ils deviennent de plus en plus susceptibles de défaillir. En effet, leurs nœuds peuvent être sujets à des attaques, pannes, corruptions de mémoire... Afin d'englober tous les types de fautes possibles, nous considérons le modèle le plus général possible : le modèle Byzantin, où les nœuds fautifs ont un comportement arbitraire (et donc, potentiellement malveillant). De telles fautes sont extrêmement dangereuses : un seul nœud Byzantin, s'il n'est pas neutralisé, peut déstabiliser l'intégralité du réseau.Nous considérons le problème d'échanger fiablement des informations dans un réseau multi-Sauts malgré la présence de telles fautes Byzantines. Des solutions existent mais nécessitent un réseau dense, avec un grand nombre de voisins par nœud. Dans cette thèse, nous proposons des solutions pour les réseaux faiblement connectés, tels que la grille, où chaque nœud a au plus 4 voisins. Dans une première partie, nous acceptons l'idée qu'une minorité de nœuds corrects échouent à communiquer fiablement. En contrepartie, nous proposons des solutions qui tolèrent un grand nombre de fautes Byzantines dans les réseaux faiblement connectés. Dans une seconde partie, nous proposons des algorithmes qui garantissent une communication fiable entre tous les nœuds corrects, pourvu que les nœuds Byzantins soient suffisamment distants. Enfin, nous généralisons des résultats existants à de nouveaux contextes : les réseaux dynamiques, et les réseaux de taille non-Bornée
As modern networks grow larger and larger, they become more likely to fail. Indeed, their nodes can be subject to attacks, failures, memory corruptions... In order to encompass all possible types of failures, we consider the most general model of failure: the Byzantine model, where the failing nodes have an arbitrary (and thus, potentially malicious) behavior. Such failures are extremely dangerous, as one single Byzantine node, if not neutralized, can potentially lie to the entire network. We consider the problem of reliably exchanging information in a multihop network despite such Byzantine failures. Solutions exist but require a dense network, where each node has a large number of neighbors. In this thesis, we propose solutions for sparse networks, such as the grid, where each node has at most 4 neighbors. In a first part, we accept that some correct nodes fail to communicate reliably. In exchange, we propose quantitative solutions that tolerate a large number of Byzantine failures, and significantly outperform previous solutions in sparse networks. In a second part, we propose algorithms that ensure reliable communication between all correct nodes, provided that the Byzantine nodes are sufficiently distant from each other. At last, we generalize existing results to new contexts: dynamic networks, and networks with an unbounded diameter
APA, Harvard, Vancouver, ISO, and other styles
50

Tixeuil, Sébastien. "Auto-stabilisation Efficace." Phd thesis, Université Paris Sud - Paris XI, 2000. http://tel.archives-ouvertes.fr/tel-00124843.

Full text
Abstract:
Quand un système réparti est sujet à des défaillances transitoires qui modifient arbitrairement son état, il est crucial de pouvoir retrouver un comportement correct au bout d'un temps fini. L'auto-stabilisation présente une telle garantie, mais en général au prix de ressources importantes. Dans cette thèse, notre démarche a consisté à minimiser ces ressources lorsque cela était possible.

Nous avons développé le concept de détecteur de défaillances transitoires, des oracles appelés par les processeurs du système, qui indiquent si des défaillances transitoires sont survenues, en un temps constant. Notre implantation permet de classifier les problèmes classiques suivant les ressources spécifiques nécessaires à la détection d'une erreur. Pour les tâches statiques, une suite naturelle a été de montrer qu'une condition sur le code localement exécuté par chaque processeur pouvait être suffisante pour garantir l'auto-stabilisation du système tout entier, indépendamment des hypothèses d'exécution et de la topologie du graphe de communication. Du fait que l'algorithme n'est pas modifié, il est forcément sans surcoût. De manière duale, nous avons développé des outils de synchronisation permettant de construire des algorithmes auto-stabilisants pour des spécifications dynamiques avec un surcoût en mémoire constant, c'est à dire indépendant de la taille du réseau. En outre, l'un des algorithmes présentés est instantanément stabilisant. Enfin, nous avons présenté une technique générale pour réduire systématiquement le coût des communications, en garantissant un délai de retransmission borné, et nous avons donné un cadre général ainsi que des outils d'implantation pour écrire des algorithmes auto-stabilisants dans ce contexte.
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography