To see the other types of publications on this topic, follow the link: Stockage de données dans l’ADN.

Dissertations / Theses on the topic 'Stockage de données dans l’ADN'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 39 dissertations / theses for your research on the topic 'Stockage de données dans l’ADN.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Dimopoulou, Melpomeni. "Techniques de codage pour le stockage à long terme d’images numériques dans l’ADN synthétique." Thesis, Université Côte d'Azur, 2020. http://www.theses.fr/2020COAZ4073.

Full text
Abstract:
L’explosion de la quantité de données est l’un des plus grands défis de l'évolution numérique, entraînant une croissance de la demande de stockage à un rythme tel qu'elle ne peut pas rivaliser avec les capacités réelles des périphériques. L'univers numérique devrait atteindre plus de 175 zettaoctets d'ici 2025, tandis que le 80% de ces données est rarement consultée (données froides), mais archivée sur des bandes magnétiques pour des raisons de sécurité et de conformité réglementaire. Les dispositifs de stockage conventionnels ont une durée de vie limitée de 10 à 20 ans et doivent donc être fréquemment remplacés pour garantir la fiabilité des données, un processus qui est coûteux en termes d'argent et d'énergie. L'ADN est un candidat très prometteur pour l'archivage à long terme de données « froides » pendant des siècles voire plus à condition que l'information soit encodée dans un flux quaternaire constitué des symboles A, T, C, G, pour représenter les 4 composants de la molécule d'ADN, tout en respectant certaines contraintes d'encodage importantes. Dans cette thèse, nous présentons de nouvelles techniques de codage pour le stockage efficace d'images numériques dans l'ADN. Nous avons implémenté un nouvel algorithme de longueur fixe pour la construction d'un code quaternaire robuste qui respecte les contraintes biologiques et proposé deux fonctions de "mapping" différentes pour permettre une flexibilité par rapport aux besoins d'encodage. De plus, l'un des principaux défis du stockage des données dans l’ADN étant le coût élevé de la synthèse, nous faisons une toute première tentative pour introduire une compression contrôlée dans la solution de codage proposée. Le codec proposé est compétitif par rapport à l'état de l'art. En outre, notre solution de codage / décodage de bout en bout a été expérimentée dans une expérience de laboratoire humide pour prouver la faisabilité de l'étude théorique dans la pratique
Data explosion is one of the greatest challenges of digital evolution, causing the storage demand to grow at such a rate that it cannot compete with the actual capabilities of devices. The digital universe is forecast to grow to over 175 zettabytes by 2025 while 80% is infrequently accessed (“cold” data), yet safely archived in off-line tape drives due to security and regulatory compliance reasons. At the same time, conventional storage devices have a limited lifespan of 10 to 20 years and therefore should be frequently replaced to ensure data reliability, a process which is expensive both in terms of money and energy. Recent studies have shown that due to its biological properties, DNA is a very promising candidate for the long-term archiving of “cold” digital data for centuries or even longer under the condition that the information is encoded in a quaternary stream made up of the symbols A, T, C and G, to represent the 4 components of the DNA molecule, while also respecting some important encoding constraints. Pioneering works have proposed different algorithms for DNA coding leaving room for further improvement. In this thesis we present some novel image coding techniques for the efficient storage of digital images into DNA. We implemented a novel fixed length algorithm for the construction of a robust quaternary code that respects the biological constraints and proposed two different mapping functions to allow flexibility according to the encoding needs. Furthermore, one of the main challenges of DNA data storage being the expensive cost of DNA synthesis, we make a very first attempt to introduce controlled compression in the proposed encoding workflow. The, proposed codec is competitive compared to the state of the art. Furthermore, our end-to-end coding/decoding solution has been experimented in a wet lab experiment to prove feasibility of the theoretical study in practice
APA, Harvard, Vancouver, ISO, and other styles
2

Berton, Chloé. "Sécurité des données stockées sur molécules d’ADN." Electronic Thesis or Diss., Ecole nationale supérieure Mines-Télécom Atlantique Bretagne Pays de la Loire, 2024. http://www.theses.fr/2024IMTA0431.

Full text
Abstract:
La quantité de données numériques produites dans le monde chaque année augmente exponentiellement et les supports actuels de stockage atteignent leurs limites. Dans ce contexte, le stockage de données sur molécules d'ADN est très prometteur. Stockant jusqu’à 10¹⁸ octets par gramme d'ADN pour une consommation d'énergie quasi nulle, il a une durée de vie 100 fois plus longue que les disques durs. Cette technologie de stockage étant en développement, il est opportun d’y intégrer nativement des mécanismes pour sécuriser les données. C’est l’objet de cette thèse. Notre première contribution est une analyse des risques de l’ensemble de la chaîne de stockage, qui nous a permis d’identifier des vulnérabilités des procédés numériques et biologiques, en termes de confidentialité, d’intégrité, de disponibilité et de traçabilité. Une seconde contribution est l’identification d’opérateurs élémentaires permettant des manipulations simples de l’ADN. Avec ceux-ci, nous avons développé notre troisième contribution, une solution de chiffrement DNACipher qui impose un déchiffrement biomoléculaire des molécules avant de pouvoir lire les données correctement. Cette solution, qui repose sur des enzymes, a nécessité le développement d’un codage des données numériques en séquences ADN appelée DSWE ; notre quatrième contribution. Cet algorithme respecte les contraintes liées aux procédés biologiques (e.g. homopolymères) et à notre DNACipher. Enfin, notre dernière contribution est une validation expérimentale de notre chaîne de stockage sécurisée. C’est la première preuve de concept montrant qu’il est possible de sécuriser ce nouveau support de stockage sur la base de manipulations biomoléculaires
The volume of digital data produced worldwide every year is increasing exponentially, and current storage solutions are reaching their limits. In this context, data storage on DNA molecules holds great promise. Storing up to 10¹⁸ bytes per gram of DNA for almost no energy consumption, it has a lifespan 100 times longer than hard disks. As this storage technology is still under development, the opportunity presents itself to natively integrate data security mechanisms. This is the aim of this thesis. Our first contribution is a risk analysis of the entire storage chain, which has enabled us to identify vulnerabilities in digital and biological processes, particularly in terms of confidentiality, integrity, availability and traceability. A second contribution is the identification of elementary biological operators for simple manipulations of DNA. Using these operators, we have developed a DNACipher encryption solution that requires biomolecular decryption (DNADecipher) of the molecules before the data can be read correctly. This third contribution, based on enzymes, required the development of a coding algorithm for digital data into DNA sequences, a contribution called DSWE. This algorithm respects the constraints of biological processes (e.g. homopolymers) and our encryption solution. Our final contribution is an experimental validation of our secure storage chain. This is the first proof of concept showing that it is possible to secure this new storage medium using biomolecular manipulations
APA, Harvard, Vancouver, ISO, and other styles
3

Bouabache, Fatiha. "Stockage fiable des données dans les grilles, application au stockage des images de checkpoint." Paris 11, 2010. http://www.theses.fr/2010PA112329.

Full text
Abstract:
Les techniques de tolérance aux fautes basées sur les points de reprise s'appuient principalement sur la fiabilité du stockage des images de checkpoint. Dans le cas où ces images ne seraient pas disponibles, le redémarrage du système échoue. L'objectif de cette thèse est de proposer des solutions qui garantissent le stockage fiable et efficace des données en général et des images de checkpoint en particulier. Par fiable, nous voulons dire quelque soit le scénario de pannes qui se produit, du moment qu'il respecte les hypothèses faites par les algorithmes, les images restent accessibles. Et nous entendons par efficace, minimiser le temps nécessaire au stockage des images et donc le temps de transfert. Ceci permettra de réduire le temps d'exécution global des vagues de checkpoint. Pour garantir ces deux points, nous proposons : 1. Un protocole de checkpoint coordonné qui exploite la localisation des images de checkpoint afin de réduire au maximum les communications inter-cluster ; 2. Un service de stockage distribué et structuré en une architecture à trois couches : a) La couche réplication : afin de garantir la fiabilité des données stockées, nous proposons de répliquer les différentes images sur un certain nombre de serveur. Dans cette direction, nous avons proposé deux techniques de réplication hiérarchique adaptées à l'architecture considérée. B) La couche planification : à ce niveau, nous avons travaillé sur l'efficacité du stockage en réduisant le temps de transfert des données sur le réseau. Pour cela, nous proposons d'ordonnancer les transferts au niveau des sources. C) L'outil d'ordonnancement, implémentant le plan de transfert tel que calculé par la couche supérieure
Rollback/recovery solutions rely on checkpoint storage reliability (after a failure, if the checkpoint images are not available, the rollback operation fails). The goal of this thesis is to propose a reliable and an efficient checkpoint storage service. By reliable, we mean that whatever the scenario of failures is, as long as it respects the assumptions made by the algorithms, the checkpoint images are still available. And we mean by efficient, minimizing the time required to transfer and to store the checkpoint images. This will minimize the global execution time of the checkpoint waves. To ensure those two points (reliability and efficiency), we propose: 1. A new coordinated checkpoint protocol which tolerates checkpoint server failures and clusters failures, and ensures a checkpoint storage reliability in a grid environment; 2. A distributed storage service structured on three layers architecture: a) The replication layer: to ensure the checkpoint storage reliability, we propose to replicate the images over the network. Ln this direction, we propose two hierarchical replication strategies adapted to the considered architecture and that exploit the locality of checkpoint images in order to minimize inter-cluster communication. B) The scheduling layer: at this level we work on the storage efficiency by reducing the data transfer time. We propose an algorithm based on the uniform random sampling of possible schedules. C) The scheduling engine: at this layer, we develop a tool that implements the scheduling plan calculated in the scheduling layer
APA, Harvard, Vancouver, ISO, and other styles
4

Obame, Meye Pierre. "Sûreté de fonctionnement dans le nuage de stockage." Thesis, Rennes 1, 2016. http://www.theses.fr/2016REN1S091/document.

Full text
Abstract:
La quantité de données stockées dans le monde ne cesse de croître et cela pose des challenges aux fournisseurs de service de stockage qui doivent trouver des moyens de faire face à cette croissance de manière scalable, efficace, tout en optimisant les coûts. Nous nous sommes intéressés aux systèmes de stockage de données dans le nuage qui est une grande tendance dans les solutions de stockage de données. L'International Data Corporation (IDC) prédit notamment que d'ici 2020, environ 40% des données seront stockées et traitées dans le nuage. Cette thèse adresse les challenges liés aux performances d'accès aux données et à la sûreté de fonctionnement dans les systèmes de stockage dans le nuage. Nous avons proposé Mistore, un système de stockage distribué que nous avons conçu pour assurer la disponibilité des données, leur durabilité, ainsi que de faibles latences d'accès aux données en exploitant des zones de stockage dans les box, les Points de Présence (POP), et les centre de données dans une infrastructure Digital Subscriber Line (xDSL) d'un Fournisseur d'Accès à Internet (FAI). Dans Mistore, nous adressons aussi les problèmes de cohérence de données en fournissant plusieurs critères de cohérence des données ainsi qu'un système de versioning. Nous nous sommes aussi intéressés à la sécurité des données dans le contexte de systèmes de stockage appliquant une déduplication des données, qui est l'une des technologies les plus prometteuses pour réduire les coût de stockage et de bande passante réseau. Nous avons conçu une méthode de déduplication en deux phases qui est sécurisée contre des attaques d'utilisateurs malicieux tout en étant efficace en termes d'économie de bande passante réseau et d'espace de stockage
The quantity of data in the world is steadily increasing bringing challenges to storage system providers to find ways to handle data efficiently in term of dependability and in a cost-effectively manner. We have been interested in cloud storage which is a growing trend in data storage solution. For instance, the International Data Corporation (IDC) predicts that by 2020, nearly 40% of the data in the world will be stored or processed in a cloud. This thesis addressed challenges around data access latency and dependability in cloud storage. We proposed Mistore, a distributed storage system that we designed to ensure data availability, durability, low access latency by leveraging the Digital Subscriber Line (xDSL) infrastructure of an Internet Service Provider (ISP). Mistore uses the available storage resources of a large number of home gateways and Points of Presence for content storage and caching facilities. Mistore also targets data consistency by providing multiple types of consistency criteria on content and a versioning system. We also considered the data security and confidentiality in the context of storage systems applying data deduplication which is becoming one of the most popular data technologies to reduce the storage cost and we design a two-phase data deduplication that is secure against malicious clients while remaining efficient in terms of network bandwidth and storage space savings
APA, Harvard, Vancouver, ISO, and other styles
5

Secret, Ghislain. "La maintenance des données dans les systèmes de stockage pair à pair." Amiens, 2009. http://www.theses.fr/2009AMIE0111.

Full text
Abstract:
Les systèmes P2P sont conçus pour partager des ressources sur internet. L’indépendance de l’architecture par rapport à un serveur centralisé confère à ces systèmes une très grande résistance aux pannes. Cette propriété rend l’utilisation de cette architecture tout à fait adaptée au stockage pérenne de données, à grande échelle. Cependant un système P2P est caractérisé par la volatilité des pairs qui le composent. Le challenge est d’assurer la pérennité des données dans un environnement de supports de stockage en continuelle mutation. Pour cela, les systèmes de stockage P2P introduisent des schémas de redondance couplés à des mécanismes de régénération des données perdues. Mais les reconstructions nécessaires au maintien de la pérennité des données ne sont pas neutres en termes de charge pour le système. Pour étudier les facteurs qui impactent le plus le coût de maintenance des données, un modèle de système de stockage P2P a été conçu. Ce modèle repose sur un schéma de redondance de type IDA (Information Dispersal Algorithm). Sur la base de ce modèle, un simulateur a été élaboré et le comportement du système vis à vis des coûts de la régénération des données a été analysé. Deux stratégies de reconstruction sont observées. La première repose sur un mécanisme de seuil par rapport au niveau de redondance des données. Elle nécessite un contrôle permanent de l’état des données. La seconde encadre simplement le nombre des reconstructions par un système de quota alloué pour une période de temps donnée. Sur la base d’une analyse stochastique des stratégies, des clés sont proposées pour définir les paramètres du système en fonction du niveau de pérennité visé
Peer to peer systems are designed to share resources on the Internet. The independence of the architecture from a centralized server provides the peer-to-peer networks a very high fault tolerance (no peer is essential to the functioning of the network). This property makes the use of this architecture very suitable for permanent storage of data on a large scale. However, peer to peer systems are characterised by peer’s volatility. Peers connect and disconnect randomly. The challenge is to ensure the continuity of data in a storage media constantly changing. For this, to cope with peer’s volatility, data redundancy schemes coupled with reconstruction mechanism of lost data are introduced. But the reconstructions needed to maintain the continuity of data are not neutral in terms of burden on the system. To investigate factors that impact the higher the data maintenance cost, a model of peer to peer storage system was designed. This model is based on an IDA (Information Dispersal Algorithm) redundancy scheme. Built on this model, a simulator was developed and the system behaviour for the cost of regeneration of the data was analyzed. Two reconstruction strategies are observed. The first mechanism is based on a threshold from the level of data redundancy. It requires constant monitoring of the state data. The second strategy involves a number of reconstructions by a system of quota allocation for a defined period of time. It is less comfortable psychologically because it significantly reduces the control of the data state by abstracting the threshold mechanism. Based on a stochastic analysis of the strategies, keys are provided to define the parameters of the system according to the target level of durability desired
APA, Harvard, Vancouver, ISO, and other styles
6

Soyez, Olivier. "Stockage dans les systèmes pair à pair." Phd thesis, Université de Picardie Jules Verne, 2005. http://tel.archives-ouvertes.fr/tel-00011443.

Full text
Abstract:
Cette thèse a pour objectif de définir un système de stockage pair à pair, nommé Us. Le but principal de Us est de garantir la pérennité des données. Pour cela, Us associe un mécanisme de redondance des données à un processus dynamique de reconstruction.

Dans un premier temps, nous avons créé un prototype Us et conçu une interface utilisateur, nommée UsFS, de type système de fichiers. Un procédé de journalisation des données est inclus dans UsFS.

Ensuite, nous nous sommes intéressés aux distributions de données au sein du réseau Us. Le but de ces distributions est de minimiser le dérangement occasionné par le processus de reconstruction pour chaque pair. Enfin, nous avons étendu notre schéma de distribution pour gérer le comportement dynamique des pairs et prendre en compte les corrélations de panne.
APA, Harvard, Vancouver, ISO, and other styles
7

Fournié, Laurent Henri. "Stockage et manipulation transactionnels dans une base de données déductives à objets : techniques et performances." Versailles-St Quentin en Yvelines, 1998. http://www.theses.fr/1998VERS0017.

Full text
Abstract:
Cette thèse propose des solutions pour mettre en oeuvre, de manière flexible et performante, le stockage et les manipulations transactionnels d'une base de données déductive à objets (dood) ; elle s'inscrit dans le développement du système validity. Outre une analyse et une synthèse de l'état de l'art, nos travaux comportent une validation pratique par la réalisation d'un véritable système de stockage et par son évaluation à l'aide d'un ensemble de mesures de performance. Nous exposons les principes dood et leurs impacts fonctionnels, transactionnels et opérationnels : les convergences et les divergences avec les modèles relationnel et objet sont approfondies. Deux axes principaux sont ensuite étudiés : (1) une synthèse des mécanismes de gestion de la mémoire persistante (organisation sur les supports physiques, contrôle des caches et stratégie de reprise) assurant l'atomicité et la durabilité des écritures, (2) le protocole original rc2pl intégrant le verrouillage a deux phases (2pl) et l'ordonnancement par multiversion pour isoler les transactions. Rc2pl décompose les transactions en deux phases : une phase de mise à jour (lectures et écritures) isolée par verrouillage, suivie d'une phase de vérification (lectures seulement) isolée par multiversion. Ainsi, rc2pl assure une isolation stricte et non conflictuelle des lectures exécutées en fin de transaction pour vérifier les contraintes d'intégrité sans pénaliser la concurrence. L'algorithme, la correction et les techniques de mises en oeuvre sont détaillés. Finalement, nous comparons les performances de rc2pl avec les différentes stratégies de vérification sous 2pl (avant, pendant et après les écritures). Les résultats démontrent que rc2pl réduit le nombre de conflits : la verification des contraintes d'integrité déclaratives après les écritures sous rc2pl offre des performances comparables à la meilleure optimisation des vérifications programmées à la main dans les applications sous 2pl.
APA, Harvard, Vancouver, ISO, and other styles
8

Romito, Benoit. "Stockage décentralisé adaptatif : autonomie et mobilité des données dans les réseaux pair-à-pair." Caen, 2012. http://www.theses.fr/2012CAEN2072.

Full text
Abstract:
We study a new approach for decentralized data storage in peer-to-peer networks. In this approach, the responsibility of data management is transferred from the peers to the documents. It means that documents are not passive data sets anymore but become autonomous and responsible for their own durability. Thanks to a multi-agent system modeling and bio-inspired algorithms, we transform each document into a mobile agents flock able to move into the network. Firstly, we assess the feasibility of this approach with several experiments done on a prototype deployed in a real peer-to-peer network. We note that, given some hypothesis, our motion algorithms are sound. We also note that, topological relationships between the agents are enough for the emergence of a global flocking behavior. Secondly, we focus on mechanisms required to ensure flocks durability. We note that those flocks are self-adaptive and that, this property can be used to find the accurate fragmentation parameters, given a network instance and a required level of availability. Finaly, we study this self-adaptation property in the context of correlated failures. We propose and we analyze a decentralized flock placement algorithm aimed at reducing the correlated failures impact on data storage systems.
APA, Harvard, Vancouver, ISO, and other styles
9

Le, Hung-Cuong. "Optimisation d'accès au médium et stockage de données distribuées dans les réseaux de capteurs." Besançon, 2008. http://www.theses.fr/2008BESA2052.

Full text
Abstract:
Les réseaux de capteurs constituent un axe de recherche très fertile ces dernières années. Cette technique se développe dans différents domaines comme l'environnement, l'industrie, le commerce, la médecine, l'armée etc. Selon le type d'application, les problématiques peuvent être différentes. Dans cette thèse, nous nous sommes intéressés à deux problématiques: les protocoles d'accès au canal et le stockage de données distribuées. Le document est divisé en deux parties où la première partie est un état de l'art de différentes techniques existantes et la deuxième partie décrit notre contribution dans ces deux problématiques. Dans la première contribution, nous avons proposé deux protocoles d'accès au canal. Le premier optimise la durée de vie des réseaux de capteurs de type surveillance et le second réduit la latence de transmission dans les réseaux de capteurs orientés événements pour les applications critiques. Dans la deuxième contribution, nous nous sommes focalisés sur le modèle de stockage de données data-centric. Nous avons proposé une structure de regroupement des capteurs afm d'améliorer le routage et réduire le nombre de transmissions afin de prolonger la durée de vie d'un réseau de capteurs
Wireless sensor network is a very hot research topic tendency for the last few years. This technology can be applied into different domains as environment, industry, commerce, medicine, military etc. Depending on the application type, the problems and requirements might be different. In this thesis, we are interested in two major problems: the medium access control and the distributed data storage. The document is divided to two parts where the first part is a state of the art of different existing works and the second part describes our contribution. In the first contribution, we have proposed two MAC protocols. The first one optimizes the wireless sensor networks lifetime for surveillance applications and the second one reduces the transmission latency in event-driven wireless sensor networks for critical applications. In the second contribution, we have worked with several data storage models in wireless sensor network and we focus on the data-centric storage model. We have proposed a clustering structure for sensors to improve the routing and reduce the number of transmissions in order to prolong the network lifetime
APA, Harvard, Vancouver, ISO, and other styles
10

Borba, Ribeiro Heverson. "L'Exploitation de Codes Fontaines pour un Stockage Persistant des Données dans les Réseaux d'Overlay Structurés." Phd thesis, Université Rennes 1, 2012. http://tel.archives-ouvertes.fr/tel-00763284.

Full text
Abstract:
L'importante augmentation de la quantité d'informations sur Internet a contribué à une forte demande pour un stockage persistant des données. Les architectures centralisées de stockage de données sont financièrement onéreuses, faiblement évolutives et vulnérables aux attaques car elles constituent un point unique de défaillance du système. Ces dernières années, les architectures pair-à-pair ont mergé comme une alternative pour la mise en place d'une architecture de stockage persistant des données. Les systèmes pair-à-pair sont fondamentalement évolutifs et moins chers que les modèles client-serveur. Cependant, pour construire des systèmes de stockage persistant en utilisant le modèle pair-à-pair, deux défis fondamentaux doivent être abordés. i) Faire face à la dynamique des pairs, en raison de leur connectivité transitoire. ii) Réduire l'impact du comportement malicieux des pairs. La réplication est une technique régulièrement utilisée pour faire face à la connectivité transitoire des systèmes de stockage pair-à-pair. Toutefois, selon le ratio d'arrivées et de départs des pairs dans le système, cette technique présente un impact négatif en termes de stockage et de bande passante. Les réseaux pair-à-pair qui offrent la tolérance aux fautes byzantins, font généralement l'hypothèse que seulement une fraction limitée des pairs dans le système sont des pairs de comportements malveillants. Toutefois, l'estimation de la proportion de pairs malveillants dans un système pair-à-pair est une opération peu fiable. Ainsi, créer une architecture qui fournit le stockage persistant de données fiables et qui permet de faire face à tous ces problèmes est une contribution souhaitable. Dans cette thèse, nous proposons Datacube. Datacube est une architecture pair-à-pair de stockage de données scalable et efficace qui fournit un stockage persistant en utilisant un schéma de redondance hybride sur un réseau overlay structuré basée sur des clusters. Le schéma de redondance hybride proposé par Datacube assure la persistance et l'intégrité des données garantissant une forte résilience aux arrivées et départs de pairs même en présence de pairs malveillants. Datacube repose sur les propriétés des codes fontaines pour mettre en place son schéma de redondance hybride. Les valuations analytiques ont montré que Datacube est notamment performant en termes de disponibilité, de surcharge de stockage et de bande passante. Nous avons aussi effectué des évaluations pratiques concernant les performances de deux types de codes fontaines dans le contexte de systèmes de stockage pair-à-pair. Ces évaluations ont aidé à comprendre l'impact des paramètres de codage sur les performances de Datacube. À notre connaissance, ceci est la première étude complète qui permet aux développeurs d'applications de trouver les valeurs des paramètres de codage adaptés au contexte des réseaux pair-à-pair.
APA, Harvard, Vancouver, ISO, and other styles
11

Carpen-Amarie, Alexandra. "Utilisation de BlobSeer pour le stockage de données dans les Clouds: auto-adaptation, intégration, évaluation." Phd thesis, École normale supérieure de Cachan - ENS Cachan, 2011. http://tel.archives-ouvertes.fr/tel-00696012.

Full text
Abstract:
L'émergence de l'informatique dans les nuages met en avant de nombreux défis qui pourraient limiter l'adoption du paradigme Cloud. Tandis que la taille des données traitées par les applications Cloud augmente exponentiellement, un défi majeur porte sur la conception de solutions efficaces pour la gestion de données. Cette thèse a pour but de concevoir des mécanismes d'auto-adaptation pour des systèmes de gestion de données, afin qu'ils puissent répondre aux exigences des services de stockage Cloud en termes de passage à l'échelle, disponibilité et sécurité des données. De plus, nous nous proposons de concevoir un service de données qui soit à la fois compatible avec les interfaces Cloud standard dans et capable d'offrir un stockage de données à haut débit. Pour relever ces défis, nous avons proposé des mécanismes génériques pour l'auto-connaissance, l'auto-protection et l'auto-configuration des systèmes de gestion de données. Ensuite, nous les avons validés en les intégrant dans le logiciel BlobSeer, un système de stockage qui optimise les accès hautement concurrents aux données. Finalement, nous avons conçu et implémenté un système de fichiers s'appuyant sur BlobSeer, afin d'optimiser ce dernier pour servir efficacement comme support de stockage pour les services Cloud. Puis, nous l'avons intégré dans un environnement Cloud réel, la plate-forme Nimbus. Les avantages et les désavantages de l'utilisation du stockage dans le Cloud pour des applications réelles sont soulignés lors des évaluations effectuées sur Grid'5000. Elles incluent des applications à accès intensif aux données, comme MapReduce, et des applications fortement couplées, comme les simulations atmosphériques.
APA, Harvard, Vancouver, ISO, and other styles
12

Dandoush, Abdulhalim. "L'Analyse et l'Optimisation des Systèmes de Stockage de Données dans les Réseaux Pair-à-Pair." Phd thesis, Université de Nice Sophia-Antipolis, 2010. http://tel.archives-ouvertes.fr/tel-00470493.

Full text
Abstract:
Cette thèse évalue les performances de systèmes de stockage de données sur des réseaux de pairs. Ces systèmes reposent sur trois piliers: la fragmentation des données et leur dissémination chez les pairs, la redondance des données afin de faire face aux éventuelles indisponibilités des pairs et l'existence d'un mécanisme de recouvrement des données perdues ou temporairement indisponibles. Nous modélisons deux mécanismes de recouvrement des données par des chaînes de Markov absorbantes. Plus précisément, nous évaluons la qualité du service rendu aux utilisateurs en terme de longévité et de disponibilité des données de chaque mécanisme. Le premier mécanisme est centralisé et repose sur l'utilisation d'un serveur pour la reconstruction des donnée perdus. Le second est distribué : la reconstruction des fragments perdus met en oeuvre, séquentiellement, plusieurs pairs et s'arrête dès que le niveau de redondance requis est atteint. Les principales hypothèses faites dans nos modèles sont validées soit par des simulations soit par des traces réelles recueillies dans différents environnements distribués. Pour les processus de téléchargement et de recouvrement des données nous proposons un modèle de simulation réaliste qui est capable de prédire avec précision le comportement de ces processus mais le temps de simulation est long pour de grands réseaux. Pour surmonter cette restriction nous proposons et analysons un algorithme efficace au niveau flux. L'algorithme est simple et utilise le concept de (min-max). Il permet de caractériser le temps de réponse des téléchargements en parallèle dans un système de stockage distribué.
APA, Harvard, Vancouver, ISO, and other styles
13

Traboulsi, Salam. "Virtualisation du stockage dans les grilles informatiques : administration et monitoring." Toulouse 3, 2008. http://thesesups.ups-tlse.fr/385/.

Full text
Abstract:
La grille offre une large gamme de ressources distribuées pour le stockage de données, en particulier pour les tâches interactives telles que les résultats des expérimentations de simulation et d'analyse des données. ViSaGe est destiné à fournir des fonctionnalités nécessaires à la virtualisation du stockage des données : fiabilité d'accès transparent aux données distantes et gestion des données distribuées. Il agrège les ressources de stockage distribuées physiquement dans un seul espace virtuel. Pourtant, chaque ressource de stockage étant caractérisée par ses ressources systèmes (CPU, disque, réseaux) dont la charge évolue durant le temps d'exécution ; puisque dans une grille de grandes quantités de données stockées sont constamment accessibles et directement impliquées dans l'exécution, le défi est comment gérer la performance d'accès aux données dans un système du stockage virtuel durant l'évolution de la charge. Dans ce contexte, ViSaGe a proposé le service d'administration et de monitoring, nommé Admon. Admon est un outil d'aide à la gestion de stockage. Nous allons décrire son architecture hiérarchique et ses différentes fonctionnalités, et montrer son efficacité. Il est formé de deux modules : le module d'administration qui rend plus aisée la gestion de stockage, à partir des données collectées et analysées par l'autre module : le monitoring. Admon est caractérisé par son architecture hiérarchique. Cette architecture permet à ses composants de communiquer afin de gérer le stockage des données pour améliorer la performance
Virtualization in grid environments is a recent way to improve platform usage. ViSaGe is a middleware designed to provide set of functionalities needed for storage virtualization: transparent reliable remote access to data and distributed data management. ViSaGe aggregates distributed physical storage resources. However, ensuring the performances of data access in grid environment is a major issue, as large amount of data are stored and constantly accessed, and directly involved into tasks execution time. Especially, the placement and selection of replicated data are made particularly difficult because of the dynamic nature of grid environments -- grid nodes workload variations. The workload variations represent the state of the system resources (CPU, disks and networks). These variations are mainly perceived by a monitoring system. Several monitoring systems exist in the literature. They monitor system resources consumption and applications but none of these systems presents the whole of the pertinent characteristics for ViSaGe. ViSaGe needs a system that analyzes nodes workload during runtime execution for improving data storage management. Therefore, ViSaGe Administration and monitoring service, namely Admon, is proposed. We present Admon efficiency that allowing to dynamically placing data according to resources usage ensuring the best performances while limiting the monitoring overhead
APA, Harvard, Vancouver, ISO, and other styles
14

Jaiman, Vikas. "Amélioration de la prédictibilité des performances pour les environnements de stockage de données dans les nuages." Thesis, Université Grenoble Alpes (ComUE), 2019. http://www.theses.fr/2019GREAM016/document.

Full text
Abstract:
De nos jours, les utilisateurs de services interactifs comme le e-commerce, ou les moteurs de recherche, ont de grandes attentes sur la performance et la réactivité de ces services. En effet, les études ont montré que des lenteurs (même pendant une courte durée) impacte directement le chiffre d'affaire. Avoir des performances prédictives est donc devenu une priorité pour ces fournisseurs de services depuis une dizaine d'années.Mais empêcher la variabilité dans les systèmes de stockage distribué est un challenge car les requêtes des utilisateurs finaux transitent par des centaines de servers et les problèmes de performances engendrés par chacun de ces serveurs peuvent influencer sur la latence observée. Même dans les environnements correctement dimensionnés, des problèmes comme de la contention sur les ressources partagés ou un déséquilibre de charge entre les serveurs influent sur les latences des requêtes et en particulier sur la queue de leur distribution (95ème et 99ème centile).L’objectif de cette thèse est de développer des mécanises permettant de réduire les latences et d’obtenir des performances prédictives dans les environnements de stockage de données dans les nuages. Une contre-mesure efficace pour réduire la latence de queue dans les environnements de stockage de données dans les nuages est de fournir des algorithmes efficaces pour la sélection de réplique. Dans la sélection de réplique, une requête tentant d’accéder à une information donnée (aussi appelé valeur) identifiée par une clé unique est dirigée vers la meilleure réplique présumée. Cependant, sous des charges de travail hétérogènes, ces algorithmes entraînent des latences accrues pour les requêtes ayant un court temps d'exécution et qui sont planifiées à la suite de requêtes ayant des long temps d’exécution. Nous proposons Héron, un algorithme de sélection de répliques qui gère des charges de travail avec des requêtes ayant un temps d’exécution hétérogène. Nous évaluons Héron dans un cluster de machines en utilisant un jeu de données synthétique inspiré du jeu de données de Facebook ainsi que deux jeux de données réels provenant de Flickr et WikiMedia. Nos résultats montrent que Héron surpasse les algorithmes de l’état de l’art en réduisant jusqu’à 41% la latence médiane et la latence de queue.Dans la deuxième contribution de cette thèse, nous nous sommes concentrés sur les charges de travail multi-GET afin de réduire la latence dans les environnements de stockage de données dans les nuages Le défi consiste à estimer les opérations limitantes et à les planifier sur des serveurs non-coordonnés avec un minimum de surcoût. Pour atteindre cet objectif, nous présentons TailX, un algorithme d’ordonnancement de tâches multi-GET qui réduit les temps de latence de queue sous des charges de travail hétérogènes. Nous implémentons TailX dans Cassandra, une base de données clé-valeur largement utilisée. Il en résulte une amélioration des performances globales des environnements de stockage de données dans les nuages pour une grande variété de charges de travail hétérogènes
Today, users of interactive services such as e-commerce, web search have increasingly high expectations on the performance and responsiveness of these services. Indeed, studies have shown that a slow service (even for short periods of time) directly impacts the revenue. Enforcing predictable performance has thus been a priority of major service providers in the last decade. But avoiding latency variability in distributed storage systems is challenging since end user requests go through hundreds of servers and performance hiccups at any of these servers may inflate the observed latency. Even in well-provisioned systems, factors such as the contention on shared resources or the unbalanced load between servers affect the latencies of requests and in particular the tail (95th and 99th percentile) of their distribution.The goal of this thesis to develop mechanisms for reducing latencies and achieve performance predictability in cloud data stores. One effective countermeasure for reducing tail latency in cloud data stores is to provide efficient replica selection algorithms. In replica selection, a request attempting to access a given piece of data (also called value) identified by a unique key is directed to the presumably best replica. However, under heterogeneous workloads, these algorithms lead to increased latencies for requests with a short execution time that get scheduled behind requests with large execution times. We propose Héron, a replica selection algorithm that supports workloads of heterogeneous request execution times. We evaluate Héron in a cluster of machines using a synthetic dataset inspired from the Facebook dataset as well as two real datasets from Flickr and WikiMedia. Our results show that Héron outperforms state-of-the-art algorithms by reducing both median and tail latency by up to 41%.In the second contribution of the thesis, we focus on multiget workloads to reduce the latency in cloud data stores. The challenge is to estimate the bottleneck operations and schedule them on uncoordinated backend servers with minimal overhead. To reach this objective, we present TailX, a task aware multiget scheduling algorithm that reduces tail latencies under heterogeneous workloads. We implement TailX in Cassandra, a widely used key-value store. The result is an improved overall performance of the cloud data stores for a wide variety of heterogeneous workloads
APA, Harvard, Vancouver, ISO, and other styles
15

Schaaf, Thomas. "Couplage inversion et changement d'échelle pour l'intégration des données dynamiques dans les modèles de réservoirs pétroliers." Paris 9, 2003. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=2003PA090046.

Full text
APA, Harvard, Vancouver, ISO, and other styles
16

Moreira, José. "Un modèle d'approximation pour la représentation du mouvement dans les bases de données spatiales." Paris, ENST, 2001. http://www.theses.fr/2001ENST0016.

Full text
Abstract:
La gestion et l'interrogation d'objets mobiles nécessitent de prendre en compte le fait que la localisation de tels objets dans l'espace à deux (trois) dimensions est une fonction continue du temps. Deux problèmes déterminants se posent au traitement de ce type d'information: d'une part, les systèmes informatiques ne sont pas capables de stocker ou de manipuler des ensembles infinis; d'autre part, les mécanismes de repérage de la localisation des objets mobiles sont intrinsèquement discrets et ne sont pas aptes à déterminer leur localisation d'une façon continue. Ainsi, la connaissance sur le mouvement, tel qu'il est stocké dans un système de bases de données, est une représentation partielle du comportement spatio-temporel d'un objet mobile dans le monde réel. Cette thèse propose un modèle d'approximation linéaire adéquat pour la représentation finie du mouvement et son interrogation. Ce modèle d'approximation permet la définition de structures de données efficaces pour l'organisation spatio-temporelle de l'information sur le mouvement. Une structure de données appropriée au stockage du mouvement d'un objet comme un type abstrait de données et des algorithmes efficaces pour l'interrogation de ce type d' information sont donnés. Une méthode permettant de délimiter l'incertitude sur la localisation d'un objet mobile, due à la représentation partielle du mouvement, est également présentée. Du point de vue langage d'interrogation, on introduit un ensemble d'opérations à intégrer dans un SIG ou dans une base de données spatiale, pour répondre à des requêtes sur le mouvement des objets. Pour tester l'efficacité de la méthode de stockage et des algorithmes présentés, il est proposé un générateur de jeux de données qui sont à la fois riches du point de vue statistique et représentatives des applications du monde réel.
APA, Harvard, Vancouver, ISO, and other styles
17

Cutillo, Leucio Antonio. "Protection des données privées dans les réseaux sociaux." Electronic Thesis or Diss., Paris, ENST, 2012. http://www.theses.fr/2012ENST0020.

Full text
Abstract:
Les applications des réseaux sociaux (OSN) permettent aux utilisateurs de toutes les âges de partager facilement une large série des contenus confidentiels ou privés avec un nombre théoriquement illimité de partenaires. Cet avantage peut être obtenu au risque des problèmes de sécurité et de l'exposition de la vie privée pour les utilisateurs, puisque dans toutes les OSN existantes, afin de soutenir un modèle d'affaires prometteur, les informations des utilisateurs sont collectées et stockées de façon permanente par le fournisseur de service, qui devient potentiellement un "Big Brother" capable d'exploiter ces informations de plusieurs façons qui peuvent violer la vie privée des utilisateurs individuels ou groupes d'utilisateurs. La thèse propose et valide une nouvelle approche pour ces problèmes de sécurité et de confidentialité. Afin d'assurer la confidentialité des utilisateurs face à les violations potentiels de la vie privée par le fournisseur, ce modèle adopte une architecture distribuée en s'appuyant sur la coopération entre un certain nombre de parties indépendantes qui sont aussi les utilisateurs de l'application de réseau social. Le deuxième point fort de l'approche suggérée est de s'appuyer sur les relations de confiance qui font partie des réseaux sociaux dans la vie réelle afin d’affronter le problème de la création de mécanismes de confiance en préservant la vie privée. Sur la base de ces principes de conception, un nouveau réseau social en ligne distribuée, appelé Safebook, a été proposé: Safebook s'appuie sur la confiance dans la vie réelle et permet aux utilisateurs de maintenir le contrôle sur l'accès et l'utilisation de leurs propres informations
Online Social Network (OSN) applications allow users of all ages and educational background to easily share a wide range of personal information with a theoretically unlimited number of partners. This advantage comes at the cost of increased security and privacy exposures for users, since in all existing OSN applications, to underpin a promising business model, users' data is collected and stored permanently at the databases of the service provider, which potentially becomes a “Big Brother” capable of exploiting this data in many ways that can violate the privacy of individual users or user groups. This thesis suggests and validates a new approach to tackle these security and privacy problems. In order to ensure users' privacy in the face of potential privacy violations by the provider, the suggested approach adopts a distributed architecture relying on cooperation among a number of independent parties that are also the users of the online social network application. The second strong point of the suggested approach is to capitalize on the trust relationships that are part of social networks in real life in order to cope with the problem of building trusted and privacy-preserving mechanisms as part of the online application. Based on these main design principles, a new distributed Online Social Network, namely Safebook, is proposed: Safebook leverages on real life trust and allows users to maintain the control on the access and the usage of their own data. The prototype of Safebook is available at www.safebook.eu
APA, Harvard, Vancouver, ISO, and other styles
18

Kerhervé, Brigitte. "Vues relationnelles : implantation dans les systèmes de gestion de bases de données centralisés et répartis." Paris 6, 1986. http://www.theses.fr/1986PA066090.

Full text
Abstract:
Nous décrivons les choix qui ont été faits dans le prototype SABRE. Nous analysons par la suite l'implantation de vues concrètes qui correspondent à la matérialisation des vues relationnelles. Nous montrons que ces vues concrètes permettent de définir un nouveau type de SGBD réparti où la définition et le stockage des données sont faits en fonction des interrogations sur les sites distants, de manière à maximiser les interrogations locales. Nous décrivons et analysons les mécanismes nécessaires à l'implantation d'un tel type de SGBD réparti par vues concrètes, notamment du point de vue des mises à jour.
APA, Harvard, Vancouver, ISO, and other styles
19

Cutillo, Leucio Antonio. "Protection des données privées dans les réseaux sociaux." Phd thesis, Télécom ParisTech, 2012. http://pastel.archives-ouvertes.fr/pastel-00932360.

Full text
Abstract:
Les applications des réseaux sociaux (OSN) permettent aux utilisateurs de toutes les âges de partager facilement une large série des contenus confidentiels ou privés avec un nombre théoriquement illimité de partenaires. Cet avantage peut être obtenu au risque des problèmes de sécurité et de l'exposition de la vie privée pour les utilisateurs, puisque dans toutes les OSN existantes, afin de soutenir un modèle d'affaires prometteur, les informations des utilisateurs sont collectées et stockées de façon permanente par le fournisseur de service, qui devient potentiellement un "Big Brother" capable d'exploiter ces informations de plusieurs façons qui peuvent violer la vie privée des utilisateurs individuels ou groupes d'utilisateurs. La thèse propose et valide une nouvelle approche pour ces problèmes de sécurité et de confidentialité. Afin d'assurer la confidentialité des utilisateurs face à les violations potentiels de la vie privée par le fournisseur, ce modèle adopte une architecture distribuée en s'appuyant sur la coopération entre un certain nombre de parties indépendantes qui sont aussi les utilisateurs de l'application de réseau social. Le deuxième point fort de l'approche suggérée est de s'appuyer sur les relations de confiance qui font partie des réseaux sociaux dans la vie réelle afin d'affronter le problème de la création de mécanismes de confiance en préservant la vie privée. Sur la base de ces principes de conception, un nouveau réseau social en ligne distribuée, appelé Safebook, a été proposé: Safebook s'appuie sur la confiance dans la vie réelle et permet aux utilisateurs de maintenir le contrôle sur l'accès et l'utilisation de leurs propres informations.
APA, Harvard, Vancouver, ISO, and other styles
20

Chikhaoui, Amina. "Vers une approche intelligente de placement de données dans un cloud distribué basé sur un système de stockage hybride." Electronic Thesis or Diss., Brest, 2022. http://www.theses.fr/2022BRES0024.

Full text
Abstract:
La fédération de Clouds permet d’étendre de manière transparente les ressources des fournisseurs de services Cloud (Cloud service Providers: CSP) afin de fournir une meilleure qualité de service (Quality of Service: QoS) aux clients sans frais de déploiement supplémentaires. Le stockage en tant que service (Storage as a Service: StaaS), constitue l’un des principaux services Cloud offerts aux clients. Pour un tel service, la performance des Entrées/Sorties (E/S) des supports de stockage et la latence du réseau sont parmi les métriques les plus importantes considérées par les clients. En effet, le système d’E/S prend environ 90% du temps d’exécution d’une transaction pour certaines requêtes de base de données. Afin de rassurer les clients, certaines sociétés de Cloud incluent déjà des garanties de latence dans leurs contrats de niveau de service (Service Level Agreements: SLA) et les clients peuvent payer des frais supplémentaires pour réduire davantage les latences. Cette thèse traite du problème de placement de données pour un CSP faisant partie d’une fédération. En effet, offrir des services attractifs et peu coûteux est un grand défi pour les CSP. Notre but est de proposer des approches intelligentes pour un meilleur placement des données qui minimise le coût pour le fournisseur tout en satisfaisant les clients. Cette approche doit prendre en compte l’hétérogénéité des ressources de stockage interne et externe en terme de plusieurs paramètres (comme la capacité, les performances, la tarification) ainsi que les caractéristiques des clients et leurs exigences
Cloud federation makes it possible to seamlessly extend the resources of Cloud Service Providers (CSP) in order to provide a better Quality of Service (QoS) to customers without additional deployment costs. Storage as a Service (StaaS), is one of the main Cloud services offered to customers. For such a service, storage Input/Output (I/O) performance and network latency are among the most important metrics considered by customers. In effect, transactions for some database queries spend 90% of the execution time in I/O operations. In order to satisfy customers, some Cloud companies already include latency guarantees in their Service Level Agreements (SLA) and customers can pay additional fees to further reduce latency. This thesis addresses the data placement problem for a CSP that is part of a federation. Indeed,offering attractive and inexpensive services is a big challenge for CSP. Our goal is to pro-vide intelligent approaches for a better data placement that minimizes the cost of placement for the provider while satisfying the customers QoS requirements.This approach must take into account the heterogeneity of internal and external storage resources in terms of several parameters (such as capacity, performance, pricing) as well as customer characteristics and requirements.Despite the fact that many data placement strategies have been proposed for hybrid storage systems, they are not generalizable to every architecture. Indeed, a placement strategy must be designed according to the system architecture for which it is proposed and the target objectives
APA, Harvard, Vancouver, ISO, and other styles
21

Duminuco, Alessandro. "Redondance et maintenance des données dans les systèmes de sauvegarde de fichiers pair-à-pair." Phd thesis, Paris, Télécom ParisTech, 2009. https://pastel.hal.science/pastel-00005541.

Full text
Abstract:
La quantité de données numériques produites par les utilisateurs, comme les photos, les vidéos et les documents numériques, a énormément augmenté durant cette dernière décennie. Ces données possèdent une grande valeur et nécessitent d'être sauvegardées en sécurité. La communauté de recherche a manifesté un grand intérêt pour l'utilisation des systèmes pair-à-pair pour la sauvegarde de donnés. Les systèmes pair-à-pair représentent une solution intéressante grâce à leur capacité de passage à l'échelle. En effet, la capacité du service augmente avec la demande. La conception d'un réseau de sauvegarde de fichiers pair-à-pair est une tâche très complexe et présente un nombre considérable de défis. Les pairs peuvent avoir une durée de connexion limitée et peuvent quitter le système à un taux qui est considérablement plus élevé que dans le cas des systèmes de stockage centralisés. Notre intérêt se concentre sur la manière de fournir efficacement du stockage de données suffisamment fiable en appliquant des schémas de redondance appropriés et en adoptant des bons mécanismes pour maintenir une telle redondance. Notre contribution se porte sur deux aspects. Premièrement, nous proposons et étudions des codes correcteurs pour la redondance capables de combiner l'efficacité en bande passante de la réplication à l'efficacité en stockage des codes correcteurs classiques. En particulier, nous présentons et analysons deux nouvelles classes de codes: Regenerating Codes et Hierarchical Codes. Deuxièmement, nous proposons un système de réparation, nommé "adaptive proactive repair scheme", qui combine l'adaptabilité des systèmes réactifs avec l'utilisation régulière de la bande passante
The amount of digital data produced by users, such as photos, videos, and digital documents, has grown tremendously over the last decade. These data are very valuable and need to be backed up safely. The research community has shown an increasing interest in the use of peer-to-peer systems for file backup. The key property that makes peer-to-peer systems appealing is self-scaling, i. E. As more peers become part of the system the service capacity increases along with the service demand. The design of a peer-to-peer file backup system is a complex task and presents a considerable number of challenges. Peers can be intermittently connected or can fail at a rate that is considerably higher than in the case of centralized storage systems. Our interest focused particularly on how to efficiently provide reliable storage of data applying appropriate redundancy schemes and adopting the right mechanisms to maintain this redundancy. This task is not trivial since data maintenance in such systems may require significant resources in terms of storage space and communication bandwidth. Our contribution is twofold. First, we study erasure coding redundancy schemes able to combine the bandwidth efficiency of replication with the storage efficiency of classical erasure codes. In particular, we introduce and analyze two new classes of codes, namely Regenerating Codes and Hierarchical Codes. Second, we propose a proactive adaptive repair scheme, which combines the adaptiveness of reactive systems with the smooth bandwidth usage of proactive systems, generalizing the two existing approaches
APA, Harvard, Vancouver, ISO, and other styles
22

Duminuco, Alessandro. "Redondance et maintenance des données dans les systèmes de sauvegarde de fichiers pair-à-pair." Phd thesis, Télécom ParisTech, 2009. http://pastel.archives-ouvertes.fr/pastel-00005541.

Full text
Abstract:
La quantité de données numériques produites par les utilisateurs, comme les photos, les vidéos et les documents numériques, a énormément augmenté durant cette dernière décennie. Ces données possèdent une grande valeur et nécessitent d'être sauvegardées en sécurité. D'une part, les solutions basées sur les DVDs et les disques durs externes, bien que très communes, ne fournissent pas un niveau suffisant de fiabilité. D'autre part les solutions basées sur de serveurs centralisées sont très coûteuses. Pour ces raisons, la communauté de recherche a manifesté un grand intérêt pour l'utilisation des systèmes pair-à-pair pour la sauvegarde de donnés. Les systèmes pair-à-pair représentent une solution intéressante grâce à leur capacité de passage à l'échelle. En effet, la capacité du service augmente avec la demande. La conception d'un réseau de sauvegarde de fichiers pair-à-pair est une tâche très complexe et présente un nombre considérable de défis. Les pairs peuvent avoir une durée de connexion limitée et peuvent quitter le système à un taux qui est considérablement plus élevé que dans le cas des systèmes de stockage centralisés. Notre intérêt se concentre sur la manière de fournir efficacement du stockage de données suffisamment fiable en appliquant des schémas de redondance appropriés et en adoptant des bons mécanismes pour maintenir une telle redondance. Cet effort n'est pas négligeable, dans la mesure où la maintenance du stockage de données dans un tel système exige des ressources importantes en termes de capacité de stockage et de largeur de bande passante. Notre contribution se porte sur deux aspects. Premièrement, nous proposons et étudions des codes correcteurs pour la redondance capables de combiner l'efficacité en bande passante de la réplication à l'efficacité en stockage des codes correcteurs classiques. En particulier, nous présentons et analysons deux nouvelles classes de codes: Regenerating Codes et Hierarchical Codes. Deuxièmement, nous proposons un système de réparation, nommé "adaptive proactive repair scheme", qui combine l'adaptabilité des systèmes réactifs avec l'utilisation régulière de la bande passante des systèmes proactifs, en généralisant les deux approches existantes.
APA, Harvard, Vancouver, ISO, and other styles
23

Relaza, Théodore Jean Richard. "Sécurité et disponibilité des données stockées dans les nuages." Thesis, Toulouse 3, 2016. http://www.theses.fr/2016TOU30009/document.

Full text
Abstract:
Avec le développement de l'Internet, l'informatique s'est basée essentiellement sur les communications entre serveurs, postes utilisateurs, réseaux et data centers. Au début des années 2000, les deux tendances à savoir la mise à disposition d'applications et la virtualisation de l'infrastructure ont vu le jour. La convergence de ces deux tendances a donné naissance à un concept fédérateur qu'est le Cloud Computing (informatique en nuage). Le stockage des données apparaît alors comme un élément central de la problématique liée à la mise dans le nuage des processus et des ressources. Qu'il s'agisse d'une simple externalisation du stockage à des fins de sauvegarde, de l'utilisation de services logiciels hébergés ou de la virtualisation chez un fournisseur tiers de l'infrastructure informatique de l'entreprise, la sécurité des données est cruciale. Cette sécurité se décline selon trois axes : la disponibilité, l'intégrité et la confidentialité des données. Le contexte de nos travaux concerne la virtualisation du stockage dédiée à l'informatique en nuage (Cloud Computing). Ces travaux se font dans le cadre du projet SVC (Secured Virtual Cloud) financé par le Fond National pour la Société Numérique " Investissement d'avenir ". Ils ont conduit au développement d'un intergiciel de virtualisation du stockage, nommé CloViS (Cloud Virtualized Storage), qui entre dans une phase de valorisation portée par la SATT Toulouse-Tech-Transfer. CloViS est un intergiciel de gestion de données développé au sein du laboratoire IRIT, qui permet la virtualisation de ressources de stockage hétérogènes et distribuées, accessibles d'une manière uniforme et transparente. CloViS possède la particularité de mettre en adéquation les besoins des utilisateurs et les disponibilités du système par le biais de qualités de service définies sur des volumes virtuels. Notre contribution à ce domaine concerne les techniques de distribution des données afin d'améliorer leur disponibilité et la fiabilité des opérations d'entrées/sorties dans CloViS. En effet, face à l'explosion du volume des données, l'utilisation de la réplication ne peut constituer une solution pérenne. L'utilisation de codes correcteurs ou de schémas de seuil apparaît alors comme une alternative valable pour maîtriser les volumes de stockage. Néanmoins aucun protocole de maintien de la cohérence des données n'est, à ce jour, adapté à ces nouvelles méthodes de distribution. Nous proposons pour cela des protocoles de cohérence des données adaptés à ces différentes techniques de distribution des données. Nous analysons ensuite ces protocoles pour mettre en exergue leurs avantages et inconvénients respectifs. En effet, le choix d'une technique de distribution de données et d'un protocole de cohérence des données associé se base sur des critères de performance notamment la disponibilité en écriture et lecture, l'utilisation des ressources système (comme l'espace de stockage utilisé) ou le nombre moyen de messages échangés durant les opérations de lecture et écriture
With the development of Internet, Information Technology was essentially based on communications between servers, user stations, networks and data centers. Both trends "making application available" and "infrastructure virtualization" have emerged in the early 2000s. The convergence of these two trends has resulted in a federator concept, which is the Cloud Computing. Data storage appears as a central component of the problematic associated with the move of processes and resources in the cloud. Whether it is a simple storage externalization for backup purposes, use of hosted software services or virtualization in a third-party provider of the company computing infrastructure, data security is crucial. This security declines according to three axes: data availability, integrity and confidentiality. The context of our work concerns the storage virtualization dedicated to Cloud Computing. This work is carried out under the aegis of SVC (Secured Virtual Cloud) project, financed by the National Found for Digital Society "Investment for the future". This led to the development of a storage virtualization middleware, named CloViS (Cloud Virtualized Storage), which is entering a valorization phase driven by SATT Toulouse-Tech-Transfer. CloViS is a data management middleware developped within the IRIT laboratory. It allows virtualizing of distributed and heterogeneous storage resources, with uniform and seamless access. CloViS aligns user needs and system availabilities through qualities of service defined on virtual volumes. Our contribution in this field concerns data distribution techniques to improve their availability and the reliability of I/O operations in CloViS. Indeed, faced with the explosion in the amount of data, the use of replication can not be a permanent solution. The use of "Erasure Resilient Code" or "Threshold Schemes" appears as a valid alternative to control storage volumes. However, no data consistency protocol is, to date, adapted to these new data distribution methods. For this reason, we propose to adapt these different data distribution techniques. We then analyse these new protocols, highlighting their respective advantages and disadvantages. Indeed, the choice of a data distribution technique and the associated data consistency protocol is based on performance criteria, especially the availability and the number of messages exchanged during the read and write operations or the use of system resources (such as storage space used)
APA, Harvard, Vancouver, ISO, and other styles
24

Monteiro, Julian. "Modélisation et analyse des systèmes de stockage fiable de données dans des réseaux pair-à-pair." Phd thesis, Université de Nice Sophia-Antipolis, 2010. http://tel.archives-ouvertes.fr/tel-00545724.

Full text
Abstract:
Les systèmes pair-à-pair à grande échelle ont été proposés comme un moyen fiable d'assurer un stockage de données à faible coût. Pour assurer la pérennité des données sur une période très longue, ces systèmes codent les données des utilisateurs comme un ensemble de fragments redondants qui sont distribués entre différents pairs du réseau. Un mécanisme de réparation est nécessaire pour faire face au comportement dynamique et non fiable des pairs. Ce mécanisme reconstruit en permanence les fragments de redondance manquants. Le système dépend de nombreux paramètres de configuration qui doivent être bien réglés, comme le facteur de redondance, sa politique de placement et la fréquence de réparation des données. Ces paramètres affectent la quantité de ressources, telles que la bande passante et l'espace de stockage, nécessaires pour obtenir un niveau souhaité de fiabilité, c'est-à-dire, une certaine probabilité de perdre des données. Cette thèse vise à fournir des outils permettant d'analyser et de prédire la performance de systèmes de stockage de données à grande échelle en général. Nous avons utilisé ces outils pour analyser l'impact de différents choix de conception du système sur différentes mesures de performance. Par exemple, la consommation de bande passante, l'espace de stockage et la probabilité de perdre des données, doivent être aussi faibles que possible. Différentes techniques sont étudiées et appliquées. Tout d'abord, nous décrivons un modèle simple par chaîne de Markov qui exploit la dynamique d'un système de stockage sous l'effet de défaillance des pairs et de réparation de données. Puis nous établissons des formules mathématiques closes qui donnent de bonnes approximations du modèle. Ces formules nous permettent de comprendre les interactions entre les paramètres du système. En effet, un mécanisme de réparation paresseux (lazy repair) est étudié et nous décrivons comment régler les paramètres du système pour obtenir une utilisation efficace de la bande passante. Nous confirmons en comparant à des simulations que ce modèle donne des approximations correctes du comportement moyen du système, mais ne parvient pas à capturer ses importantes variations au fil du temps. Nous proposons ensuite un nouveau modèle stochastique basé sur une approximation fluide pour saisir les écarts par rapport au comportement moyen. Ces variations qui sont généralement négligées par les travaux antérieurs, sont très im- portants pour faire une bonne estimation des ressources nécessaires au système. De plus, nous étudions plusieurs autres aspects d'un système de stockage distribué: nous utilisons un modèle de files d'attente pour calculer le temps de réparation pour un système avec bande passante limitée; nous étudions un système de codage hybride: en mixant les codes d'éffacement avec la simple réplication des données; enfin, nous étudions l'impact des différentes façons de distribuer des fragments de données entre les pairs, i.e., les stratégies des placements.
APA, Harvard, Vancouver, ISO, and other styles
25

Goëta, Samuel. "Instaurer des données, instaurer des publics : une enquête sociologique dans les coulisses de l'open data." Electronic Thesis or Diss., Paris, ENST, 2016. http://www.theses.fr/2016ENST0045.

Full text
Abstract:
Alors que plus de cinquante pays dans le monde ont entrepris une démarche d’ouverture des données publiques, la thèse enquête sur l’émergence et la mise en oeuvre des politiques d’open data. Elle repose sur l’analyse de sources publiques et sur une enquête ethnographique conduite dans sept collectivités locales et institutions françaises. Revenant sur six moments de définition de grands « principes » de l’open data et leur traduction en politique publique par une institution française, Etalab, ce travail montre comment la catégorisation par l’open data a porté l’attention sur les données, en particulier sous leur forme « brute », considérées comme une ressource inexploitée, le « nouveau pétrole » gisant sous les organisations. L’enquête montre que le processus de l’ouverture débute généralement par une phase d’identification marquée par des explorations progressives et incertaines. Elle permet de comprendre que l’identification constitue un geste d’instauration qui transforme progressivement les fichiers de gestion de l’administration en données. Leur mise en circulation provoque des frictions : pour sortir des réseaux sociotechniques de l’organisation, les données doivent généralement passer à travers des circuits de validation et des chaînes de traitement. Par ailleurs, les données doivent souvent subir d’importantes transformations avant leur ouverture pour devenir intelligibles à la fois par les machines et par les humains. Cette thèse montre enfin que l’instauration concerne aussi les publics dont il est attendu qu’ils visualisent, inspectent et exploitent les données ouvertes. L’instauration des publics par des instruments très divers constitue un autre pan du travail invisible des politiques d’open data. Il ressort enfin de cette thèse que l’obligation à l’ouverture des données publiques, une suite possible des politiques d’open data, pose de manière saillante une question fondamentale « qu’est-ce qu’une donnée ? » Plutôt que de réduire la donnée à une catégorie relative, qui s’appliquerait à toutes sortes de matériaux informationnels, les cas étudiés montrent qu’elle est généralement attribuée dès lors que les données sont le point de départ de réseauxsociotechniques dédiés à leur circulation, leur exploitation et leur mise en visibilité
As more than fifty countries have launched an open data policy, this doctoral dissertation investigates on the emergence and implementation of such policies. It is based on the analysis of public sources and an ethnographic inquiry conducted in seven French local authorities and institutions. By retracing six moments of definitions of the “open data principles” and their implementation by a French institution, Etalab, this work shows how open data has brought attention to data, particularly in their raw form, considered as an untapped resource, the “new oil” lying under the organisations. The inquiry shows that the process of opening generally begins by a phase of identification marked by progressive and uncertain explorations. It allows to understand that data are progressively instantiated from management files into data. Their circulation provoke frictions: to leave the sociotechnical network of organisations, data generally go through validation circuits and chains of treatment. Besides, data must often undergo important treatments before their opening in order to become intelligible by machines as well as humans. This thesis shows eventually that data publics are also instantiated as they are expected to visualize, inspect and process the data. Data publics are instantiated through various tools, which compose another area of the invisible work of open data projects. Finally, it appears from this work that the possible legal requirement to open data asks a fundamental question, “what is data?” Instead of reducing data to a relational category, which would apply to any informational material, studied cases show that they generally are applied when data are a starting point of sociotechnical networks dedicated to their circulation, their exploitation and their visibility
APA, Harvard, Vancouver, ISO, and other styles
26

Chihoub, Houssem Eddine. "Managing consistency for big data applications : tradeoffs and self-adaptiveness." Thesis, Cachan, Ecole normale supérieure, 2013. http://www.theses.fr/2013DENS0059/document.

Full text
Abstract:
Dans l’ère de Big Data, les applications intensives en données gèrent des volumes de données extrêmement grand. De plus, ils ont besoin de temps de traitement rapide. Une grande partie de ces applications sont déployées sur des infrastructures cloud. Ceci est afin de bénéficier de l’élasticité des clouds, les déploiements sur demande et les coûts réduits strictement relatifs à l’usage. Dans ce contexte, la réplication est un moyen essentiel dans le cloud afin de surmonter les défis de Big Data. En effet, la réplication fournit les moyens pour assurer la disponibilité des données à travers de nombreuses copies de données, des accès plus rapide aux copies locales, la tolérance aux fautes. Cependant, la réplication introduit le problème majeur de la cohérence de données. La gestion de la cohérence est primordiale pour les systèmes de Big Data. Les modèles à cohérence forte présentent de grandes limitations aux aspects liées aux performances et au passage à l’échelle à cause des besoins de synchronisation. En revanche, les modèles à cohérence faible et éventuelle promettent de meilleures performances ainsi qu’une meilleure disponibilité de données. Toutefois, ces derniers modèles peuvent tolérer, sous certaines conditions, trop d’incohérence temporelle. Dans le cadre du travail de cette thèse, on s'adresse particulièrement aux problèmes liés aux compromis de cohérence dans les systèmes à large échelle de Big Data. Premièrement, on étudie la gestion de cohérence au niveau du système de stockage. On introduit un modèle de cohérence auto-adaptative (nommé Harmony). Ce modèle augmente et diminue de manière automatique le niveau de cohérence et le nombre de copies impliquées dans les opérations. Ceci permet de fournir de meilleures performances toute en satisfaisant les besoins de cohérence de l’application. De plus, on introduit une étude détaillée sur l'impact de la gestion de la cohérence sur le coût financier dans le cloud. On emploi cette étude afin de proposer une gestion de cohérence efficace qui réduit les coûts. Dans une troisième direction, on étudie les effets de gestion de cohérence sur la consommation en énergie des systèmes de stockage distribués. Cette étude nous mène à analyser les gains potentiels des reconfigurations adaptatives des systèmes de stockage en matière de réduction de la consommation. Afin de compléter notre travail au niveau système de stockage, on s'adresse à la gestion de cohérence au niveau de l’application. Les applications de Big Data sont de nature différente et ont des besoins de cohérence différents. Par conséquent, on introduit une approche de modélisation du comportement de l’application lors de ses accès aux données. Le modèle résultant facilite la compréhension des besoins en cohérence. De plus, ce modèle est utilisé afin de délivrer une cohérence customisée spécifique à l’application
In the era of Big Data, data-intensive applications handle extremely large volumes of data while requiring fast processing times. A large number of such applications run in the cloud in order to benefit from cloud elasticity, easy on-demand deployments, and cost-efficient Pays-As-You-Go usage. In this context, replication is an essential feature in the cloud in order to deal with Big Data challenges. Therefore, replication therefore, enables high availability through multiple replicas, fast data access to local replicas, fault tolerance, and disaster recovery. However, replication introduces the major issue of data consistency across different copies. Consistency management is a critical for Big Data systems. Strong consistency models introduce serious limitations to systems scalability and performance due to the required synchronization efforts. In contrast, weak and eventual consistency models reduce the performance overhead and enable high levels of availability. However, these models may tolerate, under certain scenarios, too much temporal inconsistency. In this Ph.D thesis, we address this issue of consistency tradeoffs in large-scale Big Data systems and applications. We first, focus on consistency management at the storage system level. Accordingly, we propose an automated self-adaptive model (named Harmony) that scale up/down the consistency level at runtime when needed in order to provide as high performance as possible while preserving the application consistency requirements. In addition, we present a thorough study of consistency management impact on the monetary cost of running in the cloud. Hereafter, we leverage this study in order to propose a cost efficient consistency tuning (named Bismar) in the cloud. In a third direction, we study the consistency management impact on energy consumption within the data center. According to our findings, we investigate adaptive configurations of the storage system cluster that target energy saving. In order to complete our system-side study, we focus on the application level. Applications are different and so are their consistency requirements. Understanding such requirements at the storage system level is not possible. Therefore, we propose an application behavior modeling that apprehend the consistency requirements of an application. Based on the model, we propose an online prediction approach- named Chameleon that adapts to the application specific needs and provides customized consistency
APA, Harvard, Vancouver, ISO, and other styles
27

Bahloul, Khaled. "Optimisation combinée des coûts de transport et de stockage dans un réseau logistique dyadique, multi-produits avec demande probabiliste." Phd thesis, INSA de Lyon, 2011. http://tel.archives-ouvertes.fr/tel-00695275.

Full text
Abstract:
Le but de cette thèse est de proposer des méthodes de gestion des approvisionnements adaptées à des contextes particuliers afin de minimiser les coûts logistiques engendrés dans un réseau logistique multi produits, multi niveaux confronté à une demande probabiliste. Au cours de cette thèse, nous nous sommes attachés à : - Proposer des méthodes de gestion des stocks et du transport pour des familles de produits dans différents contextes : o Une première politique de réapprovisionnement est proposée pour une famille de produits caractérisée par une demande aléatoire et répétitive. Cette politique est définie par un niveau de commande et par un niveau de ré-complètement de stock pour chaque produit et une période de réapprovisionnement. Dès qu'un produit atteint le niveau de commande, un réapprovisionnement de tous les produits de la famille est déclenché. o Une deuxième politique de réapprovisionnement est proposée pour une famille de produits caractérisée par une demande très aléatoire et ponctuelle. Cette politique est basée sur les ruptures de stock. A chaque rupture d'un produit présent dans le stock il y a déclenchement d'un réapprovisionnement de tous les produits de la famille. - Proposer une méthode de classification multicritères afin de constituer des groupes de produits relevant d'une politique donnée, chaque classe ou famille regroupant des produits réagissant identiquement. Cette classification des produits en familles homogènes permet d'identifier les caractéristiques déterminantes dans le choix des méthodes de gestion de stock et de transport. - Analyser et comparer les performances de ces deux politiques d'approvisionnement par rapport à des politiques de référence, ainsi que leur sensibilité au regard de quelques paramètres discriminants : variabilité de la demande ; coût des produits ; coût des commandes urgentes...
APA, Harvard, Vancouver, ISO, and other styles
28

Lima, Jose Valdeni de. "Gestion d'objects composes dans un SGBD : cas particulier des documents structures." reponame:Biblioteca Digital de Teses e Dissertações da UFRGS, 1990. http://hdl.handle.net/10183/18391.

Full text
Abstract:
Cette thèse traite du problème de la gestion des documents structurés multimédia dans un SGBD. Par gestion, nous entendons la modélisation, la manipulation, le stockage et l'accès aux documents. Nous présentons un modèle de Documents Structurés de Bureau (DSB) et une algèbre associée pour réaliser la spécification précise des aspects fonctionnels : opérateurs de construction et restructuration des objets manipulés et fonctions d'accès. Le stockage et l'accès sont implémentés au niveau fonctionnel sous forme d'opérations sur des documents en prenant en considération leurs structures logiques. Le couplage du modèle standard ODA au modéle DSB et l'intégration au niveau fonctionnel des opérations implémentées ont permis la mise en place d'un gestionnaire autonome de documents utilisable à partir d'un SGBD relationnel. Ce gestionnaire de documents pemiet la spécialisation des documents et l'utilisation de valeurs nulles. Une grande partie de ce travail a été réalisée dans le cadre du projet ESPRIT DOEOIS et un prototype expérimental a été développé sur ORACLE.
APA, Harvard, Vancouver, ISO, and other styles
29

Goeta, Samuel. "Instaurer des données, instaurer des publics : une enquête sociologique dans les coulisses de l'open data." Thesis, Paris, ENST, 2016. http://www.theses.fr/2016ENST0045/document.

Full text
Abstract:
Alors que plus de cinquante pays dans le monde ont entrepris une démarche d’ouverture des données publiques, la thèse enquête sur l’émergence et la mise en oeuvre des politiques d’open data. Elle repose sur l’analyse de sources publiques et sur une enquête ethnographique conduite dans sept collectivités locales et institutions françaises. Revenant sur six moments de définition de grands « principes » de l’open data et leur traduction en politique publique par une institution française, Etalab, ce travail montre comment la catégorisation par l’open data a porté l’attention sur les données, en particulier sous leur forme « brute », considérées comme une ressource inexploitée, le « nouveau pétrole » gisant sous les organisations. L’enquête montre que le processus de l’ouverture débute généralement par une phase d’identification marquée par des explorations progressives et incertaines. Elle permet de comprendre que l’identification constitue un geste d’instauration qui transforme progressivement les fichiers de gestion de l’administration en données. Leur mise en circulation provoque des frictions : pour sortir des réseaux sociotechniques de l’organisation, les données doivent généralement passer à travers des circuits de validation et des chaînes de traitement. Par ailleurs, les données doivent souvent subir d’importantes transformations avant leur ouverture pour devenir intelligibles à la fois par les machines et par les humains. Cette thèse montre enfin que l’instauration concerne aussi les publics dont il est attendu qu’ils visualisent, inspectent et exploitent les données ouvertes. L’instauration des publics par des instruments très divers constitue un autre pan du travail invisible des politiques d’open data. Il ressort enfin de cette thèse que l’obligation à l’ouverture des données publiques, une suite possible des politiques d’open data, pose de manière saillante une question fondamentale « qu’est-ce qu’une donnée ? » Plutôt que de réduire la donnée à une catégorie relative, qui s’appliquerait à toutes sortes de matériaux informationnels, les cas étudiés montrent qu’elle est généralement attribuée dès lors que les données sont le point de départ de réseauxsociotechniques dédiés à leur circulation, leur exploitation et leur mise en visibilité
As more than fifty countries have launched an open data policy, this doctoral dissertation investigates on the emergence and implementation of such policies. It is based on the analysis of public sources and an ethnographic inquiry conducted in seven French local authorities and institutions. By retracing six moments of definitions of the “open data principles” and their implementation by a French institution, Etalab, this work shows how open data has brought attention to data, particularly in their raw form, considered as an untapped resource, the “new oil” lying under the organisations. The inquiry shows that the process of opening generally begins by a phase of identification marked by progressive and uncertain explorations. It allows to understand that data are progressively instantiated from management files into data. Their circulation provoke frictions: to leave the sociotechnical network of organisations, data generally go through validation circuits and chains of treatment. Besides, data must often undergo important treatments before their opening in order to become intelligible by machines as well as humans. This thesis shows eventually that data publics are also instantiated as they are expected to visualize, inspect and process the data. Data publics are instantiated through various tools, which compose another area of the invisible work of open data projects. Finally, it appears from this work that the possible legal requirement to open data asks a fundamental question, “what is data?” Instead of reducing data to a relational category, which would apply to any informational material, studied cases show that they generally are applied when data are a starting point of sociotechnical networks dedicated to their circulation, their exploitation and their visibility
APA, Harvard, Vancouver, ISO, and other styles
30

Vasilopoulos, Dimitrios. "Reconciling cloud storage functionalities with security : proofs of storage with data reliability and secure deduplication." Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS399.

Full text
Abstract:
Dans cette thèse, nous étudions en profondeur le problème de la vérifiabilité des systèmes de stockage en nuage. Suite à notre étude des preuves de stockage et nous avons identifié des limitations par rapport à deux caractéristiques essentielles aux systèmes de stockage en nuage: la fiabilité du stockage des données avec une maintenance automatique et la déduplication des données. Pour faire face à la première limitation, nous introduisons la notion de preuve de fiabilité des données, un schéma de vérification complet visant à résoudre le conflit entre la vérification fiable du stockage des données et la maintenance automatique. Nous proposons deux schémas de preuve de fiabilité des données, à savoir POROS et PORTOS, qui permettent de vérifier un mécanisme de stockage fiable de données tout en permettant au fournisseur de stockage en nuage d'effectuer de manière autonome des opérations de maintenance automatique. En ce qui concerne la deuxième caractéristique, nous traitons le conflit entre les preuves de stockage et la déduplication. Plus précisément nous proposons une preuve de stockage à message verrouillé c'est-à-dire une solution combinant les preuves de stockage avec la déduplication. De plus, nous proposons un nouveau protocole de génération de clé à message verrouillé qui résiste mieux aux attaques de dictionnaire hors ligne par rapport aux solutions existantes
In this thesis we study in depth the problem of verifiability in cloud storage systems. We study Proofs of Storage -a family of cryptographic protocols that enable a cloud storage provider to prove to a user that the integrity of her data has not been compromised- and we identify their limitations with respect to two key characteristics of cloud storage systems, namely, reliable data storage with automatic maintenance and data deduplication. To cope with the first characteristic, we introduce the notion of Proofs of Data Reliability, a comprehensive verification scheme that aims to resolve the conflict between reliable data storage verification and automatic maintenance. We further propose two Proofs of Data Reliability schemes, namely POROS and PORTOS, that succeed in verifying reliable data storage and, at the same time, enable the cloud storage provider to autonomously perform automatic maintenance operations. As regards to the second characteristic, we address the conflict between Proofs of Storage and deduplication. More precisely, inspired by previous attempts in solving the problem of deduplicating encrypted data, we propose message-locked PoR, a solution that combines Proofs of Storage with deduplication. In addition, we propose a novel message-locked key generation protocol which is more resilient against off-line dictionary attacks compared to existing solutions
APA, Harvard, Vancouver, ISO, and other styles
31

Sun, Yan. "Simulation du cycle biogéochimique du phosphore dans le modèle de surface terrestre ORCHIDEE : évaluation par rapport à des données d'observation locales et mondiales." Electronic Thesis or Diss., université Paris-Saclay, 2021. http://www.theses.fr/2021UPASJ001.

Full text
Abstract:
Le phosphore (P) joue un rôle essentiel dans le contrôle des processus métaboliques, de la dynamique de la matière organique du sol et de la productivité des écosystèmes, affectant ainsi le bilan des gaz à effet de serre (GES) des écosystèmes terrestres. Un nombre croissant de modèles numériques d’écosystèmes terrestres (LSMs) ont incorporé le cycle du phosphore mais leurs prévisions des bilans de GES restent incertaines. Les raisons sont: (1) le manque de données de référence pour les processus clés liés au P, (2) le manque d’approche intégrée globale d'évaluation adaptée aux processus spécifiques à P et les intéractions entre le cycle de P et celui du carbone (C) et de l'azote (N), et (3) le calibrage insuffisant des modèle, limité par le coût de calcul élevé pour simuler des cycles CNP couplés sur des échelles de temps allant de quelques minutes à plusieurs millénaires. Pour remédier à ces goulots d'étranglement, j'applique une combinaison de méthodes statistiques (apprentissage automatique), de LSMs et de données d'observation à différentes échelles.Premièrement (chapitre 2), pour compléter les données de référence de l’évaluation des modèles. J'ai appliqué deux méthodes d'apprentissage automatique afin de produire des cartes spatiales de l'activité de la phosphatase acide (AP) à l'échelle continentale en extrapolant les observations sur sites de l'activité potentielle de la AP. Le AP sécrété par les mycorhizes, les bactéries et les racines des plantes joue un rôle important dans le recyclage du P du sol en transformant le P organique non disponible en phosphate assimilable. La méthode du réseau artificiel de rétropropagation (BPN) a expliqué 58% de la variabilité spatiale de AP et peut reproduire les gradients en AP le long de trois transects en Europe. Les éléments nutritifs du sol et les variables climatiques ont été détectés comme les principaux facteurs influençant les variations de la AP dans l'espace.Deuxièmement (chapitre 3), j'ai évalué les performances de la version globale du LSM ORCHIDEE-CNP (v1.2) en utilisant les données du chapitre 2 ainsi que des données issues de la télédétection, des réseaux de mesure au sol et des bases de données. Les composantes simulées du cycle N et P à différents niveaux d'agrégation sont en bon accord avec les estimations empiriques. Nous avons identifié des biais de modèle, sur la stoechiométrie des feuilles et du sol et de l'efficacité d'utilisation des plantes P, qui suggèrent une sous-estimation de la disponibilité de P aux hautes latitudes. Basé sur notre analyse, nous proposons des moyens de corriger les biais du modèle en donnant la priorité à une meilleure représentation des processus de minéralisation du P organique du sol et de la transformation du P inorganique du sol.Enfin (chapitre 4) j'ai conçu et testé une procédure basée sur l'apprentissage automatique (ML) pour l'accélération de l'équilibration des cycles biogéochimiques en réponse à des conditions aux limites stationnaires, un problème qui est la source d’une faible efficacité de calcul des LSMs représentants les couplages entre P et autres éléments. Cette approche d'accélération basée sur le ML(MLA) requiert de ne faire tourner qu'un petit sous-ensemble de pixels (14,1%) à partir desquels l'état d’équilibre des pixels restants est estimé par ML. La méthode de MLA prédit suffisamment bien l'état d'équilibre des stocks de C, N et P du sol, de la biomasse et de la litière C, N et P, comme l'indique l'erreur mineure introduite dans la simulation du bilan actuel du C terrestre. La consommation de calcul de MLA est un ordre de grandeur inférieure à l'approche actuellement utilisée, ce qui rend possible l’assimilation de données à l'aide des ensembles de données d'observation en constante augmentation.Dans les perspectives, je discute des applications spécifiques de l'approche MLA et des priorités de recherche futures pour améliorer encore la fiabilité et la robustesse des LSMs P-enabled
Phosphorus (P) plays a critical role in controlling metabolic processes, soil organic matter dynamics, plant growth and ecosystem productivity, thereby affecting greenhouse gas balance (GHG) of land ecosystems. A small number of land surface models have incorporated P cycles but their predictions of GHG balances remain highly uncertain. The reasons are: (1) scarce benchmarking data for key P-related processes (e.g. continental to global scale gridded datasets), (2) lack of comprehensive global evaluation strategy tailored for d P processes and interlinkages with carbon and nitrogen (N) cycles, and (3) insufficient model calibration limited by the high computation cost to simulate coupled CNP cycles which operate on timescales of minutes to millenia. Addressing those research gaps, I apply a combination of statistical methods (machine learning), LSMs and observational data among various scales.Firstly (Chapter 2), to address the lack of benchmarking data, I applied two machine-learning methods with the aim to produce spatial gridded maps of acid phosphatase (AP) activity on continental scale by scaling up scattered site observations of potential AP activity. AP secreted by fungi, bacteria and plant roots play an important role in recycling of soil P via transforming unavailable organic P into assimilable phosphate. The back-propagation artificial network (BPN) method that was chosen explained 58% of AP variability and was able to identify the gradients in AP along three transects in Europe. Soil nutrients (total nitrogen, total P and labile organic P) and climatic controls (annual precipitation, mean annual temperature and temperature amplitude) were detected to be the dominant factors influencing AP variations in space.Secondly (Chapter 3), I evaluated the performance of the global version of the land surface model ORCHIDEE-CNP (v1.2) using the data from chapter 2 as well as additional data from remote-sensing, ground-based measurement networks and ecological databases. Simulated components of the N and P cycle at different levels of aggregation (from local to global) are in good agreement with data-driven estimates. We identified model biases, in the simulated large-scale patterns of leaf and soil stoichiometry and plant P use efficiency, which point towards an underestimation of P availability towards the poles. Based on our analysis, we propose ways to address the model biases by giving priority to better representing processes of soil organic P mineralization and soil inorganic P transformation.Lastly (Chapter 4), I designed and tested a Machine Learning (ML)-based procedure for acceleration of the equilibration of biogeochemical cycles to boundary conditions (spinup) which is causing the low computational efficiency of current P-enabled LSMs. This ML-based acceleration approach (MLA) requires to spin-up only a small subset of model pixels (14.1%) from which the equilibrium state of the remaining pixels is estimated by ML. MLA predicts the equilibrium state of soil, biomass and litter C, N and P on both PFT and global scale sufficiently well as indicated by the minor error introduced in simulating current land carbon balance. The computational consumption of MLA is about one order of magnitude less than the currently used approach, which opens the opportunity of data assimilation using the ever-growing observation datasets.In the outlook, specific applications of the MLA approach and future research priorities are discussed to further improve the reliability and robustness of phosphorus-enabled land surface models
APA, Harvard, Vancouver, ISO, and other styles
32

Ikken, Sonia. "Efficient placement design and storage cost saving for big data workflow in cloud datacenters." Electronic Thesis or Diss., Evry, Institut national des télécommunications, 2017. http://www.theses.fr/2017TELE0020.

Full text
Abstract:
Les workflows sont des systèmes typiques traitant le big data. Ces systèmes sont déployés sur des sites géo-distribués pour exploiter des infrastructures cloud existantes et réaliser des expériences à grande échelle. Les données générées par de telles expériences sont considérables et stockées à plusieurs endroits pour être réutilisées. En effet, les systèmes workflow sont composés de tâches collaboratives, présentant de nouveaux besoins en terme de dépendance et d'échange de données intermédiaires pour leur traitement. Cela entraîne de nouveaux problèmes lors de la sélection de données distribuées et de ressources de stockage, de sorte que l'exécution des tâches ou du job s'effectue à temps et que l'utilisation des ressources soit rentable. Par conséquent, cette thèse aborde le problème de gestion des données hébergées dans des centres de données cloud en considérant les exigences des systèmes workflow qui les génèrent. Pour ce faire, le premier problème abordé dans cette thèse traite le comportement d'accès aux données intermédiaires des tâches qui sont exécutées dans un cluster MapReduce-Hadoop. Cette approche développe et explore le modèle de Markov qui utilise la localisation spatiale des blocs et analyse la séquentialité des fichiers spill à travers un modèle de prédiction. Deuxièmement, cette thèse traite le problème de placement de données intermédiaire dans un stockage cloud fédéré en minimisant le coût de stockage. A travers les mécanismes de fédération, nous proposons un algorithme exacte ILP afin d’assister plusieurs centres de données cloud hébergeant les données de dépendances en considérant chaque paire de fichiers. Enfin, un problème plus générique est abordé impliquant deux variantes du problème de placement lié aux dépendances divisibles et entières. L'objectif principal est de minimiser le coût opérationnel en fonction des besoins de dépendances inter et intra-job
The typical cloud big data systems are the workflow-based including MapReduce which has emerged as the paradigm of choice for developing large scale data intensive applications. Data generated by such systems are huge, valuable and stored at multiple geographical locations for reuse. Indeed, workflow systems, composed of jobs using collaborative task-based models, present new dependency and intermediate data exchange needs. This gives rise to new issues when selecting distributed data and storage resources so that the execution of tasks or job is on time, and resource usage-cost-efficient. Furthermore, the performance of the tasks processing is governed by the efficiency of the intermediate data management. In this thesis we tackle the problem of intermediate data management in cloud multi-datacenters by considering the requirements of the workflow applications generating them. For this aim, we design and develop models and algorithms for big data placement problem in the underlying geo-distributed cloud infrastructure so that the data management cost of these applications is minimized. The first addressed problem is the study of the intermediate data access behavior of tasks running in MapReduce-Hadoop cluster. Our approach develops and explores Markov model that uses spatial locality of intermediate data blocks and analyzes spill file sequentiality through a prediction algorithm. Secondly, this thesis deals with storage cost minimization of intermediate data placement in federated cloud storage. Through a federation mechanism, we propose an exact ILP algorithm to assist multiple cloud datacenters hosting the generated intermediate data dependencies of pair of files. The proposed algorithm takes into account scientific user requirements, data dependency and data size. Finally, a more generic problem is addressed in this thesis that involve two variants of the placement problem: splittable and unsplittable intermediate data dependencies. The main goal is to minimize the operational data cost according to inter and intra-job dependencies
APA, Harvard, Vancouver, ISO, and other styles
33

Bellec, Matthieu. "Nanostructuration par laser femtoseconde dans un verre photo-luminescent." Phd thesis, Université Sciences et Technologies - Bordeaux I, 2009. http://tel.archives-ouvertes.fr/tel-00459311.

Full text
Abstract:
L'objet de cette thèse est l'étude de l'interaction d'un laser femtoseconde avec un support photosensible particulier : un verre phosphate dopé à l'argent appelé verre photo-luminescent (PL). Une nouvelle approche permettant de réaliser en trois dimensions dans un verre PL des nanostructures d'argent aux dimensions bien inférieures à la limite de diffraction est tout d'abord présentée. La mesure des propriétés optiques et structurales pour différentes échelles (spatiales et temporelles) a permis de proposer un mécanisme de formation des structures photo-induites qui est basé sur un jeu subtil entre les phénomènes d'absorption non-linéaire et de thermo-diffusion. La deuxième partie de cette thèse sera rientée sur les propriétés optiques (linéaires et non-linéaires) et les applications des ces nanostructures d'argent. En particulier, l'exaltation des propriétés non-linéaires des agrégats d'argent sera exploitée pour stocker optiquement de l'information en trois dimensions.
APA, Harvard, Vancouver, ISO, and other styles
34

Kaaniche, Nesrine. "Cloud data storage security based on cryptographic mechanisms." Thesis, Evry, Institut national des télécommunications, 2014. http://www.theses.fr/2014TELE0033/document.

Full text
Abstract:
Au cours de la dernière décennie, avec la standardisation d’Internet, le développement des réseaux à haut débit, le paiement à l’usage et la quête sociétale de la mobilité, le monde informatique a vu se populariser un nouveau paradigme, le Cloud. Le recours au cloud est de plus en plus remarquable compte tenu de plusieurs facteurs, notamment ses architectures rentables, prenant en charge la transmission, le stockage et le calcul intensif de données. Cependant, ces services de stockage prometteurs soulèvent la question de la protection des données et de la conformité aux réglementations, considérablement due à la perte de maîtrise et de gouvernance. Cette dissertation vise à surmonter ce dilemme, tout en tenant compte de deux préoccupations de sécurité des données, à savoir la confidentialité des données et l’intégrité des données. En premier lieu, nous nous concentrons sur la confidentialité des données, un enjeu assez considérable étant donné le partage de données flexible au sein d’un groupe dynamique d’utilisateurs. Cet enjeu exige, par conséquence, un partage efficace des clés entre les membres du groupe. Pour répondre à cette préoccupation, nous avons, d’une part, proposé une nouvelle méthode reposant sur l’utilisation de la cryptographie basée sur l’identité (IBC), où chaque client agit comme une entité génératrice de clés privées. Ainsi, il génère ses propres éléments publics et s’en sert pour le calcul de sa clé privée correspondante. Grâce aux propriétés d’IBC, cette contribution a démontré sa résistance face aux accès non autorisés aux données au cours du processus de partage, tout en tenant compte de deux modèles de sécurité, à savoir un serveur de stockage honnête mais curieux et un utilisateur malveillant. D’autre part, nous définissons CloudaSec, une solution à base de clé publique, qui propose la séparation de la gestion des clés et les techniques de chiffrement, sur deux couches. En effet, CloudaSec permet un déploiement flexible d’un scénario de partage de données ainsi que des garanties de sécurité solides pour les données externalisées sur les serveurs du cloud. Les résultats expérimentaux, sous OpenStack Swift, ont prouvé l’efficacité de CloudaSec, en tenant compte de l’impact des opérations cryptographiques sur le terminal du client. En deuxième lieu, nous abordons la problématique de la preuve de possession de données (PDP). En fait, le client du cloud doit avoir un moyen efficace lui permettant d’effectuer des vérifications périodiques d’intégrité à distance, sans garder les données localement. La preuve de possession se base sur trois aspects : le niveau de sécurité, la vérification publique, et les performances. Cet enjeu est amplifié par des contraintes de stockage et de calcul du terminal client et de la taille des données externalisées. Afin de satisfaire à cette exigence de sécurité, nous définissons d’abord un nouveau protocole PDP, sans apport de connaissance, qui fournit des garanties déterministes de vérification d’intégrité, en s’appuyant sur l’unicité de la division euclidienne. Ces garanties sont considérées comme intéressantes par rapport à plusieurs schémas proposés, présentant des approches probabilistes. Ensuite, nous proposons SHoPS, un protocole de preuve de possession de données capable de traiter les trois relations d’ensembles homomorphiques. SHoPS permet ainsi au client non seulement d’obtenir une preuve de la possession du serveur distant, mais aussi de vérifier que le fichier, en question, est bien réparti sur plusieurs périphériques de stockage permettant d’atteindre un certain niveau de la tolérance aux pannes. En effet, nous présentons l’ensemble des propriétés homomorphiques, qui étend la malléabilité du procédé aux propriétés d’union, intersection et inclusion
Recent technological advances have given rise to the popularity and success of cloud. This new paradigm is gaining an expanding interest, since it provides cost efficient architectures that support the transmission, storage, and intensive computing of data. However, these promising storage services bring many challenging design issues, considerably due to the loss of data control. These challenges, namely data confidentiality and data integrity, have significant influence on the security and performances of the cloud system. This thesis aims at overcoming this trade-off, while considering two data security concerns. On one hand, we focus on data confidentiality preservation which becomes more complex with flexible data sharing among a dynamic group of users. It requires the secrecy of outsourced data and an efficient sharing of decrypting keys between different authorized users. For this purpose, we, first, proposed a new method relying on the use of ID-Based Cryptography (IBC), where each client acts as a Private Key Generator (PKG). That is, he generates his own public elements and derives his corresponding private key using a secret. Thanks to IBC properties, this contribution is shown to support data privacy and confidentiality, and to be resistant to unauthorized access to data during the sharing process, while considering two realistic threat models, namely an honest but curious server and a malicious user adversary. Second, we define CloudaSec, a public key based solution, which proposes the separation of subscription-based key management and confidentiality-oriented asymmetric encryption policies. That is, CloudaSec enables flexible and scalable deployment of the solution as well as strong security guarantees for outsourced data in cloud servers. Experimental results, under OpenStack Swift, have proven the efficiency of CloudaSec in scalable data sharing, while considering the impact of the cryptographic operations at the client side. On the other hand, we address the Proof of Data Possession (PDP) concern. In fact, the cloud customer should have an efficient way to perform periodical remote integrity verifications, without keeping the data locally, following three substantial aspects : security level, public verifiability, and performance. This concern is magnified by the client’s constrained storage and computation capabilities and the large size of outsourced data. In order to fulfill this security requirement, we first define a new zero-knowledge PDP proto- col that provides deterministic integrity verification guarantees, relying on the uniqueness of the Euclidean Division. These guarantees are considered as interesting, compared to several proposed schemes, presenting probabilistic approaches. Then, we propose SHoPS, a Set-Homomorphic Proof of Data Possession scheme, supporting the 3 levels of data verification. SHoPS enables the cloud client not only to obtain a proof of possession from the remote server, but also to verify that a given data file is distributed across multiple storage devices to achieve a certain desired level of fault tolerance. Indeed, we present the set homomorphism property, which extends malleability to set operations properties, such as union, intersection and inclusion. SHoPS presents high security level and low processing complexity. For instance, SHoPS saves energy within the cloud provider by distributing the computation over multiple nodes. Each node provides proofs of local data block sets. This is to make applicable, a resulting proof over sets of data blocks, satisfying several needs, such as, proofs aggregation
APA, Harvard, Vancouver, ISO, and other styles
35

Kaaniche, Nesrine. "Cloud data storage security based on cryptographic mechanisms." Electronic Thesis or Diss., Evry, Institut national des télécommunications, 2014. http://www.theses.fr/2014TELE0033.

Full text
Abstract:
Au cours de la dernière décennie, avec la standardisation d’Internet, le développement des réseaux à haut débit, le paiement à l’usage et la quête sociétale de la mobilité, le monde informatique a vu se populariser un nouveau paradigme, le Cloud. Le recours au cloud est de plus en plus remarquable compte tenu de plusieurs facteurs, notamment ses architectures rentables, prenant en charge la transmission, le stockage et le calcul intensif de données. Cependant, ces services de stockage prometteurs soulèvent la question de la protection des données et de la conformité aux réglementations, considérablement due à la perte de maîtrise et de gouvernance. Cette dissertation vise à surmonter ce dilemme, tout en tenant compte de deux préoccupations de sécurité des données, à savoir la confidentialité des données et l’intégrité des données. En premier lieu, nous nous concentrons sur la confidentialité des données, un enjeu assez considérable étant donné le partage de données flexible au sein d’un groupe dynamique d’utilisateurs. Cet enjeu exige, par conséquence, un partage efficace des clés entre les membres du groupe. Pour répondre à cette préoccupation, nous avons, d’une part, proposé une nouvelle méthode reposant sur l’utilisation de la cryptographie basée sur l’identité (IBC), où chaque client agit comme une entité génératrice de clés privées. Ainsi, il génère ses propres éléments publics et s’en sert pour le calcul de sa clé privée correspondante. Grâce aux propriétés d’IBC, cette contribution a démontré sa résistance face aux accès non autorisés aux données au cours du processus de partage, tout en tenant compte de deux modèles de sécurité, à savoir un serveur de stockage honnête mais curieux et un utilisateur malveillant. D’autre part, nous définissons CloudaSec, une solution à base de clé publique, qui propose la séparation de la gestion des clés et les techniques de chiffrement, sur deux couches. En effet, CloudaSec permet un déploiement flexible d’un scénario de partage de données ainsi que des garanties de sécurité solides pour les données externalisées sur les serveurs du cloud. Les résultats expérimentaux, sous OpenStack Swift, ont prouvé l’efficacité de CloudaSec, en tenant compte de l’impact des opérations cryptographiques sur le terminal du client. En deuxième lieu, nous abordons la problématique de la preuve de possession de données (PDP). En fait, le client du cloud doit avoir un moyen efficace lui permettant d’effectuer des vérifications périodiques d’intégrité à distance, sans garder les données localement. La preuve de possession se base sur trois aspects : le niveau de sécurité, la vérification publique, et les performances. Cet enjeu est amplifié par des contraintes de stockage et de calcul du terminal client et de la taille des données externalisées. Afin de satisfaire à cette exigence de sécurité, nous définissons d’abord un nouveau protocole PDP, sans apport de connaissance, qui fournit des garanties déterministes de vérification d’intégrité, en s’appuyant sur l’unicité de la division euclidienne. Ces garanties sont considérées comme intéressantes par rapport à plusieurs schémas proposés, présentant des approches probabilistes. Ensuite, nous proposons SHoPS, un protocole de preuve de possession de données capable de traiter les trois relations d’ensembles homomorphiques. SHoPS permet ainsi au client non seulement d’obtenir une preuve de la possession du serveur distant, mais aussi de vérifier que le fichier, en question, est bien réparti sur plusieurs périphériques de stockage permettant d’atteindre un certain niveau de la tolérance aux pannes. En effet, nous présentons l’ensemble des propriétés homomorphiques, qui étend la malléabilité du procédé aux propriétés d’union, intersection et inclusion
Recent technological advances have given rise to the popularity and success of cloud. This new paradigm is gaining an expanding interest, since it provides cost efficient architectures that support the transmission, storage, and intensive computing of data. However, these promising storage services bring many challenging design issues, considerably due to the loss of data control. These challenges, namely data confidentiality and data integrity, have significant influence on the security and performances of the cloud system. This thesis aims at overcoming this trade-off, while considering two data security concerns. On one hand, we focus on data confidentiality preservation which becomes more complex with flexible data sharing among a dynamic group of users. It requires the secrecy of outsourced data and an efficient sharing of decrypting keys between different authorized users. For this purpose, we, first, proposed a new method relying on the use of ID-Based Cryptography (IBC), where each client acts as a Private Key Generator (PKG). That is, he generates his own public elements and derives his corresponding private key using a secret. Thanks to IBC properties, this contribution is shown to support data privacy and confidentiality, and to be resistant to unauthorized access to data during the sharing process, while considering two realistic threat models, namely an honest but curious server and a malicious user adversary. Second, we define CloudaSec, a public key based solution, which proposes the separation of subscription-based key management and confidentiality-oriented asymmetric encryption policies. That is, CloudaSec enables flexible and scalable deployment of the solution as well as strong security guarantees for outsourced data in cloud servers. Experimental results, under OpenStack Swift, have proven the efficiency of CloudaSec in scalable data sharing, while considering the impact of the cryptographic operations at the client side. On the other hand, we address the Proof of Data Possession (PDP) concern. In fact, the cloud customer should have an efficient way to perform periodical remote integrity verifications, without keeping the data locally, following three substantial aspects : security level, public verifiability, and performance. This concern is magnified by the client’s constrained storage and computation capabilities and the large size of outsourced data. In order to fulfill this security requirement, we first define a new zero-knowledge PDP proto- col that provides deterministic integrity verification guarantees, relying on the uniqueness of the Euclidean Division. These guarantees are considered as interesting, compared to several proposed schemes, presenting probabilistic approaches. Then, we propose SHoPS, a Set-Homomorphic Proof of Data Possession scheme, supporting the 3 levels of data verification. SHoPS enables the cloud client not only to obtain a proof of possession from the remote server, but also to verify that a given data file is distributed across multiple storage devices to achieve a certain desired level of fault tolerance. Indeed, we present the set homomorphism property, which extends malleability to set operations properties, such as union, intersection and inclusion. SHoPS presents high security level and low processing complexity. For instance, SHoPS saves energy within the cloud provider by distributing the computation over multiple nodes. Each node provides proofs of local data block sets. This is to make applicable, a resulting proof over sets of data blocks, satisfying several needs, such as, proofs aggregation
APA, Harvard, Vancouver, ISO, and other styles
36

Ikken, Sonia. "Efficient placement design and storage cost saving for big data workflow in cloud datacenters." Thesis, Evry, Institut national des télécommunications, 2017. http://www.theses.fr/2017TELE0020/document.

Full text
Abstract:
Les workflows sont des systèmes typiques traitant le big data. Ces systèmes sont déployés sur des sites géo-distribués pour exploiter des infrastructures cloud existantes et réaliser des expériences à grande échelle. Les données générées par de telles expériences sont considérables et stockées à plusieurs endroits pour être réutilisées. En effet, les systèmes workflow sont composés de tâches collaboratives, présentant de nouveaux besoins en terme de dépendance et d'échange de données intermédiaires pour leur traitement. Cela entraîne de nouveaux problèmes lors de la sélection de données distribuées et de ressources de stockage, de sorte que l'exécution des tâches ou du job s'effectue à temps et que l'utilisation des ressources soit rentable. Par conséquent, cette thèse aborde le problème de gestion des données hébergées dans des centres de données cloud en considérant les exigences des systèmes workflow qui les génèrent. Pour ce faire, le premier problème abordé dans cette thèse traite le comportement d'accès aux données intermédiaires des tâches qui sont exécutées dans un cluster MapReduce-Hadoop. Cette approche développe et explore le modèle de Markov qui utilise la localisation spatiale des blocs et analyse la séquentialité des fichiers spill à travers un modèle de prédiction. Deuxièmement, cette thèse traite le problème de placement de données intermédiaire dans un stockage cloud fédéré en minimisant le coût de stockage. A travers les mécanismes de fédération, nous proposons un algorithme exacte ILP afin d’assister plusieurs centres de données cloud hébergeant les données de dépendances en considérant chaque paire de fichiers. Enfin, un problème plus générique est abordé impliquant deux variantes du problème de placement lié aux dépendances divisibles et entières. L'objectif principal est de minimiser le coût opérationnel en fonction des besoins de dépendances inter et intra-job
The typical cloud big data systems are the workflow-based including MapReduce which has emerged as the paradigm of choice for developing large scale data intensive applications. Data generated by such systems are huge, valuable and stored at multiple geographical locations for reuse. Indeed, workflow systems, composed of jobs using collaborative task-based models, present new dependency and intermediate data exchange needs. This gives rise to new issues when selecting distributed data and storage resources so that the execution of tasks or job is on time, and resource usage-cost-efficient. Furthermore, the performance of the tasks processing is governed by the efficiency of the intermediate data management. In this thesis we tackle the problem of intermediate data management in cloud multi-datacenters by considering the requirements of the workflow applications generating them. For this aim, we design and develop models and algorithms for big data placement problem in the underlying geo-distributed cloud infrastructure so that the data management cost of these applications is minimized. The first addressed problem is the study of the intermediate data access behavior of tasks running in MapReduce-Hadoop cluster. Our approach develops and explores Markov model that uses spatial locality of intermediate data blocks and analyzes spill file sequentiality through a prediction algorithm. Secondly, this thesis deals with storage cost minimization of intermediate data placement in federated cloud storage. Through a federation mechanism, we propose an exact ILP algorithm to assist multiple cloud datacenters hosting the generated intermediate data dependencies of pair of files. The proposed algorithm takes into account scientific user requirements, data dependency and data size. Finally, a more generic problem is addressed in this thesis that involve two variants of the placement problem: splittable and unsplittable intermediate data dependencies. The main goal is to minimize the operational data cost according to inter and intra-job dependencies
APA, Harvard, Vancouver, ISO, and other styles
37

Carpen-Amarie, Alexandra. "BlobSeer as a data-storage facility for clouds : self-Adaptation, integration, evaluation." Thesis, Cachan, Ecole normale supérieure, 2011. http://www.theses.fr/2011DENS0066/document.

Full text
Abstract:
L’émergence de l’informatique dans les nuages met en avant de nombreux défis qui pourraient limiter l’adoption du paradigme Cloud. Tandis que la taille des données traitées par les applications Cloud augmente exponentiellement, un défi majeur porte sur la conception de solutions efficaces pour la gestion de données. Cette thèse a pour but de concevoir des mécanismes d’auto-adaptation pour des systèmes de gestion de données, afin qu’ils puissent répondre aux exigences des services de stockage Cloud en termes de passage à l’échelle, disponibilité et sécurité des données. De plus, nous nous proposons de concevoir un service de données qui soit à la fois compatible avec les interfaces Cloud standard dans et capable d’offrir un stockage de données à haut débit. Pour relever ces défis, nous avons proposé des mécanismes génériques pour l’auto-connaissance, l’auto-protection et l’auto-configuration des systèmes de gestion de données. Ensuite, nous les avons validés en les intégrant dans le logiciel BlobSeer, un système de stockage qui optimise les accès hautement concurrents aux données. Finalement, nous avons conçu et implémenté un système de fichiers s’appuyant sur BlobSeer, afin d’optimiser ce dernier pour servir efficacement comme support de stockage pour les services Cloud. Puis, nous l’avons intégré dans un environnement Cloud réel, la plate-forme Nimbus. Les avantages et les désavantages de l’utilisation du stockage dans le Cloud pour des applications réelles sont soulignés lors des évaluations effectuées sur Grid’5000. Elles incluent des applications à accès intensif aux données, comme MapReduce, et des applications fortement couplées, comme les simulations atmosphériques
The emergence of Cloud computing brings forward many challenges that may limit the adoption rate of the Cloud paradigm. As data volumes processed by Cloud applications increase exponentially, designing efficient and secure solutions for data management emerges as a crucial requirement. The goal of this thesis is to enhance a distributed data-management system with self-management capabilities, so that it can meet the requirements of the Cloud storage services in terms of scalability, data availability, reliability and security. Furthermore, we aim at building a Cloud data service both compatible with state-of-the-art Cloud interfaces and able to deliver high-throughput data storage. To meet these goals, we proposed generic self-awareness, self-protection and self-configuration components targeted at distributed data-management systems. We validated them on top of BlobSeer, a large-scale data-management system designed to optimize highly-concurrent data accesses. Next, we devised and implemented a BlobSeer-based file system optimized to efficiently serve as a storage backend for Cloud services. We then integrated it within a real-world Cloud environment, the Nimbus platform. The benefits and drawbacks of using Cloud storage for real-life applications have been emphasized in evaluations that involved data-intensive MapReduce applications and tightly-coupled, high-performance computing applications
APA, Harvard, Vancouver, ISO, and other styles
38

Božić, Nikola. "Blockchain technologies and their application to secure virtualized infrastructure control." Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS596.

Full text
Abstract:
Blockchain est une technologie qui fait du concept de registre partagé à partir de systèmes distribués une réalité pour un certain nombre de domaines d’application, du crypto-monnaie à potentiellement tout système industriel nécessitant une prise de décision décentralisée, robuste, fiable et automatisée dans une situation à plusieurs parties prenantes. Néanmoins, les avantages réels de l’utilisation de la blockchain au lieu de toute autre solution traditionnelle (telle que des bases de données centralisées) ne sont pas complètement compris à ce jour, ni quel type de blockchain répond le mieux aux exigences du cas d'utilisation et à son utilisation. Au début, notre objectif est de fournir une sorte de « vademecum » à la communauté, tout en donnant une présentation générale de la blockchain qui dépasse son cas d'utilisation en des crypto monnaies telle que Bitcoin, et en passant en revue une sélection de la vaste littérature qui est apparue au cours des dernières années. Nous décrivons les exigences clés et leur évolution lorsque nous passons des blockchains publics à priver, en présentant les différences entre les mécanismes de consensus proposés et expérimentés, et en décrivant les plateformes de blockchain existantes. De plus, nous présentons la blockchain B-VMOA pour sécuriser les opérations d’orchestration de machines virtuelles pour les systèmes de cloud computing et de virtualisation des fonctions réseau en appliquant la logique de vademecum proposée. À l'aide d'exemples de didacticiels, nous décrivons nos choix de conception et élaborons des plans de mise en œuvre. Nous développons plus avant la logique de vademecum appliquée à l'orchestration dans le cloud et comment elle peut conduire à des spécifications de plateforme précises. Nous capturons les opérations du système clés et les interactions complexes entre elles. Nous nous concentrons sur la dernière version de la plateforme Hyperledger Fabric en tant que moyen de développer le système B-VMOA. De plus, Hyperledger Fabric optimise les performances, la sécurité et l’évolutivité conçues pour le réseau B-VMOA en séparant la charge de travail entre (i) les homologues d’exécution et de validation de transaction et (ii) les nœuds qui sont charges pour l'ordre des transactions. Nous étudions et utilisons une architecture <> qui différencie notre système B-VMOA conçu des systèmes distribués hérités qui suivent une architecture de réplication d'état de machine traditionnelle. Nous paramétrons et validons notre modèle avec les données recueillies sur un banc d'essai réaliste, en présentant une étude empirique pour caractériser les performances du système et identifier les goulots d'étranglement potentiels. En outre, nous présentons les outils que nous avons utilisés, la configuration du réseau et la discussion sur les observations empiriques issues de la collecte de données. Nous examinons l'impact de divers paramètres configurables pour mener une étude approfondie des composants principaux et des performances de référence pour les modèles d'utilisation courants. À savoir, B-VMOA est destiné à être exécuté dans un centre de données. Différentes topologies d'interconnexion de centres de données évoluent différemment en raison des protocoles de communication. Il semble difficile de concevoir efficacement les interconnexions réseau de manière à rentabiliser le déploiement et la maintenance de l’infrastructure. Nous analysons les propriétés structurelles de plusieurs topologies DCN et présentons également une comparaison entre ces architectures de réseau dans le but de réduire les coûts indirects de la technologie B-VMOA. D'après notre analyse, nous recommandons l'hypercube topologie comme solution pour remédier au goulot d'étranglement des performances dans le plan de contrôle B-VMOA provoqué par gossip, le protocole de diffusion, ainsi qu'une estimation de l'amélioration des performances
Blockchain is a technology making the shared registry concept from distributed systems a reality for a number of application domains, from the cryptocurrency one to potentially any industrial system requiring decentralized, robust, trusted and automated decision making in a multi-stakeholder situation. Nevertheless, the actual advantages in using blockchain instead of any other traditional solution (such as centralized databases) are not completely understood to date, or at least there is a strong need for a vademecum guiding designers toward the right decision about when to adopt blockchain or not, which kind of blockchain better meets use-case requirements, and how to use it. At first, we aim at providing the community with such a vademecum, while giving a general presentation of blockchain that goes beyond its usage in Bitcoin and surveying a selection of the vast literature that emerged in the last few years. We draw the key requirements and their evolution when passing from permissionless to permissioned blockchains, presenting the differences between proposed and experimented consensus mechanisms, and describing existing blockchain platforms. Furthermore, we present the B-VMOA blockchain to secure virtual machine orchestration operations for cloud computing and network functions virtualization systems applying the proposed vademecum logic. Using tutorial examples, we describe our design choices and draw implementation plans. We further develop the vademecum logic applied to cloud orchestration and how it can lead to precise platform specifications. We capture the key system operations and complex interactions between them. We focus on the last release of Hyperledger Fabric platform as a way to develop B-VMOA system. Besides, Hyperledger Fabric optimizes conceived B-VMOA network performance, security, and scalability by way of workload separation across: (i) transaction execution and validation peers, and (ii) transaction ordering nodes. We study and use a distributed execute-order-validate architecture which differentiates our conceived B-VMOA system from legacy distributed systems that follow a traditional state-machine replication architecture. We parameterize and validate our model with data collected from a realistic testbed, presenting an empirical study to characterize system performance and identify potential performance bottlenecks. Furthermore, we present the tools we used, the network setup and the discussion on empirical observations from the data collection. We examine the impact of various configurable parameters to conduct an in-dept study of core components and benchmark performance for common usage patterns. Namely, B-VMOA is meant to be run within data center. Different data center interconnection topologies scale differently due to communication protocols. Enormous challenges appear to efficiently design the network interconnections so that the deployment and maintenance of the infrastructure is cost-effective. We analyze the structural properties of several DCN topologies and also present some comparison among these network architectures with the aim to reduce B-VMOA overhead costs. From our analysis, we recommend the hypercube topology as a solution to address the performance bottleneck in the B-VMOA control plane caused by gossip dissemination protocol along with an estimate of performance improvement
APA, Harvard, Vancouver, ISO, and other styles
39

Moise, Diana Maria. "Optimizing data management for MapReduce applications on large-scale distributed infrastructures." Thesis, Cachan, Ecole normale supérieure, 2011. http://www.theses.fr/2011DENS0067/document.

Full text
Abstract:
Les applications data-intensive sont largement utilisées au sein de domaines diverses dans le but d'extraire et de traiter des informations, de concevoir des systèmes complexes, d'effectuer des simulations de modèles réels, etc. Ces applications posent des défis complexes tant en termes de stockage que de calcul. Dans le contexte des applications data-intensive, nous nous concentrons sur le paradigme MapReduce et ses mises en oeuvre. Introduite par Google, l'abstraction MapReduce a révolutionné la communauté intensif de données et s'est rapidement étendue à diverses domaines de recherche et de production. Une implémentation domaine publique de l'abstraction mise en avant par Google, a été fournie par Yahoo à travers du project Hadoop. Le framework Hadoop est considéré l'implémentation de référence de MapReduce et est actuellement largement utilisé à des fins diverses et sur plusieurs infrastructures. Nous proposons un système de fichiers distribué, optimisé pour des accès hautement concurrents, qui puisse servir comme couche de stockage pour des applications MapReduce. Nous avons conçu le BlobSeer File System (BSFS), basé sur BlobSeer, un service de stockage distribué, hautement efficace, facilitant le partage de données à grande échelle. Nous étudions également plusieurs aspects liés à la gestion des données intermédiaires dans des environnements MapReduce. Nous explorons les contraintes des données intermédiaires MapReduce à deux niveaux: dans le même job MapReduce et pendant l'exécution des pipelines d'applications MapReduce. Enfin, nous proposons des extensions de Hadoop, un environnement MapReduce populaire et open-source, comme par example le support de l'opération append. Ce travail inclut également l'évaluation et les résultats obtenus sur des infrastructures à grande échelle: grilles informatiques et clouds
Data-intensive applications are nowadays, widely used in various domains to extract and process information, to design complex systems, to perform simulations of real models, etc. These applications exhibit challenging requirements in terms of both storage and computation. Specialized abstractions like Google’s MapReduce were developed to efficiently manage the workloads of data-intensive applications. The MapReduce abstraction has revolutionized the data-intensive community and has rapidly spread to various research and production areas. An open-source implementation of Google's abstraction was provided by Yahoo! through the Hadoop project. This framework is considered the reference MapReduce implementation and is currently heavily used for various purposes and on several infrastructures. To achieve high-performance MapReduce processing, we propose a concurrency-optimized file system for MapReduce Frameworks. As a starting point, we rely on BlobSeer, a framework that was designed as a solution to the challenge of efficiently storing data generated by data-intensive applications running at large scales. We have built the BlobSeer File System (BSFS), with the goal of providing high throughput under heavy concurrency to MapReduce applications. We also study several aspects related to intermediate data management in MapReduce frameworks. We investigate the requirements of MapReduce intermediate data at two levels: inside the same job, and during the execution of pipeline applications. Finally, we show how BSFS can enable extensions to the de facto MapReduce implementation, Hadoop, such as the support for the append operation. This work also comprises the evaluation and the obtained results in the context of grid and cloud environments
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography