To see the other types of publications on this topic, follow the link: Centre de données cloud.

Dissertations / Theses on the topic 'Centre de données cloud'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Centre de données cloud.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Tudoran, Radu-Marius. "High-Performance Big Data Management Across Cloud Data Centers." Electronic Thesis or Diss., Rennes, École normale supérieure, 2014. http://www.theses.fr/2014ENSR0004.

Full text
Abstract:
La puissance de calcul facilement accessible offerte par les infrastructures clouds, couplés à la révolution du "Big Data", augmentent l'échelle et la vitesse auxquelles l'analyse des données est effectuée. Les ressources de cloud computing pour le calcul et le stockage sont répartis entre plusieurs centres de données de par le monde. Permettre des transferts de données rapides devient particulièrement important dans le cadre d'applications scientifiques pour lesquels déplacer le traitement proche de données est coûteux voire impossible. Les principaux objectifs de cette thèse consistent à analyser comment les clouds peuvent devenir "Big Data - friendly", et quelles sont les meilleures options pour fournir des services de gestion de données aptes à répondre aux besoins des applications. Dans cette thèse, nous présentons nos contributions pour améliorer la performance de la gestion de données pour les applications exécutées sur plusieurs centres de données géographiquement distribués. Nous commençons avec les aspects concernant l'échelle du traitement de données sur un site, et poursuivons avec le développements de solutions de type MapReduce permettant la distribution des calculs entre plusieurs centres. Ensuite, nous présentons une architecture de service de transfert qui permet d'optimiser le rapport coût-performance des transferts. Ce service est exploité dans le contexte de la diffusion de données en temps-réel entre des centres de données de clouds. Enfin, nous étudions la viabilité, pour une fournisseur de cloud, de la solution consistant à intégrer cette architecture comme un service basé sur un paradigme de tarification flexible, qualifiée de "Transfert-as-a-Service"
The easily accessible computing power offered by cloud infrastructures, coupled with the "Big Data" revolution, are increasing the scale and speed at which data analysis is performed. Cloud computing resources for compute and storage are spread across multiple data centers around the world. Enabling fast data transfers becomes especially important in scientific applications where moving the processing close to data is expensive or even impossible. The main objectives of this thesis are to analyze how clouds can become "Big Data - friendly", and what are the best options to provide data management services able to meet the needs of applications. In this thesis, we present our contributions to improve the performance of data management for applications running on several geographically distributed data centers. We start with aspects concerning the scale of data processing on a site, and continue with the development of MapReduce type solutions allowing the distribution of calculations between several centers. Then, we present a transfer service architecture that optimizes the cost-performance ratio of transfers. This service is operated in the context of real-time data streaming between cloud data centers. Finally, we study the viability, for a cloud provider, of the solution consisting in integrating this architecture as a service based on a flexible pricing paradigm, qualified as "Transfer-as-a-Service"
APA, Harvard, Vancouver, ISO, and other styles
2

Dumont, Frédéric. "Analyses et préconisations pour les centres de données virtualisés." Thesis, Nantes, Ecole des Mines, 2016. http://www.theses.fr/2016EMNA0249/document.

Full text
Abstract:
Cette thèse présente deux contributions. La première contribution consiste en l’étude des métriques de performance permettant de superviser l’activité des serveurs physiques et des machines virtuelles s’exécutant sur les hyperviseurs VMware et KVM. Cette étude met en avant les compteurs clés et propose des analyses avancées dans l’objectif de détecter ou prévenir d’anomalies liées aux quatreres sources principales d’un centre de données : le processeur, la mémoire, le disque et le réseau. La seconde contribution porte sur un outil pour la détection de machines virtuelles à comportements pré-déterminés et/ou atypiques. La détection de ces machines virtuelles à plusieurs objectifs. Le premier, permettre d’optimiser l’utilisation des ressources matérielles en libérant des ressources par la suppression de machines virtuelles inutiles ou en les redimensionnant. Le second, optimiser le fonctionnement de l’infrastructure en détectant les machines sous-dimensionnées, surchargées ou ayant une activité différente des autres machines virtuelles de l’infrastructure
This thesis presents two contributions. The first contribution is the study of key performance indicators to monitor physical and virtual machines activity running on VMware and KVM hypervisors. This study highlights performance metrics and provides advanced analysis with the aim to prevent or detect abnormalities related to the four main resources of a datacenter: CPU, memory, disk and network. Thesecond contribution relates to a tool for virtual machines with pre-determined and / or atypical behaviors detection. The detection of these virtual machines has several objectives. First, optimize the use of hardware resources by freeing up resources by removing unnecessary virtual machines or by resizing those oversized. Second, optimize infrastructure performance by detecting undersized or overworked virtual machines and those having an atypical activity
APA, Harvard, Vancouver, ISO, and other styles
3

Rostirolla, Gustavo. "Ordonnancement dans un centre de calculs alimenté par des sources d'énergie renouvelables sans connexion au réseau avec une charge de travail mixte basée sur des phases." Thesis, Toulouse 3, 2019. http://www.theses.fr/2019TOU30160.

Full text
Abstract:
Les centres de données sont reconnus pour être l'un des principaux acteurs en matière de consommation d'énergie du fait de l'augmentation de l'utilisation du cloud, des services web et des applications de calcul haute performance dans le monde entier. En 2006, les centres de données ont consommé 61,4 milliards de kWh aux états-Unis. Au niveau mondial, les centres de données consomment actuellement plus d'énergie que l'ensemble du Royaume-Uni, c'est-à-dire environ 1,3% de la consommation électrique mondiale, et ils sont de fait appelés les usines de l'ère numérique. Un des moyens d'atténuer le changement climatique est d'alimenter les centres de données en énergie renouvelable (énergie propre). La grande majorité des fournisseurs de cloud computing qui prétendent alimenter leurs centres de données en énergie verte sont en fait connectés au réseau classique et déploient des panneaux solaires et des éoliennes ailleurs puis vendent l'électricité produite aux compagnies d'électricité. Cette approche entraîne des pertes d'énergie lorsque l'électricité traverse le réseau. Même si différents efforts ont été réalisés au niveau informatique dans les centres de données partiellement alimentés par des énergies renouvelables, des améliorations sont encore possibles notamment concernant l'ordonnancement prenant en compte les sources d'énergie renouvelables sur site sans connexion au réseau et leur intermittence. C'est le but du projet ANR DataZERO, dans le cadre duquel cette thèse a été réalisée. L'efficacité énergétique dans les centres de données étant directement liée à la consommation de ressources d'un nœud de calcul, l'optimisation des performances et un ordonnancement efficace des calculs sont essentiels pour économiser l'énergie. La spécificité principale de notre approche est de placer le centre de données sous une contrainte de puissance, provenant entièrement d'énergies renouvelables : la puissance disponible peut ainsi varier au cours du temps. L'ordonnancement de tâches sous ce genre de contrainte rend le problème plus difficile, puisqu'on doit notamment s'assurer qu'une tâche qui commence aura assez d'énergie pour aller jusqu'à son terme. Dans cette thèse, nous commençons par proposer une planification de tâches de type "batch" qui se caractérisent par leur instant d'arrivée, leur date d'échéance et leurs demandes de ressources tout en respectant une contrainte de puissance. Les données utilisées pour les tâches de type batch viennent de traces de centres de données et contiennent des mesures de consommation CPU, mémoire et réseau. Quant aux enveloppes de puissance considérées, elles représentent ce que pourrait fournir un module de décision électrique, c'est-à-dire la production d'énergie prévue (énergie renouvelable seulement) basée sur les prévisions météorologiques. L'objectif est de maximiser la Qualité de Service avec une contrainte sur la puissance électrique. Par la suite, nous examinons une charge de travail composée de tâches de type "batch" et de services, où la consommation des ressources varie au cours du temps. Les tracecs utilisées pour les services proviennent d'une centre de données à "business critique". Dans ce cadre, nous envisageons le concpet de phases, dans lequel les changements significatifs de consommation de resources à l'intérieur d'une même tâche marquent le début d'une nouvelle phase. Nous considérons également un modèle de tâches pouvant recevoir moins de ressources que demandées. Nous étudions l'impact de ce modèle sur le profit du centre de données pour chaque type de tâche. Nous intégrons aussi le concept de "corrélation croisée" pour évaluer où placer une tâche selon une courbe de puissance afin de trouver le meilleur nœud pour placer plusieurs tâches (c.-à-d. Partager les ressources)
Due to the increase of cloud, web-services and high performance computing demands all over the world, datacenters are now known to be one of the biggest actors when talking about energy consumption. In 2006 alone, datacenters were responsible for consuming 61.4 billion kWh in the United States. When looking at the global scenario, datacenters are currently consuming more energy than the entire United Kingdom, representing about 1.3\% of world's electricity consumption, and being even called the factories of the digital age. Supplying datacenters with clean-to-use renewable energy is therefore essential to help mitigate climate change. The vast majority of cloud provider companies that claim to use green energy supply on their datacenters consider the classical grid, and deploy the solar panels/wind turbines somewhere else and sell the energy to electricity companies, which incurs in energy losses when the electricity travels throughout the grid. Even though several efforts have been conducted at the computing level in datacenters partially powered by renewable energy sources, the scheduling considering on site renewable energy sources and its variations, without connection to the grid can still be widely explored. Since energy efficiency in datacenters is directly related to the resource consumption of the computing nodes, performance optimization and an efficient load scheduling are essential for energy saving. Today, we observe the use of cloud computing as the basis of datacenters, either in a public or private fashion. The main particularity of our approach is that we consider a power envelope composed only by renewable energy as a constraint, hence with a variable amount of power available at each moment. The scheduling under this kind of constraint becomes more complex: without further checks, we are not ensured that a running task will run until completion. We start by addressing the IT load scheduling of batch tasks, which are characterized by their release time, due date and resource demand, in a cloud datacenter while respecting the aforementioned power envelope. The data utilized for the batch tasks comes from datacenter traces, containing CPU, memory and network values. The power envelopes considered, represent an estimation which would be provided by a power decision module and is the expected power production based on weather forecasts. The aim is to maximize the Quality of Service with a variable constraint on electrical power. Furthermore, we explore a workload composed by batch and services, where the resources consumption varies over time. The traces utilized for the service tasks originate from business critical datacenter. In this case we rely on the concept of phases, where each significant resource change in the resources consumption constitutes a new phase of the given task. In this task model phases could also receive less resources than requested. The reduction of resources can impact the QoS and consequently the datacenter profit. In this approach we also include the concept of cross-correlation to evaluate where to place a task under a power curve, and what is the best node to place tasks together (i.e. sharing resources). Finally, considering the previous workload of batch tasks and services, we present an approach towards handling unexpected events in the datacenter. More specifically we focus on IT related events such as tasks arriving at any given time, demanding more or less resources than expected, or having a different finish time than what was initially expected. We adapt the proposed algorithms to take actions depending on which event occurs, e.g. task degradation to reduce the impact on the datacenter profit
APA, Harvard, Vancouver, ISO, and other styles
4

Pastor, Jonathan. "Contributions à la mise en place d'une infrastructure de Cloud Computing à large échelle." Thesis, Nantes, Ecole des Mines, 2016. http://www.theses.fr/2016EMNA0240/document.

Full text
Abstract:
La croissance continue des besoins en puissance de calcul a conduit au triomphe du modèle de Cloud Computing. Des clients demandeurs en puissance de calcul vont s’approvisionner auprès de fournisseurs d’infrastructures de Cloud Computing, mises à disposition via Internet. Pour réaliser des économies d’échelles, ces infrastructures sont toujours plus grandes et concentrées en quelques endroits, conduisant à des problèmes tels que l’approvisionnement en énergie, la tolérance aux pannes et l’éloignement des utilisateurs. Cette thèse s’est intéressée à la mise en place d’un système d’IaaS massivement distribué et décentralisé exploitant un réseau de micros centres de données déployés sur la dorsale Internet, utilisant une version d’OpenStack revisitée pendant cette thèse autour du support non intrusif de bases de données non relationnelles. Des expériences sur Grid’5000 ont montré des résultats intéressants sur le plan des performances, toutefois limités par le fait qu’OpenStack ne tirait pas avantage nativement d’un fonctionnement géographiquement réparti. Nous avons étudié la prise en compte de la localité réseau pour améliorer les performances des services distribués en favorisant les collaborations proches. Un prototype de l’algorithme de placement de machines virtuelles DVMS, fonctionnant sur une topologie non structurée basée sur l’algorithme Vivaldi, a été validé sur Grid’5000. Ce prototype a fait l’objet d’un prix scientifique lors de l’école de printemps Grid’50002014. Enfin, ces travaux nous ont amenés à participer au développement du simulateur VMPlaceS
The continuous increase of computing power needs has favored the triumph of the Cloud Computing model. Customers asking for computing power will receive supplies via Internet resources hosted by providers of Cloud Computing infrastructures. To make economies of scale, Cloud Computing that are increasingly large and concentrated in few attractive places, leading to problems such energy supply, fault tolerance and the fact that these infrastructures are far from most of their end users. During this thesis we studied the implementation of an fully distributed and decentralized IaaS system operating a network of micros data-centers deployed in the Internet backbone, using a modified version of OpenStack that leverages non relational databases. A prototype has been experimentally validated onGrid’5000, showing interesting results, however limited by the fact that OpenStack doesn’t take advantage of a geographically distributed functioning. Thus, we focused on adding the support of network locality to improve performance of Cloud Computing services by favoring collaborations between close nodes. A prototype of the DVMS algorithm, working with an unstructured topology based on the Vivaldi algorithm, has been validated on Grid’5000. This prototype got the first prize at the large scale challenge of the Grid’5000 spring school in 2014. Finally, the work made with DVMS enabled us to participate at the development of the VMPlaceS simulator
APA, Harvard, Vancouver, ISO, and other styles
5

Dab, Boutheina. "Optimization of routing and wireless resource allocation in hybrid data center networks." Thesis, Paris Est, 2017. http://www.theses.fr/2017PESC1068/document.

Full text
Abstract:
L’arrivée de la prochaine technologie 5G va permettre la connectivité des billions de terminaux mobiles et donc une énorme augmentation du trafic de données. A cet égard, les fournisseurs des services Cloud doivent posséder les infrastructures physiques capables de supporter cette explosion de trafic. Malheureusement, les architectures filaires conventionnelles des centres de données deviennent staturées et la congestion des équipements d’interconnexion est souvent atteinte. Dans cette thèse, nous explorons une approche récente qui consiste à augmenter le réseau filaire du centre de données avec l’infrastructure sans fil. En effet, nous exploitons une nouvelle technologie émergente, la technologie 60 GHz, qui assure un débit de l’ordre de 7 Gbits/s afin d’améliorer la QoS. Nous concevons une architecture hybride (filaire/sans fil) du réseau de centre de données basée sur : i) le modèle "Cisco’s Massively Scalable Data Center" (MSDC), et ii) le standard IEEE 802.11ad. Dans une telle architecture, les serveurs sont regroupés dans des racks, et sont interconnectés à travers un switch Ethernet, appelé top-of-rack (ToR) switch. Chaque ToR switch possède plusieurs antennes utilisées en parallèle sur différents canaux sans fil. L’objectif final consiste à minimiser la congestion du réseau filaire, en acheminant le maximum du trafic sur les canaux sans fil. Pour ce faire, cette thèse se focalise sur l’optimisation du routage et de l’allocation des canaux sans fil pour les communications inter-rack, au sein d’un centre de données hybride (HDCN). Ce problème étant NP-difficile, nous allons procéder en trois étapes. En premier lieu, on considère le cas des communications à un saut, où les racks sont placés dans le même rayon de transmission. Nous proposons un nouvel algorithme d’allocation des canaux sans fil dans les HDCN, qui permet d’acheminer le maximum des communications en sans-fil, tout en améliorant les performances réseau en termes de débit et délai. En second lieu, nous nous adressons au cas des communications à plusieurs sauts, où les racks ne sont pas dans le même rayon de transmission. Nous allons proposer une nouvelle approche optimale traitant conjointement le problème du routage et de l’allocation de canaux sans fils dans le HDCN, pour chaque communication, dans un mode online. En troisième étape, nous proposons un nouvel algorithme qui calcule conjointement le routage et l’allocation des canaux pour un ensemble des communications arrivant en mode batch (i.e., par lot). En utilisant le simulateur réseau QualNet, considérant toute la pile TCP/IP, les résultats obtenus montrent que nos propositions améliorent les performances comparées aux méthodes de l’état de l’art
The high proliferation of smart devices and online services allows billions of users to connect with network while deploying a vast range of applications. Particularly, with the advent of the future 5G technology, it is expected that a tremendous mobile and data traffic will be crossing Internet network. In this regard, Cloud service providers are urged to rethink their data center architectures in order to cope with this unprecedented traffic explosion. Unfortunately, the conventional wired infrastructures struggle to resist to such a traffic growth and become prone to serious congestion problems. Therefore, new innovative techniques are required. In this thesis, we investigate a recent promising approach that augments the wired Data Center Network (DCN) with wireless communications. Indeed, motivated by the feasibility of the new emerging 60 GHz technology, offering an impressive data rate (≈ 7 Gbps), we envision, a Hybrid (wireless/wired) DCN (HDCN) architecture. Our HDCN is based on i) Cisco’s Massively Scalable Data Center (MSDC) model and ii) IEEE 802.11ad standard. Servers in the HDCN are regrouped into racks, where each rack is equipped with a: i) Ethernet top-of-rack (ToR) switch and ii) set of wireless antennas. Our research aims to optimize the routing and the allocation of wireless resources for inter-rack communications in HDCN while enhancing network performance and minimizing congestion. The problem of routing and resource allocation in HDCN is NP-hard. To deal with this difficulty, we will tackle the problem into three stages. In the first stage, we consider only one-hop inter-rack communications in HDCN, where all communicating racks are in the same transmission range. We will propound a new wireless channel allocation approach in HDCN to hardness both wireless and wired interfaces for incoming flows while enhancing network throughput. In the second stage, we deal with the multi-hop communications in HDCN where communicating racks can not communicate in one single-hop wireless path. We propose a new approach to jointly route and allocate channels for each single communication flow, in an online way. Finally, in the third stage, we address the batched arrival of inter-rack communications to the HDCN so as to further optimize the usage of wireless and wired resources. For that end, we propose: i) a heuristic-based and ii) an approximate, solutions, to solve the joint batch routing and channel assignment. Based on extensive simulations conducted in QualNet simulator while considering the full protocol stack, the obtained results for both real workload and uniform traces, show that our proposals outperform the prominent related strategies
APA, Harvard, Vancouver, ISO, and other styles
6

Chkirbene, Zina. "Network topologies for cost reduction and QoS improvement in massive data centers." Thesis, Bourgogne Franche-Comté, 2017. http://www.theses.fr/2017UBFCK002/document.

Full text
Abstract:
L'expansion des services en ligne, l'avènement du big data, favorisé par l'internet des objets et les terminaux mobiles, a entraîné une croissance exponentielle du nombre de centres de données qui fournissent des divers services de cloud computing. Par conséquent, la topologie du centre de données est considérée comme un facteur d'influence sur la performance du centre de données. En effet, les topologies des centres de données devraient offrir une latence faible, une longueur de chemin moyenne réduite avec une bande passante élevée. Ces exigences augmentent la consommation énergétique dans les centres de données. Dans cette dissertation, différentes solutions ont été proposées pour surmonter ces problèmes. Tout d'abord, nous proposons une nouvelle topologie appelée LCT (Linked Cluster Topology) qui augmente le nombre de nœuds, améliore la connexion réseau et optimise le routage des données pour avoir une faible latence réseau. Une nouvelle topologie appelée VacoNet (Variable connexion Network) a été également présentée. VacoNet offre un nouveau algorithme qui définit le exact nombre de port par commutateur pour connecter le nombre de serveurs requis tout en réduisant l'énergie consommée et les matériaux inutilisés (câbles, commutateurs). En outre, nous _étudions une nouvelle technique pour optimiser la consumation d'énergie aux centres de données. Cette technique peut périodiquement estimer la matrice de trafic et gérer l'_état des ports de serveurs tout en maintenant le centre de données entièrement connecté. La technique proposée prend en considération le trafic réseau dans la décision de gestion des ports
Data centers (DC) are being built around the world to provide various cloud computing services. One of the fundamental challenges of existing DC is to design a network that interconnects massive number of nodes (servers)1 while reducing DC' cost and energy consumption. Several solutions have been proposed (e.g. FatTree, DCell and BCube), but they either scale too fast (i.e., double exponentially) or too slow. Effcient DC topologies should incorporate high scalability, low latency, low Average Path Length (APL), high Aggregated Bottleneck Throughput (ABT) and low cost and energy consumption. Therefore, in this dissertation, different solutions have been proposed to overcome these problems. First, we propose a novel DC topology called LCT (Linked Cluster Topology) as a new solution for building scalable and cost effective DC networking infrastructures. The proposed topology reduces the number of redundant connections between clusters of nodes, while increasing the numbers of nodes without affecting the network bisection bandwidth. Furthermore, in order to reduce the DCs cost and energy consumption, we propose first a new static energy saving topology called VacoNet (Variable Connection Network) that connects the needed number of servers while reducing the unused materials (cables, switches). Also, we propose a new approach that exploits the correlation in time of internode communication and some topological features to maximize energy saving without too much impacting the average path length
APA, Harvard, Vancouver, ISO, and other styles
7

Ikken, Sonia. "Efficient placement design and storage cost saving for big data workflow in cloud datacenters." Thesis, Evry, Institut national des télécommunications, 2017. http://www.theses.fr/2017TELE0020/document.

Full text
Abstract:
Les workflows sont des systèmes typiques traitant le big data. Ces systèmes sont déployés sur des sites géo-distribués pour exploiter des infrastructures cloud existantes et réaliser des expériences à grande échelle. Les données générées par de telles expériences sont considérables et stockées à plusieurs endroits pour être réutilisées. En effet, les systèmes workflow sont composés de tâches collaboratives, présentant de nouveaux besoins en terme de dépendance et d'échange de données intermédiaires pour leur traitement. Cela entraîne de nouveaux problèmes lors de la sélection de données distribuées et de ressources de stockage, de sorte que l'exécution des tâches ou du job s'effectue à temps et que l'utilisation des ressources soit rentable. Par conséquent, cette thèse aborde le problème de gestion des données hébergées dans des centres de données cloud en considérant les exigences des systèmes workflow qui les génèrent. Pour ce faire, le premier problème abordé dans cette thèse traite le comportement d'accès aux données intermédiaires des tâches qui sont exécutées dans un cluster MapReduce-Hadoop. Cette approche développe et explore le modèle de Markov qui utilise la localisation spatiale des blocs et analyse la séquentialité des fichiers spill à travers un modèle de prédiction. Deuxièmement, cette thèse traite le problème de placement de données intermédiaire dans un stockage cloud fédéré en minimisant le coût de stockage. A travers les mécanismes de fédération, nous proposons un algorithme exacte ILP afin d’assister plusieurs centres de données cloud hébergeant les données de dépendances en considérant chaque paire de fichiers. Enfin, un problème plus générique est abordé impliquant deux variantes du problème de placement lié aux dépendances divisibles et entières. L'objectif principal est de minimiser le coût opérationnel en fonction des besoins de dépendances inter et intra-job
The typical cloud big data systems are the workflow-based including MapReduce which has emerged as the paradigm of choice for developing large scale data intensive applications. Data generated by such systems are huge, valuable and stored at multiple geographical locations for reuse. Indeed, workflow systems, composed of jobs using collaborative task-based models, present new dependency and intermediate data exchange needs. This gives rise to new issues when selecting distributed data and storage resources so that the execution of tasks or job is on time, and resource usage-cost-efficient. Furthermore, the performance of the tasks processing is governed by the efficiency of the intermediate data management. In this thesis we tackle the problem of intermediate data management in cloud multi-datacenters by considering the requirements of the workflow applications generating them. For this aim, we design and develop models and algorithms for big data placement problem in the underlying geo-distributed cloud infrastructure so that the data management cost of these applications is minimized. The first addressed problem is the study of the intermediate data access behavior of tasks running in MapReduce-Hadoop cluster. Our approach develops and explores Markov model that uses spatial locality of intermediate data blocks and analyzes spill file sequentiality through a prediction algorithm. Secondly, this thesis deals with storage cost minimization of intermediate data placement in federated cloud storage. Through a federation mechanism, we propose an exact ILP algorithm to assist multiple cloud datacenters hosting the generated intermediate data dependencies of pair of files. The proposed algorithm takes into account scientific user requirements, data dependency and data size. Finally, a more generic problem is addressed in this thesis that involve two variants of the placement problem: splittable and unsplittable intermediate data dependencies. The main goal is to minimize the operational data cost according to inter and intra-job dependencies
APA, Harvard, Vancouver, ISO, and other styles
8

Salazar, Javier. "Resource allocation optimization algorithms for infrastructure as a service in cloud computing." Thesis, Sorbonne Paris Cité, 2016. http://www.theses.fr/2016USPCB074.

Full text
Abstract:
L’informatique, le stockage des données et les applications à la demande font partie des services offerts par l’architecture informatique en Nuage. Dans ce cadre, les fournisseurs de nuage (FN) agissent non seulement en tant qu’administrateurs des ressources d'infrastructure mais ils profitent aussi financièrement de la location de ces ressources. Dans cette thèse, nous proposons trois modèles d'optimisation du processus d'allocation des ressources dans le nuage dans le but de réduire les coûts générés et d’accroitre la qualité du service rendu. Cela peut être accompli en fournissant au FN les outils formels nécessaires pour réduire au minimum le prix des ressources dédiées à servir les requêtes des utilisateurs. Ainsi, la mise en œuvre des modèles proposés permettra non seulement l’augmentation des revenus du FN, mais aussi l’amélioration de la qualité des services offerts, ce qui enrichira l’ensemble des interactions qui se produisent dans le nuage. A cet effet, nous nous concentrons principalement sur les ressources de l’infrastructure en tant que service (IaaS), lesquels sont contenus dans des centres de données (DCs), et constituent l'infrastructure physique du nuage. Comme une alternative aux immenses DCs centralisés, la recherche dans ce domaine comprend l’installation de petits centres de données (Edge DCs) placés à proximité des utilisateurs finaux. Dans ce contexte nous adressons le problème d’allocation des ressources et pour ce faire nous utilisons la technique d'optimisation nommée génération de colonnes. Cette technique nous permet de traiter des modèles d'optimisation à grande échelle de manière efficace. La formulation proposée comprend à la fois, et dans une seule phase, les communications et les ressources informatiques à optimiser dans le but de servir les requêtes de service d'infrastructure. Sur la base de cette formulation, nous proposons également un deuxième modèle qui comprend des garanties de qualité de service toujours sous la même perspective d'allocation des ressources d’infrastructure en tant que service. Ceci nous permet de fournir plusieurs solutions applicables à divers aspects du même problème, tels que le coût et la réduction des délais, tout en offrant différents niveaux de service. En outre, nous introduisons le scénario informatique en nuage multimédia, qui, conjointement avec l'architecture des Edge DCs, résulte en l'architecture Multimédia Edge Cloud (MEC). Dans ce cadre, nous proposons une nouvelle approche pour l'allocation des ressources dans les architectures informatique en nuage multimédia lors du positionnement de ces DCs afin de réduire les problèmes liés à la communication, tels que la latence et la gigue. Dans cette formulation, nous proposons également de mettre en œuvre des technologies optiques de réseau de fibres pour améliorer les communications entre les DCs. Plusieurs travaux ont proposé de nouvelles méthodes pour améliorer la performance et la transmission de données. Dans nos travaux, nous avons décidé de mettre en œuvre le multiplexage en longueur d'onde (WDM) pour renforcer l'utilisation des liens et les chemins optiques dans le but de grouper différents signaux sur la même longueur d'onde. Un environnement de simulation réel est également présenté pour l’évaluation des performances et de l'efficacité des approches proposées. Pour ce faire, nous utilisons le scénario spécifié pour les DCs, et nous comparons par simulation nos modèles au moyen de différents critères de performances tel que l'impact de la formulation optique sur la performance du réseau. Les résultats numériques obtenus ont montré que, en utilisant nos modèles, le FN peut efficacement réduire les coûts d'allocation en maintenant toujours un niveau satisfaisant quant à l'acceptation de requêtes et la qualité du service
The cloud architecture offers on-demand computing, storage and applications. Within this structure, Cloud Providers (CPs) not only administer infrastructure resources but also directly benefit from leasing them. In this thesis, we propose three optimization models to assist CPs reduce the costs incurred in the resource allocation process when serving users’ demands. Implementing the proposed models will not only increase the CP’s revenue but will also enhance the quality of the services offered, benefiting all parties. We focus on Infrastructure as a Service (IaaS) resources which constitute the physical infrastructure of the cloud and are contained in datacenters (DCs). Following existing research in DC design and cloud computing applications, we propose the implementation of smaller DCs (Edge DCs) be located close to end users as an alternative to large centralized DCs. Lastly, we use the Column Generation optimization technique to handle large scale optimization models efficiently. The proposed formulation optimizes both the communications and information technology resources in a single phase to serve IaaS requests. Based on this formulation, we also propose a second model that includes QoS guarantees under the same Infrastructure as a Service resource allocation perspective, to provide different solutions to diverse aspects of the resource allocation problem such as cost and delay reduction while providing different levels of service. Additionally, we consider the multimedia cloud computing scenario. When Edge DCs architecture is applied to this scenario it results in the creation of the Multimedia Edge Cloud (MEC) architecture. In this context we propose a resource allocation approach to help with the placement of these DCs to reduce communication related problems such as jitter and latency. We also propose the implementation of optical fiber network technologies to enhance communication between DCs. Several studies can be found proposing new methods to improve data transmission and performance. For this study, we decided to implement Wavelength Division Multiplexing (WDM) to strengthen the link usage and light-paths and, by doing so, group different signals over the same wavelength. Using a realistic simulation environment, we evaluate the efficiency of the approaches proposed in this thesis using a scenario specifically designed for the DCs, comparing them with different benchmarks and also simulating the effect of the optical formulation on the network performance. The numerical results obtained show that by using the proposed models, a CP can efficiently reduce allocation costs while maintaining satisfactory request acceptance and QoS ratios
APA, Harvard, Vancouver, ISO, and other styles
9

Politaki, Dimitra. "Vers la modélisation de clusters de centres de données vertes." Thesis, Université Côte d'Azur (ComUE), 2019. http://www.theses.fr/2019AZUR4116.

Full text
Abstract:
La consommation énergétique des clusters de centres de données augmente rapidement, ce qui en fait les consommateurs d'électricité à la croissance la plus rapide au monde. Les sources d’électricité renouvelables et en particulier l’énergie solaire en tant qu’énergie propre et abondante peuvent être utilisées pour couvrir leurs besoins en électricité et les rendre «verts», c’est-à-dire alimentés par le photovoltaïque. Ce potentiel peut être exploré en prévoyant l'irradiance solaire et en évaluant la capacité fournie pour les clusters de centres de données. Dans cette thèse, nous développons des modèles stochastiques pour l'énergie solaire; un à la surface de la Terre et un second qui modélise le courant de sortie photovoltaïque. Nous d'abord validons nos modèles par des données réels, puis nous proposons une étude comparative avec d’autres systèmes, notamment les modèles dits on-off. Nous concluons que notre modèle d'irradiance solaire peut capturer les corrélations multi-échelles de façon plus optimale, et il se montre particulièrement convénient dans le cas d’une production à petite échelle. De plus, nous proposons une nouvelle analyse de cycle de vie pour un système de cluster réel, ainsi qu'un modèle de cluster prenant en charge la soumission de travaux par lots et prenant en compte le comportement client impatient et persistant. Enfin, pour comprendre les caractéristiques essentielles du cluster d’ordinateurs, nous analysons deux cas: le complexe Google publié et le Nef cluster de l’Inria. Nous avons également implémenté marmoteCore-Q, un outil de simulation d’une famille de modèles de file d’attente, basé sur nos modèles
Data center clusters energy consumption is rapidly increasing making them the fastest-growing consumers of electricity worldwide. Renewable electricity sources and especially solar energy as a clean and abundant energy can be used, in many locations, to cover their electricity needs and make them "green" namely fed by photovoltaics. This potential can be explored by predicting solar irradiance and assessing the capacity provision for data center clusters. In this thesis we develop stochastic models for solar energy; one at the surface of the Earth and a second one which models the photovoltaic output current. We then compare them to the state of the art on-off model and validate them against real data. We conclude that the solar irradiance model can better capture the multiscales correlations and is suitable for small scale cases. We then propose a new job life-cycle of a complex and real cluster system and a model for data center clusters that supports batch job submissions and cons iders both impatient and persistent customer behavior. To understand the essential computer cluster characteristics, we analyze in detail two different workload type traces; the first one is the published complex Google trace and the second, simpler one, which serves scientific purposes, is from the Nef cluster located at the research center Inria Sophia Antipolis. We then implement the marmoteCore-Q, a tool for the simulation of a family of queueing models based on our multi-server model for data center clusters with abandonments and resubmissions
APA, Harvard, Vancouver, ISO, and other styles
10

Božić, Nikola. "Blockchain technologies and their application to secure virtualized infrastructure control." Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS596.

Full text
Abstract:
Blockchain est une technologie qui fait du concept de registre partagé à partir de systèmes distribués une réalité pour un certain nombre de domaines d’application, du crypto-monnaie à potentiellement tout système industriel nécessitant une prise de décision décentralisée, robuste, fiable et automatisée dans une situation à plusieurs parties prenantes. Néanmoins, les avantages réels de l’utilisation de la blockchain au lieu de toute autre solution traditionnelle (telle que des bases de données centralisées) ne sont pas complètement compris à ce jour, ni quel type de blockchain répond le mieux aux exigences du cas d'utilisation et à son utilisation. Au début, notre objectif est de fournir une sorte de « vademecum » à la communauté, tout en donnant une présentation générale de la blockchain qui dépasse son cas d'utilisation en des crypto monnaies telle que Bitcoin, et en passant en revue une sélection de la vaste littérature qui est apparue au cours des dernières années. Nous décrivons les exigences clés et leur évolution lorsque nous passons des blockchains publics à priver, en présentant les différences entre les mécanismes de consensus proposés et expérimentés, et en décrivant les plateformes de blockchain existantes. De plus, nous présentons la blockchain B-VMOA pour sécuriser les opérations d’orchestration de machines virtuelles pour les systèmes de cloud computing et de virtualisation des fonctions réseau en appliquant la logique de vademecum proposée. À l'aide d'exemples de didacticiels, nous décrivons nos choix de conception et élaborons des plans de mise en œuvre. Nous développons plus avant la logique de vademecum appliquée à l'orchestration dans le cloud et comment elle peut conduire à des spécifications de plateforme précises. Nous capturons les opérations du système clés et les interactions complexes entre elles. Nous nous concentrons sur la dernière version de la plateforme Hyperledger Fabric en tant que moyen de développer le système B-VMOA. De plus, Hyperledger Fabric optimise les performances, la sécurité et l’évolutivité conçues pour le réseau B-VMOA en séparant la charge de travail entre (i) les homologues d’exécution et de validation de transaction et (ii) les nœuds qui sont charges pour l'ordre des transactions. Nous étudions et utilisons une architecture <> qui différencie notre système B-VMOA conçu des systèmes distribués hérités qui suivent une architecture de réplication d'état de machine traditionnelle. Nous paramétrons et validons notre modèle avec les données recueillies sur un banc d'essai réaliste, en présentant une étude empirique pour caractériser les performances du système et identifier les goulots d'étranglement potentiels. En outre, nous présentons les outils que nous avons utilisés, la configuration du réseau et la discussion sur les observations empiriques issues de la collecte de données. Nous examinons l'impact de divers paramètres configurables pour mener une étude approfondie des composants principaux et des performances de référence pour les modèles d'utilisation courants. À savoir, B-VMOA est destiné à être exécuté dans un centre de données. Différentes topologies d'interconnexion de centres de données évoluent différemment en raison des protocoles de communication. Il semble difficile de concevoir efficacement les interconnexions réseau de manière à rentabiliser le déploiement et la maintenance de l’infrastructure. Nous analysons les propriétés structurelles de plusieurs topologies DCN et présentons également une comparaison entre ces architectures de réseau dans le but de réduire les coûts indirects de la technologie B-VMOA. D'après notre analyse, nous recommandons l'hypercube topologie comme solution pour remédier au goulot d'étranglement des performances dans le plan de contrôle B-VMOA provoqué par gossip, le protocole de diffusion, ainsi qu'une estimation de l'amélioration des performances
Blockchain is a technology making the shared registry concept from distributed systems a reality for a number of application domains, from the cryptocurrency one to potentially any industrial system requiring decentralized, robust, trusted and automated decision making in a multi-stakeholder situation. Nevertheless, the actual advantages in using blockchain instead of any other traditional solution (such as centralized databases) are not completely understood to date, or at least there is a strong need for a vademecum guiding designers toward the right decision about when to adopt blockchain or not, which kind of blockchain better meets use-case requirements, and how to use it. At first, we aim at providing the community with such a vademecum, while giving a general presentation of blockchain that goes beyond its usage in Bitcoin and surveying a selection of the vast literature that emerged in the last few years. We draw the key requirements and their evolution when passing from permissionless to permissioned blockchains, presenting the differences between proposed and experimented consensus mechanisms, and describing existing blockchain platforms. Furthermore, we present the B-VMOA blockchain to secure virtual machine orchestration operations for cloud computing and network functions virtualization systems applying the proposed vademecum logic. Using tutorial examples, we describe our design choices and draw implementation plans. We further develop the vademecum logic applied to cloud orchestration and how it can lead to precise platform specifications. We capture the key system operations and complex interactions between them. We focus on the last release of Hyperledger Fabric platform as a way to develop B-VMOA system. Besides, Hyperledger Fabric optimizes conceived B-VMOA network performance, security, and scalability by way of workload separation across: (i) transaction execution and validation peers, and (ii) transaction ordering nodes. We study and use a distributed execute-order-validate architecture which differentiates our conceived B-VMOA system from legacy distributed systems that follow a traditional state-machine replication architecture. We parameterize and validate our model with data collected from a realistic testbed, presenting an empirical study to characterize system performance and identify potential performance bottlenecks. Furthermore, we present the tools we used, the network setup and the discussion on empirical observations from the data collection. We examine the impact of various configurable parameters to conduct an in-dept study of core components and benchmark performance for common usage patterns. Namely, B-VMOA is meant to be run within data center. Different data center interconnection topologies scale differently due to communication protocols. Enormous challenges appear to efficiently design the network interconnections so that the deployment and maintenance of the infrastructure is cost-effective. We analyze the structural properties of several DCN topologies and also present some comparison among these network architectures with the aim to reduce B-VMOA overhead costs. From our analysis, we recommend the hypercube topology as a solution to address the performance bottleneck in the B-VMOA control plane caused by gossip dissemination protocol along with an estimate of performance improvement
APA, Harvard, Vancouver, ISO, and other styles
11

Alili, Hiba. "Intégration de données basée sur la qualité pour l'enrichissement des sources de données locales dans le Service Lake." Thesis, Paris Sciences et Lettres (ComUE), 2019. http://www.theses.fr/2019PSLED019.

Full text
Abstract:
De nos jours, d’énormes volumes de données sont créés en continu et les utilisateurs s’attendent à ce que ceux-ci soient collectés, stockés et traités quasiment en temps réel. Ainsi, les lacs de données sont devenus une solution attractive par rapport aux entrepôts de données classiques coûteux et fastidieux (nécessitant une démarche ETL), pour les entreprises qui souhaitent stocker leurs données. Malgré leurs volumes, les données stockées dans les lacs de données des entreprises sont souvent incomplètes voire non mises à jour vis-à-vis des besoins (requêtes) des utilisateurs.Les sources de données locales ont donc besoin d’être enrichies. Par ailleurs, la diversité et l’expansion du nombre de sources d’information disponibles sur le web a rendu possible l’extraction des données en temps réel. Ainsi, afin de permettre d’accéder et de récupérer l’information de manière simple et interopérable, les sources de données sont de plus en plus intégrées dans les services Web. Il s’agit plus précisément des services de données, y compris les services DaaS du Cloud Computing. L’enrichissement manuel des sources locales implique plusieurs tâches fastidieuses telles que l’identification des services pertinents, l’extraction et l’intégration de données hétérogènes, la définition des mappings service-source, etc. Dans un tel contexte, nous proposons une nouvelle approche d’intégration de données centrée utilisateur. Le but principal est d’enrichir les sources de données locales avec des données extraites à partir du web via les services de données. Cela permettrait de satisfaire les requêtes des utilisateurs tout en respectant leurs préférences en terme de coût d’exécution et de temps de réponse et en garantissant la qualité des résultats obtenus
In the Big Data era, companies are moving away from traditional data-warehouse solutions whereby expensive and timeconsumingETL (Extract, Transform, Load) processes are used, towards data lakes in order to manage their increasinglygrowing data. Yet the stored knowledge in companies’ databases, even though in the constructed data lakes, can never becomplete and up-to-date, because of the continuous production of data. Local data sources often need to be augmentedand enriched with information coming from external data sources. Unfortunately, the data enrichment process is one of themanual labors undertaken by experts who enrich data by adding information based on their expertise or select relevantdata sources to complete missing information. Such work can be tedious, expensive and time-consuming, making itvery promising for automation. We present in this work an active user-centric data integration approach to automaticallyenrich local data sources, in which the missing information is leveraged on the fly from web sources using data services.Accordingly, our approach enables users to query for information about concepts that are not defined in the data sourceschema. In doing so, we take into consideration a set of user preferences such as the cost threshold and the responsetime necessary to compute the desired answers, while ensuring a good quality of the obtained results
APA, Harvard, Vancouver, ISO, and other styles
12

Degoutin, Stéphane. "Société-nuage." Thesis, Paris Est, 2019. http://www.theses.fr/2019PESC1009.

Full text
Abstract:
Ce livre se déroule, comme une peinture de paysage chinois que le regard parcourt lentement. J’utilise cette forme car je décris un panorama. Il n’est pas fait de montagnes dans la brume ou de buissons balayés par le vent, mais de centres de traitement de données, d’entrepôts de livraison, de flux de réseaux sociaux…J’explore l’hypothèse qu’Internet s’inscrit dans un mouvement général de réduction de la société à des composants de petite échelle, ce qui permet une fluidification de ses mécanismes. Une idée de chimiste – la décomposition en poudre de la matière permettant de faciliter sa recomposition – est également appliquée aux relations sociales, à la mémoire, à l’humain en général.Tout comme la réduction en poudre de la matière permet d’accélérer les réactions chimiques, la réduction en poudre de la société permet une décomposition et une recomposition accélérée de la matière dont est faite l’humain. Elle permet de multiplier les réactions au sein de la société, les productions de l’humanité, la chimie sociale : combinatoire des passions (Charles Fourier), hyperfragmentation du travail (Mechanical Turk), décomposition du savoir (Paul Otlet), Internet des neurones (Michael Chorost), société par agrégation des micro affects (Facebook). C’est ce que j’appelle la « société-nuage »
This book unfolds, like a Chinese landscape painting through which the viewer’s gaze wanders slowly. I describe a panorama. It is not made of mountains in the mist or bushes swept by the wind, but of data centers, automated warehouses, social network feeds...I explore the hypothesis that the Internet is part of a general process that reduces society and materials to small-scale components, which allow its mechanisms to become more fluid. A chemist’s idea – the decomposition of matter into powder to facilitate its recomposition – is also applied to social relations, memory and humans in general.Just as the reduction of matter accelerates chemical reactions, the reduction of society to powder allows for an accelerated decomposition and recomposition of all from which humans are made. It allows to multiply the reactions within society, to accelerate the productions of humanity and the social chemistry : combination of human passions (Charles Fourier), hyperfragmentation of work (Mechanical Turk), decomposition of knowledge (Paul Otlet), Internet of neurons (Michael Chorost), agregation of micro affects (Facebook). This is what I call the « society as cloud »
APA, Harvard, Vancouver, ISO, and other styles
13

Cerović, Danilo. "Architecture réseau résiliente et hautement performante pour les datacenters virtualisés." Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS478.

Full text
Abstract:
Le volume de trafic échangé dans les centres de données croît de façon exponentielle et tout nous porte à croire que cette tendance devrait continuer dans un avenir proche. Afin de suivre cette augmentation, de nombreux progrès dans le domaine des réseaux ont été effectués : les débits des interfaces réseau modernes atteignent aujourd’hui des vitesses supérieures à 40Gbps. Néanmoins, l’exploitation de ces interfaces à haut débit est limitée par l'architecture des piles réseau génériques qui sont incapables de traiter les paquets reçus à une vitesse suffisamment rapide. De nombreuses solutions matérielles et logicielles sont donc récemment apparues afin d'augmenter la vitesse de traitement des paquets. Dans cette thèse, nous étudierons différentes approches, reposant sur l’utilisation de logiciel, de matériel ou d’une combinaison des deux, afin d’améliorer les performances de la partie traitement de paquets réseau sur des hôtes de type serveur. Certaines solutions étudiées sont basées sur le routeur modulaire Click qui utilise, pour exécuter ses fonctions réseau, différents types de matériel (GPU, les FPGA, exécution en parallèle sur de multiples cœurs). Nous explorerons également des solutions logicielles alternatives à Click. Nous comparerons les solutions logicielles et matérielles de traitement de paquets en fonction de différents critères et discuterons de leurs contraintes et de leurs exigences ainsi que de leurs possibilités d'intégration dans des environnements virtualisés. Comme première contribution, nous proposons une architecture de réseau « fabric » résiliente et hautement performante. Notre objectif est de construire un réseau maillé de niveau 2 utilisant uniquement des cartes d'accélération matérielle qui effectuent le traitement des paquets en place des routeurs et des commutateurs. Nous avons décidé d'utiliser, pour la communication entre ces cartes réseau intelligentes, le protocole TRILL qui permet d’avoir une meilleure utilisation des liens réseau tout en assurant un transfert de données au moindre coût entre les hôtes. Le traitement des paquets du plan de données est déchargé sur une carte réseau programmable qui effectue le traitement en parallèle. De plus, nous proposons d'utiliser l'API ODP afin que le code de l'application de traitement de paquets puisse être réutilisé par toute autre solution prenant en charge ladite l'API. Notre deuxième contribution consiste à l’implémentation d’un plan de données du protocole TRILL sur la carte réseau intelligente MPPA (Massively Parallel Processor Array) prenant en charge l’API ODP. Nos résultats expérimentaux montrent que nous pouvons traiter les trames TRILL à un débit de ligne en full-duplex (jusqu'à 40Gbps) pour différentes tailles de paquets tout en réduisant le temps de latence. Comme troisième contribution, nous proposons une analyse mathématique de l'impact des différentes topologies de réseau sur la charge du plan de contrôle. Nous avons examiné diverses topologies de réseau et comparé leurs charges induites par le trafic de contrôle. Nous avons également montré que la topologie hypercube était celle qui convenait le mieux à notre cas d'utilisation de centre de données PoP, car elle n'avait pas une charge de plan de contrôle élevée et avait une meilleure résilience que la topologie fat-tree tout en ayant une distance moyenne plus courte entre les nœuds
The amount of traffic in data centers is growing exponentially and it is not expected to stop growing any time soon. This brings about a vast amount of advancements in the networking field. Network interface throughputs supported today are in the range of 40Gbps and higher. On the other hand, such high interface throughputs do not guarantee higher packet processing speeds which are limited due to the overheads imposed by the architecture of the network stack. Nevertheless, there is a great need for a speedup in the forwarding engine, which is the most important part of a high-speed router. For this reason, many software-based and hardware-based solutions have emerged recently with a goal of increasing packet processing speeds. The networking stack of an operating system is not conceived for high-speed networking applications but rather for general purpose communications. In this thesis, we investigate various approaches that strive to improve packet processing performance on server-class network hosts, either by using software, hardware, or the combination of the two. Some of the solutions are based on the Click modular router which offloads its functions on different types of hardware like GPUs, FPGAs or different cores among different servers with parallel execution. Furthermore, we explore other software solutions which are not based on the Click modular router. We compare software and hardware packet processing solutions based on different criteria and we discuss their integration possibilities in virtualized environments, their constraints and their requirements. As our first contribution, we propose a resilient and highly performant fabric network architecture. Our goal is to build a layer 2 mesh network that only uses directly connected hardware acceleration cards that perform packet processing instead of routers and switches. We have decided to use the TRILL protocol for the communication between these smart NICs as it provides a better utilization of network links while also providing least-cost pair-wise data forwarding. The data plane packet processing is offloaded on a programmable hardware with parallel processing capability. Additionally, we propose to use the ODP API so that packet processing application code can be reused by any other packet processing solution that supports the ODP API. As our second contribution, we designed a data plane of the TRILL protocol on theMPPA (Massively Parallel Processor Array) smart NIC which supports the ODP API. Our experimental results show that we can process TRILL frames at full-duplex line-rate (up to 40Gbps) for different packet sizes while reducing latency. As our third contribution, we provide a mathematical analysis of the impact of different network topologies on the control plane’s load. The data plane packet processing is performed on the MPPA smart NICs. Our goal is to build a layer 2 mesh network that only uses directly connected smart NIC cards instead of routers and switches. We have considered various network topologies and we compared their loads induced by the control plane traffic. We have also shown that hypercube topology is the most suitable for our PoP data center use case because it does not have a high control plane load and it has a better resilience than fat-tree while having a shorter average distance between the nodes
APA, Harvard, Vancouver, ISO, and other styles
14

Dehdouh, Khaled. "Entrepôts de données NoSQL orientés colonnes dans un environnement cloud." Thesis, Lyon 2, 2015. http://www.theses.fr/2015LYO22018.

Full text
Abstract:
Le travail présenté dans cette thèse vise à proposer des approches pour construire et développer des entrepôts de données selon le modèle NoSQL orienté colonnes. L'intérêt porté aux modèles NoSQL est motivé d'une part, par l'avènement des données massives et d'autre part, par l'incapacité du modèle relationnel, habituellement utilisés pour implémenter les entrepôts de données, à permettre le passage à très grande échelle. En effet, les différentes modèles NoSQL sont devenus des standards dans le stockage et la gestion des données massives. Ils ont été conçus à l'origine pour construire des bases de données dont le modèle de stockage est le modèle « clé/valeur ». D'autres modèles sont alors apparus pour tenir compte de la variabilité des données : modèles orienté colonne, orienté document et orienté graphe. Pour développer des entrepôts de données massives, notre choix s'est porté sur le modèle NoSQL orienté colonnes car il apparaît comme étant le plus approprié aux traitements des requêtes décisionnelles qui sont définies en fonction d'un ensemble de colonnes (mesures et dimensions) issues de l'entrepôt. Cependant, le modèle NoSQL en colonnes ne propose pas d'opérateurs de type analyse en ligne (OLAP) afin d'exploiter les entrepôts de données.Nous présentons dans cette thèse des solutions innovantes sur la modélisation logique et physique des entrepôts de données NoSQL en colonnes. Nous avons proposé une approche de construction des cubes de données qui prend compte des spécificités de l'environnement du stockage orienté colonnes. Par ailleurs, afin d'exploiter les entrepôts de données en colonnes, nous avons défini des opérateurs d'agrégation permettant de créer des cubes OLAP. Nous avons proposé l'opérateur C-CUBE (Columnar-Cube) permettant de construire des cubes OLAP stockés en colonnes dans un environnement relationnel en utilisant la jointure invisible. MC-CUBE (MapReduce Columnar-Cube) pour construire des cubes OLAP stockés en colonnes dans un environnement distribué exploitant la jointure invisible et le paradigme MapReduce pour paralléliser les traitements. Et enfin, nous avons développé l'opérateur CN-CUBE (Columnar-NoSQL Cube) qui tient compte des faits et des dimensions qui sont groupés dans une même table lors de la génération de cubes à partir d'un entrepôt dénormalisé selon un certain modèle logique. Nous avons réalisé une étude de performance des modèles de données dimensionnels NoSQL et de nos opérateurs OLAP. Nous avons donc proposé un index de jointure en étoile adapté aux entrepôts de données NoSQL orientés colonnes, baptisé C-SJI (Columnar-Star Join Index). Pour évaluer nos propositions, nous avons défini un modèle de coût pour mesurer l'impact de l'apport de cet index. D'autre part, nous avons proposé un modèle logique baptisé FLM (Flat Logical Model) pour implémenter des entrepôts de données NoSQL orientés colonnes et de permettre une meilleure prise en charge par les SGBD NoSQL de cette famille.Pour valider nos différentes contributions, nous avons développé une plate-forme logicielle CG-CDW (Cube Generation for Columnar Data Warehouses) qui permet de générer des cubes OLAP à partir d'entrepôts de données en colonnes. Pour terminer et afin d'évaluer nos contributions, nous avons tout d'abord développé un banc d'essai décisionnel NoSQL en colonnes (CNSSB : Columnar NoSQL Star Schema Benchmark) basé sur le banc d'essai SSB (Star Schema Benchmark), puis, nous avons procédé à plusieurs tests qui ont permis de montrer l'efficacité des différents opérateurs d'agrégation que nous avons proposé
The work presented in this thesis aims at proposing approaches to build data warehouses by using the columnar NoSQL model. The use of NoSQL models is motivated by the advent of big data and the inability of the relational model, usually used to implement data warehousing, to allow data scalability. Indeed, the NoSQL models are suitable for storing and managing massive data. They are designed to build databases whose storage model is the "key/value". Other models, then, appeared to account for the variability of the data: column oriented, document oriented and graph oriented. We have used the column NoSQL oriented model for building massive data warehouses because it is more suitable for decisional queries that are defined by a set of columns (measures and dimensions) from warehouse. However, the NoSQL model columns do not offer online analysis operators (OLAP) for exploiting the data warehouse.We present in this thesis new solutions for logical and physical modeling of columnar NoSQL data warehouses. We have proposed a new approach that allows building data cubes by taking the characteristics of the columnar environment into account. Thus, we have defined new cube operators which allow building columnar cubes. C-CUBE (Columnar-CUBE) for columnar relational data warehouses. MC-CUBE (MapReduce Columnar-CUBE) for columnar NoSQL data warehouses when measures and dimensions are stored in different tables. Finally, CN-CUBE (Columnar NoSQL-CUBE) when measures and dimensions are gathered in the same table according a new logical model that we proposed. We have studied the NoSQL dimensional data model performance and our OLAP operators, and we have proposed a new star join index C-SJI (Columnar-Star join index) suitable for columnar NoSQL data warehouses which store measures and dimensions separately. To evaluate our contribution, we have defined a cost model to measure the impact of the use of this index. Furthermore, we have proposed a logic model called FLM (Flat Logical Model) to represent a data cube NoSQL oriented columns and enable a better management by columnar NoSQL DBMS.To validate our contributions, we have developed a software framework CG-CDW (Cube Generation for Data Warehouses Columnar) to generate OLAP cubes from columnar data warehouses. Also, we have developed a columnar NoSQL decisional benchmark CNSSB (Columnar NoSQL Star Schema Benchmark) based on the SSB and finally, we conducted several tests that have shown the effectiveness of different aggregation operators that we proposed
APA, Harvard, Vancouver, ISO, and other styles
15

Demir, Levent. "Module de confiance pour externalisation de données dans le Cloud." Thesis, Université Grenoble Alpes (ComUE), 2017. http://www.theses.fr/2017GREAM083/document.

Full text
Abstract:
L’externalisation des données dans le Cloud a engendré de nouvelles problématiques de sécurité. L’enjeu est de protéger les données des utilisateurs et leur vie privée. En ce sens, deux principes ont été suivis durant cette thèse : le premier est d’avoir une confiance limitée envers l’hébergeur de données (entre autres), le deuxième est d’établir une architecture basée sur un modulede confiance placé en rupture entre le poste client et le Cloud, d’où l’approche "Trust The Module,Not The Cloud" (TTM).Déléguer donc les opérations de sécurité à un module matériel dédié permet alors plusieurs bénéfices : d’abord s’affranchir d’un poste client davantage vulnérable face à des attaques internes ou externes ; ensuite limiter les composants logiciels au strict minimum afin d’avoir un meilleur contrôle du fonctionnement et enfin dédier les opérations cryptographiques à des co-processeurs spécialisés afin d’obtenir des performances élevées. Ainsi, les travaux menés durant cette présente thèse suivent trois axes. Dans un premieraxe nous avons étudié les défis d’un Cloud personnel destiné à protéger les données d’un particulier, et basé sur une carte nano-ordinateur du marché peu coûteuse. L’architecture que nous avons définie repose sur deux piliers : une gestion transparente du chiffrement grâce à l’usage d’un chiffrement par conteneur appelé Full Disk Encryption (FDE), initialement utilisédans un contexte de protection locale (chiffrement du disque d’un ordinateur ou d’un disque dur externe) ; et une gestion transparente de la distribution grâce à l’usage du protocole iSCSI qui permet de déporter le conteneur sur le Cloud. Nous avons montré que ces deux piliers permettent de construire un service sécurisé et fonctionnellement riche grâce à l’ajout progressif de modules"sur étagère" supplémentaires.Dans un deuxième axe, nous nous sommes intéressés au problème de performance lié à l’usage du FDE. Une étude approfondie du mode de chiffrement XTS-AES recommandé pour le FDE, du module noyau Linux dm-crypt et des co-processeurs cryptographiques (ne supportant pas tous le mode XTS-AES), nous ont conduit à proposer différentes optimisations dont l’approche extReq, qui étend les requêtes cryptographiques envoyées aux co-processeurs. Ces travaux nousont ainsi permis de doubler les débits de chiffrement et déchiffrement.Dans un troisième axe, afin de passer à l’échelle, nous avons utilisé un module de sécurité matériel (Hardware Secure Module ou HSM) certifié et plus puissant, dédié à la protection des données et à la gestion des clés. Tout en capitalisant sur l’architecture initiale, l’ajout du module HSM permet alors de fournir un service de protection adapté aux besoins d’une entreprise par exemple
Data outsourcing to the Cloud has led to new security threats. The main concerns of this thesis are to protect the user data and privacy. In particular, it follows two principles : to decrease the necessary amount of trust towards the Cloud, and to design an architecture based on a trusted module between the Cloud and the clients. Both principles are derived from a new design approach : "Trust The Module, Not The Cloud ".Gathering all the cryptographic operations in a dedicated module allows several advantages : a liberation from internal and external attacks on client side ; the limitation of software to the essential needs offers a better control of the system ; using co-processors for cryptographic operations leads to higher performance.The thesis work is structured into three main sections. In the first section , we confront challenges of a personal Cloud, designed to protect the users’ data and based on a common and cheap single-board computer. The architecture relies on two main foundations : a transparent encryption scheme based on Full Disk Encryption (FDE), initially used for local encryption (e.g., hard disks), and a transparent distribution method that works through iSCSI network protocol in order to outsource containers in Cloud.In the second section we deal with the performance issue related to FDE. By analysing the XTS-AES mode of encryption, the Linux kernel module dm-crypt and the cryptographic co-processors, we introduce a new approach called extReq which extends the cryptographic requests sent to the co-processors. This optimisation has doubled the encryption and decryption throughput.In the final third section we establish a Cloud for enterprises based on a more powerful and certified Hardware Security Module (HSM) which is dedicated to data encryption and keys protection. Based on the TTM architecture, we added "on-the-shelf" features to provide a solution for enterprise
APA, Harvard, Vancouver, ISO, and other styles
16

Tos, Uras. "Réplication de données dans les systèmes de gestion de données à grande échelle." Thesis, Toulouse 3, 2017. http://www.theses.fr/2017TOU30066/document.

Full text
Abstract:
Ces dernières années, la popularité croissante des applications, e.g. les expériences scientifiques, Internet des objets et les réseaux sociaux, a conduit à la génération de gros volumes de données. La gestion de telles données qui de plus, sont hétérogènes et distribuées à grande échelle, constitue un défi important. Dans les systèmes traditionnels tels que les systèmes distribués et parallèles, les systèmes pair-à-pair et les systèmes de grille, répondre à des objectifs tels que l'obtention de performances acceptables tout en garantissant une bonne disponibilité de données constituent des objectifs majeurs pour l'utilisateur, en particulier lorsque ces données sont réparties à travers le monde. Dans ce contexte, la réplication de données, une technique très connue, permet notamment: (i) d'augmenter la disponibilité de données, (ii) de réduire les coûts d'accès aux données et (iii) d'assurer une meilleure tolérance aux pannes. Néanmoins, répliquer les données sur tous les nœuds est une solution non réaliste vu qu'elle génère une consommation importante de la bande passante en plus de l'espace limité de stockage. Définir des stratégies de réplication constitue la solution à apporter à ces problématiques. Les stratégies de réplication de données qui ont été proposées pour les systèmes traditionnels cités précédemment ont pour objectif l'amélioration des performances pour l'utilisateur. Elles sont difficiles à adapter dans les systèmes de cloud. En effet, le fournisseur de cloud a pour but de générer un profit en plus de répondre aux exigences des locataires. Satisfaire les attentes de ces locataire en matière de performances sans sacrifier le profit du fournisseur d'un coté et la gestion élastiques des ressources avec une tarification suivant le modèle 'pay-as-you-go' d'un autre coté, constituent des principes fondamentaux dans les systèmes cloud. Dans cette thèse, nous proposons une stratégie de réplication de données pour satisfaire les exigences du locataire, e.g. les performances, tout en garantissant le profit économique du fournisseur. En se basant sur un modèle de coût, nous estimons le temps de réponse nécessaire pour l'exécution d'une requête distribuée. La réplication de données n'est envisagée que si le temps de réponse estimé dépasse un seuil fixé auparavant dans le contrat établi entre le fournisseur et le client. Ensuite, cette réplication doit être profitable du point de vue économique pour le fournisseur. Dans ce contexte, nous proposons un modèle économique prenant en compte aussi bien les dépenses et les revenus du fournisseur lors de l'exécution de cette requête. Nous proposons une heuristique pour le placement des répliques afin de réduire les temps d'accès à ces nouvelles répliques. De plus, un ajustement du nombre de répliques est adopté afin de permettre une gestion élastique des ressources. Nous validons la stratégie proposée par une évaluation basée sur une simulation. Nous comparons les performances de notre stratégie à celles d'une autre stratégie de réplication proposée dans les clouds. L'analyse des résultats obtenus a montré que les deux stratégies comparées répondent à l'objectif de performances pour le locataire. Néanmoins, une réplique de données n'est crée, avec notre stratégie, que si cette réplication est profitable pour le fournisseur
In recent years, growing popularity of large-scale applications, e.g. scientific experiments, Internet of things and social networking, led to generation of large volumes of data. The management of this data presents a significant challenge as the data is heterogeneous and distributed on a large scale. In traditional systems including distributed and parallel systems, peer-to-peer systems and grid systems, meeting objectives such as achieving acceptable performance while ensuring good availability of data are major challenges for service providers, especially when the data is distributed around the world. In this context, data replication, as a well-known technique, allows: (i) increased data availability, (ii) reduced data access costs, and (iii) improved fault-tolerance. However, replicating data on all nodes is an unrealistic solution as it generates significant bandwidth consumption in addition to exhausting limited storage space. Defining good replication strategies is a solution to these problems. The data replication strategies that have been proposed for the traditional systems mentioned above are intended to improve performance for the user. They are difficult to adapt to cloud systems. Indeed, cloud providers aim to generate a profit in addition to meeting tenant requirements. Meeting the performance expectations of the tenants without sacrificing the provider's profit, as well as managing resource elasticities with a pay-as-you-go pricing model, are the fundamentals of cloud systems. In this thesis, we propose a data replication strategy that satisfies the requirements of the tenant, such as performance, while guaranteeing the economic profit of the provider. Based on a cost model, we estimate the response time required to execute a distributed database query. Data replication is only considered if, for any query, the estimated response time exceeds a threshold previously set in the contract between the provider and the tenant. Then, the planned replication must also be economically beneficial to the provider. In this context, we propose an economic model that takes into account both the expenditures and the revenues of the provider during the execution of any particular database query. Once the data replication is decided to go through, a heuristic placement approach is used to find the placement for new replicas in order to reduce the access time. In addition, a dynamic adjustment of the number of replicas is adopted to allow elastic management of resources. Proposed strategy is validated in an experimental evaluation carried out in a simulation environment. Compared with another data replication strategy proposed in the cloud systems, the analysis of the obtained results shows that the two compared strategies respond to the performance objective for the tenant. Nevertheless, a replica of data is created, with our strategy, only if this replication is profitable for the provider
APA, Harvard, Vancouver, ISO, and other styles
17

Lewtas, Joan. "Radio structure and associated molecular environment at the galactic centre." Thesis, University of Cambridge, 1987. http://ethos.bl.uk/OrderDetails.do?uin=uk.bl.ethos.346434.

Full text
APA, Harvard, Vancouver, ISO, and other styles
18

Segalini, Andrea. "Alternatives à la migration de machines virtuelles pour l'optimisation des ressources dans les centres informatiques hautement consolidés." Thesis, Université Côte d'Azur, 2021. http://www.theses.fr/2021COAZ4085.

Full text
Abstract:
La virtualisation est une technologie de première importance dans les centres informatiques (data centers). Elle fournit deux mécanismes clés, les machines virtuelles et la migration, qui permettent de maximiser l’utilisation des ressources pour réduire les dépenses d’investissement. Dans cette thèse, nous avons identifié et étudié deux contextes où la migration traditionnelle ne parvient pas à fournir les outils optimaux pour utiliser au mieux les ressources disponibles dans un cluster : les machines virtuelles inactives et les mises à jour à grande échelle des hyperviseurs.Les machines virtuelles inactives verrouillent en permanence les ressources qui leur sont attribuées uniquement dans l’attente des (rares) demandes des utilisateurs. Ainsi, alors qu’elles sont la plupart du temps inactifs, elles ne peuvent pas être arrêtées, ce qui libérerait des ressources pour des services plus demandeurs. Pour résoudre ce problème, nous proposons SEaMLESS, une solution qui exploite une nouvelle forme de migration de VM vers un conteneur, en transformant les machines virtuelles Linux inactives en proxys sans ressources. SEaMLESS intercepte les nouvelles demandes des utilisateurs lorsque les machines virtuelles sont désactivées, reprenant de manière transparente leur exécution dès que de nouveaux signes d’activité sont détectés. De plus, nous proposons une technique facile à adopter pour désactiver les machines virtuelles basée sur une mise en swap de la mémoire de la machine virtuelle. Grâce à notre nouveau système de suspension en swap, nous sommes en mesure de libérer la majorité de la mémoire et du processeur occupés par les instances inactives, tout en offrant une reprise rapide du service.Dans la deuxième partie de la thèse, nous abordons le problème des évolutions à grande échelle des hyperviseurs. Les mises à niveau de l’hyperviseur nécessitent souvent un redémarrage de la machine, forçant les administrateurs du centre informatique à évacuer les hôtes, en déplaçant ailleurs les machines virtuelles pour protéger leur exécution. Cette évacuation est coûteuse, à la fois en termes de transferts réseau et de ressources supplémentaires nécessaires dans le centre informatique. Pour répondre à ce défi, nous proposons Hy-FiX et Multi-FiX, deux solutions de mise à niveau sur place qui ne consomment pas de ressources externes à l’hôte. Les deux solutions tirent parti d’une migration sans copie des machines virtuelles au sein de l’hôte, préservant leur état d’exécution tout au long de la mise à niveau de l’hyperviseur. Hy-FiX et Multi-FiX réalisent des mises à niveau évolutives, avec un impact limité sur les instances en cours d’exécution
Server virtualization is a technology of prime importance in contemporary data centers. Virtualization provides two key mechanisms, virtual instances and migration, that enable the maximization of the resource utilization to decrease the capital expenses in a data center. In this thesis, we identified and studied two contexts where traditional virtual instance migration falls short in providing the optimal tools to utilize at best the resource available in a cluster: idle virtual machines and largescale hypervisor upgrades.Idle virtual machines permanently lock the resources they are assigned only to await incoming user requests. Indeed, while they are most of the time idle, they cannot be shut down, which would release resources for more demanding services. To address this issue, we propose SEaMLESS, a solution that leverages a novel VM-to-container migration that transforms idle Linux virtual machines into resource-less proxies. SEaMLESS intercepts new user requests while virtual machines are disabled, transparently resuming their execution upon new signs of activity. Furthermore, we propose an easy-to-adopt technique to disable virtual machines based on the traditional hypervisor memory swapping. With our novel suspend-to-swap, we are able to release the majority of the memory and CPU seized by the idle instances, yet providing a fast resume.In the second part of the thesis, we tackle the problem of large-scale upgrades of the hypervisor software. Hypervisor upgrades often require a machine reboot, forcing data center administrators to evacuate the hosts, relocating elsewhere the virtual machines to protect their execution. As this evacuation is costly, both in terms of network transfers and spare resources needed in the data center, hypervisor upgrades hardly scale. We propose Hy-FiX and Multi-FiX, two in-place upgrade that do not consume resource external to the host. Both solutions leverage a zero-copy migration of virtual machines within the host, preserving their execution state across the hypervisor upgrade. Hy-FiX and Multi-FiX achieve scalable upgrades, with only limited impact on the running instances
APA, Harvard, Vancouver, ISO, and other styles
19

Moussa, Hadjer. "Traitement automatique de données océanographiques pour l'interpolation de la ∫CO₂ de surface dans l'océan Atlantique tropical, en utilisant les données satellitaires." Thesis, Perpignan, 2016. http://www.theses.fr/2016PERP0025/document.

Full text
Abstract:
Ce travail de thèse consiste à utiliser les données satellitaires de SST (température de surface), SSS (salinité de surface), et Chl-a (chlorophylle-a), pour l’interpolation de la fugacité du CO2 (fCO2) dans la couche de surface de l’océan Atlantique tropical, pour les saisons de la période 2002-2013. Trois types de données ont été utilisés : in situ (BD (base de données) SOCAT V.3) ; satellitaires (capteurs : MODIS-A, Sea-WIFS, et SMOS) ; et assimilées (BD SODA V.2.2.4). La première étape était la classification des données en se basant sur la SST. La deuxième étape était l’interpolation de la fCO2 (pour chaque classe de chaque saison), en utilisant des RNs (réseaux de neurones artificiels) de type feedforward, avec un apprentissage de type backpropagation. Les résultats obtenus (RMSEs (root mean square error) variant de 8,8 à 15,7 µatm) permettent de confirmer l’importance de : traiter les saisons séparément, classifier les données, et choisir le meilleur RN en fonction des résultats de la généralisation. Ceci a permis l’élaboration de 138 fichiers CSV (Comma-separated values) de fCO2 mensuelle, avec une résolution de 4 km x 4 km, pour la période allant de juillet 2002 à décembre 2013
This thesis work consists of using satellite data of SST (sea surface temperature), SSS (sea surface salinity), and Chl-a (chlorophyll-a), in order to interpolate the CO2 fugacity (fCO2) in the surface of the tropical Atlantic ocean, for seasons of the period 2002-2013. Three data types were used: in situ (SOCAT V.3 DB (database)); satellite (MODIS-A, Sea-WIFS, and SMOS sensors); and assimilated (SODA V.2.2.4 DB). The first step was the data classification based on SST. The second step was the fCO2 interpolation (for each class of each season), using feedforward NNs (artificial neural networks) with a backpropagation learning method. Obtained results (RMSEs (root mean square error) between 8,8 and 15,7 µatm) confirm the importance of: process each season separately, pass through data classification step, and choose the best NN on the basis of generalization step results. This allowed the development of 138 monthly fCO2 CSV (Comma-separated values) file, with 4 km x 4 km spatial resolution, for the period from July 2002 to December 2013
APA, Harvard, Vancouver, ISO, and other styles
20

Kaaniche, Nesrine. "Cloud data storage security based on cryptographic mechanisms." Thesis, Evry, Institut national des télécommunications, 2014. http://www.theses.fr/2014TELE0033/document.

Full text
Abstract:
Au cours de la dernière décennie, avec la standardisation d’Internet, le développement des réseaux à haut débit, le paiement à l’usage et la quête sociétale de la mobilité, le monde informatique a vu se populariser un nouveau paradigme, le Cloud. Le recours au cloud est de plus en plus remarquable compte tenu de plusieurs facteurs, notamment ses architectures rentables, prenant en charge la transmission, le stockage et le calcul intensif de données. Cependant, ces services de stockage prometteurs soulèvent la question de la protection des données et de la conformité aux réglementations, considérablement due à la perte de maîtrise et de gouvernance. Cette dissertation vise à surmonter ce dilemme, tout en tenant compte de deux préoccupations de sécurité des données, à savoir la confidentialité des données et l’intégrité des données. En premier lieu, nous nous concentrons sur la confidentialité des données, un enjeu assez considérable étant donné le partage de données flexible au sein d’un groupe dynamique d’utilisateurs. Cet enjeu exige, par conséquence, un partage efficace des clés entre les membres du groupe. Pour répondre à cette préoccupation, nous avons, d’une part, proposé une nouvelle méthode reposant sur l’utilisation de la cryptographie basée sur l’identité (IBC), où chaque client agit comme une entité génératrice de clés privées. Ainsi, il génère ses propres éléments publics et s’en sert pour le calcul de sa clé privée correspondante. Grâce aux propriétés d’IBC, cette contribution a démontré sa résistance face aux accès non autorisés aux données au cours du processus de partage, tout en tenant compte de deux modèles de sécurité, à savoir un serveur de stockage honnête mais curieux et un utilisateur malveillant. D’autre part, nous définissons CloudaSec, une solution à base de clé publique, qui propose la séparation de la gestion des clés et les techniques de chiffrement, sur deux couches. En effet, CloudaSec permet un déploiement flexible d’un scénario de partage de données ainsi que des garanties de sécurité solides pour les données externalisées sur les serveurs du cloud. Les résultats expérimentaux, sous OpenStack Swift, ont prouvé l’efficacité de CloudaSec, en tenant compte de l’impact des opérations cryptographiques sur le terminal du client. En deuxième lieu, nous abordons la problématique de la preuve de possession de données (PDP). En fait, le client du cloud doit avoir un moyen efficace lui permettant d’effectuer des vérifications périodiques d’intégrité à distance, sans garder les données localement. La preuve de possession se base sur trois aspects : le niveau de sécurité, la vérification publique, et les performances. Cet enjeu est amplifié par des contraintes de stockage et de calcul du terminal client et de la taille des données externalisées. Afin de satisfaire à cette exigence de sécurité, nous définissons d’abord un nouveau protocole PDP, sans apport de connaissance, qui fournit des garanties déterministes de vérification d’intégrité, en s’appuyant sur l’unicité de la division euclidienne. Ces garanties sont considérées comme intéressantes par rapport à plusieurs schémas proposés, présentant des approches probabilistes. Ensuite, nous proposons SHoPS, un protocole de preuve de possession de données capable de traiter les trois relations d’ensembles homomorphiques. SHoPS permet ainsi au client non seulement d’obtenir une preuve de la possession du serveur distant, mais aussi de vérifier que le fichier, en question, est bien réparti sur plusieurs périphériques de stockage permettant d’atteindre un certain niveau de la tolérance aux pannes. En effet, nous présentons l’ensemble des propriétés homomorphiques, qui étend la malléabilité du procédé aux propriétés d’union, intersection et inclusion
Recent technological advances have given rise to the popularity and success of cloud. This new paradigm is gaining an expanding interest, since it provides cost efficient architectures that support the transmission, storage, and intensive computing of data. However, these promising storage services bring many challenging design issues, considerably due to the loss of data control. These challenges, namely data confidentiality and data integrity, have significant influence on the security and performances of the cloud system. This thesis aims at overcoming this trade-off, while considering two data security concerns. On one hand, we focus on data confidentiality preservation which becomes more complex with flexible data sharing among a dynamic group of users. It requires the secrecy of outsourced data and an efficient sharing of decrypting keys between different authorized users. For this purpose, we, first, proposed a new method relying on the use of ID-Based Cryptography (IBC), where each client acts as a Private Key Generator (PKG). That is, he generates his own public elements and derives his corresponding private key using a secret. Thanks to IBC properties, this contribution is shown to support data privacy and confidentiality, and to be resistant to unauthorized access to data during the sharing process, while considering two realistic threat models, namely an honest but curious server and a malicious user adversary. Second, we define CloudaSec, a public key based solution, which proposes the separation of subscription-based key management and confidentiality-oriented asymmetric encryption policies. That is, CloudaSec enables flexible and scalable deployment of the solution as well as strong security guarantees for outsourced data in cloud servers. Experimental results, under OpenStack Swift, have proven the efficiency of CloudaSec in scalable data sharing, while considering the impact of the cryptographic operations at the client side. On the other hand, we address the Proof of Data Possession (PDP) concern. In fact, the cloud customer should have an efficient way to perform periodical remote integrity verifications, without keeping the data locally, following three substantial aspects : security level, public verifiability, and performance. This concern is magnified by the client’s constrained storage and computation capabilities and the large size of outsourced data. In order to fulfill this security requirement, we first define a new zero-knowledge PDP proto- col that provides deterministic integrity verification guarantees, relying on the uniqueness of the Euclidean Division. These guarantees are considered as interesting, compared to several proposed schemes, presenting probabilistic approaches. Then, we propose SHoPS, a Set-Homomorphic Proof of Data Possession scheme, supporting the 3 levels of data verification. SHoPS enables the cloud client not only to obtain a proof of possession from the remote server, but also to verify that a given data file is distributed across multiple storage devices to achieve a certain desired level of fault tolerance. Indeed, we present the set homomorphism property, which extends malleability to set operations properties, such as union, intersection and inclusion. SHoPS presents high security level and low processing complexity. For instance, SHoPS saves energy within the cloud provider by distributing the computation over multiple nodes. Each node provides proofs of local data block sets. This is to make applicable, a resulting proof over sets of data blocks, satisfying several needs, such as, proofs aggregation
APA, Harvard, Vancouver, ISO, and other styles
21

Kumar, Sathiya Prabhu. "Cohérence de données répliquées partagées adaptative pour architectures de stockage à fort degré d’élasticité." Thesis, Paris, CNAM, 2016. http://www.theses.fr/2016CNAM1035/document.

Full text
Abstract:
Les principales contributions de cette thèse sont au nombre de trois. La première partie de cette thèse concerne le développement d’un nouveau protocole de réplication nommé LibRe, permettant de limiter le nombre de lectures obsolètes dans un système de stockage distribué. LibRe est un acronyme signifiant "Library for Replication". Le principal objectif de LibRe est d’assurer la cohérence des données en contactant un minimum de répliques durant les opérations de lectures où d’écritures. Dans ce protocole, lors d’une opération d’écriture, chaque réplique met à jour un registre (la "librairie"), de manière asynchrone, avec l’identifiant de version de la donnée modifiée. Lors des opérations de lecture, la requête est transférée au réplica le plus approprié en fonction de l’information figurant dans le registre. Ce mécanisme permet de limiter le nombre de lectures obsolétes. L’évaluation de la cohérence d’un système reste un problème difficile à resoudre, que ce soit par simulation ou par évaluation en conditions réelles. Par conséquent nous avons développé un simulateur appelé Simizer, qui permet d’évaluer et de comparer la performance de différents protocoles de cohérence. Le système d’évaluation de bases de données YCSB a aussi été étendu pour évaluer l’échange entre cohérence et latence dans les systèmes de stockage modernes. Le code du simulateur et les modifications apportées à l’outil YCSB sont disponibles sous licence libre.Bien que les systèmes de bases de données modernes adaptent les garanties de cohérence à la demande de l’utilisateur, anticiper le niveau de cohérence requis pour chaque opération reste difficile pour un développeur d’application. La deuxième contribution de cette thèse cherche à résoudre ce problème en permettant à la base de données de remplacer le niveau de cohérence défini par défaut par d’autres règles définies à partir d’informations externes. Ces informations peuvent être fournies par l’administrateur ou un service extérieur. Dans cette thèse, nous validons ce modèle à l’aide d’une implémentation au sein du système de bases de données distribué Cassandra. La troisième contribution de cette thèse concerne la résolution des conflits de mise à jour. La résolution de ce type de conflits nécessite de retenir toutes les valeurs possibles d’un objet pour permettre la résolution du conflit grâce à une connaissance spécifique côté client. Ceci implique des coûts supplémentaires en termes de débit et de latence. Dans cette thèse nous discutons le besoin et la conception d’un nouveau type d’objet distribué, le registre à priorité, qui utilise une stratégie de détection et de résolution de conflits spécifique au domaine, et l’implante côté serveur. Notre approche utilise la notion d’ordre de remplacement spécifique. Nous montrons qu’un type de donnée paramètrée par un tel ordre peut fournir une solution efficace pour les applications demandant des solutions spécifiques à la résolution des conflits. Nous décrivons aussi l’implémentation d’une preuve de concept au sein de Cassandra
The main contributions of this thesis are three folds. The first contribution of the thesis focuses on an efficient way to control stale reads in modern database systems with the help of a new consistency protocol called LibRe. LibRe is an acronym for Library for Replication. The main goal of the LibRe protocol is to ensure data consistency by contacting a minimum number of replica nodes during read and write operations with the help of a library information. According to the protocol, during write operations each replica node updates a registry (library) asynchronously with the recent version identifier of the updated data. Forwarding the read requests to a right replica node referring the registry information helps to control stale reads during read operations. Evaluation of data consistency remains challenging both via simulation as well as in a real world setup. Hence, we implemented a new simulation toolkit called Simizer that helps to evaluate the performance of different consistency policies in a fast and efficient way. We also extended an existing benchmark tool YCSB that helps to evaluate the consistency-latency tradeoff offered by modern database systems. The codebase of the simulator and the extended YCSB are made open-source for public access. The performance of the LibRe protocol is validated both via simulation as well as in a real setup with the help of extended YCSB.Although the modern database systems adapt the consistency guarantees of the system per query basis, anticipating the consistency level of an application query in advance during application development time remains challenging for the application developers. In order to overcome this limitation, the second contribution of the thesis focuses on enabling the database system to override the application-defined consistency options during run time with the help of an external input. The external input could be given by a data administrator or by an external service. The thesis validates the proposed model with the help of a prototype implementation inside the Cassandra distributed storage system.The third contribution of the thesis focuses on resolving update conflicts. Resolving update conflicts often involve maintaining all possible values and perform the resolution via domain-specific knowledge at the client side. This involves additional cost in terms of network bandwidth and latency, and considerable complexity. In this thesis, we discuss the motivation and design of a novel data type called priority register that implements a domain-specific conflict detection and resolution scheme directly at the database side, while leaving open the option of additional reconciliation at the application level. Our approach uses the notion of an application-defined replacement ordering and we show that a data type parameterized by such an order can provide an efficient solution for applications that demand domain-specific conflict resolution. We also describe the proof of concept implementation of the priority register inside Cassandra. The conclusion and perspectives of the thesis work are summarized at the end
APA, Harvard, Vancouver, ISO, and other styles
22

Sellami, Rami. "Supporting multiple data stores based applications in cloud environments." Thesis, Université Paris-Saclay (ComUE), 2016. http://www.theses.fr/2016SACLL002/document.

Full text
Abstract:
Avec l’avènement du cloud computing et des big data, de nouveaux systèmes de gestion de bases de données sont apparus, connus en général sous le vocable systèmes NoSQL. Par rapport aux systèmes relationnels, ces systèmes se distinguent par leur absence de schéma, une spécialisation pour des types de données particuliers (documents, graphes, clé/valeur et colonne) et l’absence de langages de requêtes déclaratifs. L’offre est assez pléthorique et il n’y a pas de standard aujourd’hui comme peut l’être SQL pour les systèmes relationnels. De nombreuses applications peuvent avoir besoin de manipuler en même temps des données stockées dans des systèmes relationnels et dans des systèmes NoSQL. Le programmeur doit alors gérer deux (au moins) modèles de données différents et deux (au moins) langages de requêtes différents pour pouvoir écrire son application. De plus, il doit gérer explicitement tout son cycle de vie. En effet, il a à (1) coder son application, (2) découvrir les services de base de données déployés dans chaque environnement Cloud et choisir son environnement de déploiement, (3) déployer son application, (4) exécuter des requêtes multi-sources en les programmant explicitement dans son application, et enfin le cas échéant (5) migrer son application d’un environnement Cloud à un autre. Toutes ces tâches sont lourdes et fastidieuses et le programmeur risque d’être perdu dans ce haut niveau d’hétérogénéité. Afin de pallier ces problèmes et aider le programmeur tout au long du cycle de vie des applications utilisant des bases de données multiples, nous proposons un ensemble cohérent de modèles, d’algorithmes et d’outils. En effet, notre travail dans ce manuscrit de thèse se présente sous forme de quatre contributions. Tout d’abord, nous proposons un modèle de données unifié pour couvrir l’hétérogénéité entre les modèles de données relationnelles et NoSQL. Ce modèle de données est enrichi avec un ensemble de règles de raffinement. En se basant sur ce modèle, nous avons défini notre algèbre de requêtes. Ensuite, nous proposons une interface de programmation appelée ODBAPI basée sur notre modèle de données unifié, qui nous permet de manipuler de manière uniforme n’importe quelle source de données qu’elle soit relationnelle ou NoSQL. ODBAPI permet de programmer des applications indépendamment des bases de données utilisées et d’exprimer des requêtes simples et complexes multi-sources. Puis, nous définissons la notion de bases de données virtuelles qui interviennent comme des médiateurs et interagissent avec les bases de données intégrées via ODBAPI. Ce dernier joue alors le rôle d’adaptateur. Les bases de données virtuelles assurent l’exécution des requêtes d’une façon optimale grâce à un modèle de coût et un algorithme de génération de plan d’exécution optimal que nous définis. Enfin, nous proposons une approche automatique de découverte de bases de données dans des environnements Cloud. En effet, les programmeurs peuvent décrire leurs exigences en termes de bases de données dans des manifestes, et grâce à notre algorithme d’appariement, nous sélectionnons l’environnement le plus adéquat à notre application pour la déployer. Ainsi, nous déployons l’application en utilisant une API générique de déploiement appelée COAPS. Nous avons étendue cette dernière pour pouvoir déployer les applications utilisant plusieurs sources de données. Un prototype de la solution proposée a été développé et mis en œuvre dans des cas d'utilisation du projet OpenPaaS. Nous avons également effectué diverses expériences pour tester l'efficacité et la précision de nos contributions
The production of huge amount of data and the emergence of Cloud computing have introduced new requirements for data management. Many applications need to interact with several heterogeneous data stores depending on the type of data they have to manage: traditional data types, documents, graph data from social networks, simple key-value data, etc. Interacting with heterogeneous data models via different APIs, and multiple data stores based applications imposes challenging tasks to their developers. Indeed, programmers have to be familiar with different APIs. In addition, the execution of complex queries over heterogeneous data models cannot, currently, be achieved in a declarative way as it is used to be with mono-data store application, and therefore requires extra implementation efforts. Moreover, developers need to master and deal with the complex processes of Cloud discovery, and application deployment and execution. In this manuscript, we propose an integrated set of models, algorithms and tools aiming at alleviating developers task for developing, deploying and migrating multiple data stores applications in cloud environments. Our approach focuses mainly on three points. First, we provide a unified data model used by applications developers to interact with heterogeneous relational and NoSQL data stores. This model is enriched by a set of refinement rules. Based on that, we define our query algebra. Developers express queries using OPEN-PaaS-DataBase API (ODBAPI), a unique REST API allowing programmers to write their applications code independently of the target data stores. Second, we propose virtual data stores, which act as a mediator and interact with integrated data stores wrapped by ODBAPI. This run-time component supports the execution of single and complex queries over heterogeneous data stores. It implements a cost model to optimally execute queries and a dynamic programming based algorithm to generate an optimal query execution plan. Finally, we present a declarative approach that enables to lighten the burden of the tedious and non-standard tasks of (1) discovering relevant Cloud environments and (2) deploying applications on them while letting developers to simply focus on specifying their storage and computing requirements. A prototype of the proposed solution has been developed and implemented use cases from the OpenPaaS project. We also performed different experiments to test the efficiency and accuracy of our proposals
APA, Harvard, Vancouver, ISO, and other styles
23

Kemp, Gavin. "CURARE : curating and managing big data collections on the cloud." Thesis, Lyon, 2018. http://www.theses.fr/2018LYSE1179/document.

Full text
Abstract:
L'émergence de nouvelles plateformes décentralisées pour la création de données, tel que les plateformes mobiles, les capteurs et l'augmentation de la disponibilité d'open data sur le Web, s'ajoute à l'augmentation du nombre de sources de données disponibles et apporte des données massives sans précédent à être explorées. La notion de curation de données qui a émergé se réfère à la maintenance des collections de données, à la préparation et à l'intégration d'ensembles de données (data set), les combinant avec une plateforme analytique. La tâche de curation inclut l'extraction de métadonnées implicites et explicites ; faire la correspondance et l'enrichissement des métadonnées sémantiques afin d'améliorer la qualité des données. La prochaine génération de moteurs de gestion de données devrait promouvoir des techniques avec une nouvelle philosophie pour faire face au déluge des données. Ils devraient aider les utilisateurs à comprendre le contenue des collections de données et à apporter une direction pour explorer les données. Un scientifique peut explorer les collections de données pas à pas, puis s'arrêter quand le contenu et la qualité atteignent des niveaux satisfaisants. Notre travail adopte cette philosophie et la principale contribution est une approche de curation des données et un environnement d'exploration que nous avons appelé CURARE. CURARE est un système à base de services pour curer et explorer des données volumineuses sur les aspects variété et variabilité. CURARE implémente un modèle de collection de données, que nous proposons, visant représenter le contenu structurel des collections des données et les métadonnées statistiques. Le modèle de collection de données est organisé sous le concept de vue et celle-ci est une structure de données qui pourvoit une perspective agrégée du contenu des collections des données et de ses parutions (releases) associées. CURARE pourvoit des outils pour explorer (interroger) des métadonnées et pour extraire des vues en utilisant des méthodes analytiques. Exploiter les données massives requière un nombre considérable de décisions de la part de l'analyste des données pour trouver quelle est la meilleure façon pour stocker, partager et traiter les collections de données afin d'en obtenir le maximum de bénéfice et de connaissances à partir de ces données. Au lieu d'explorer manuellement les collections des données, CURARE fournit de outils intégrés à un environnement pour assister les analystes des données à trouver quelle est la meilleure collection qui peut être utilisée pour accomplir un objectif analytique donné. Nous avons implémenté CURARE et expliqué comment le déployer selon un modèle d'informatique dans les nuages (cloud computing) utilisant des services de science des donnés sur lesquels les services CURARE sont branchés. Nous avons conçu des expériences pour mesurer les coûts de la construction des vues à partir des ensembles des données du Grand Lyon et de Twitter, afin de pourvoir un aperçu de l'intérêt de notre approche et notre environnement de curation de données
The emergence of new platforms for decentralized data creation, such as sensor and mobile platforms and the increasing availability of open data on the Web, is adding to the increase in the number of data sources inside organizations and brings an unprecedented Big Data to be explored. The notion of data curation has emerged to refer to the maintenance of data collections and the preparation and integration of datasets, combining them to perform analytics. Curation tasks include extracting explicit and implicit meta-data; semantic metadata matching and enrichment to add quality to the data. Next generation data management engines should promote techniques with a new philosophy to cope with the deluge of data. They should aid the user in understanding the data collections’ content and provide guidance to explore data. A scientist can stepwise explore into data collections and stop when the content and quality reach a satisfaction point. Our work adopts this philosophy and the main contribution is a data collections’ curation approach and exploration environment named CURARE. CURARE is a service-based system for curating and exploring Big Data. CURARE implements a data collection model that we propose, used for representing their content in terms of structural and statistical meta-data organised under the concept of view. A view is a data structure that provides an aggregated perspective of the content of a data collection and its several associated releases. CURARE provides tools focused on computing and extracting views using data analytics methods and also functions for exploring (querying) meta-data. Exploiting Big Data requires a substantial number of decisions to be performed by data analysts to determine which is the best way to store, share and process data collections to get the maximum benefit and knowledge from them. Instead of manually exploring data collections, CURARE provides tools integrated in an environment for assisting data analysts determining which are the best collections that can be used for achieving an analytics objective. We implemented CURARE and explained how to deploy it on the cloud using data science services on top of which CURARE services are plugged. We have conducted experiments to measure the cost of computing views based on datasets of Grand Lyon and Twitter to provide insight about the interest of our data curation approach and environment
APA, Harvard, Vancouver, ISO, and other styles
24

Rabah, Mazouzi. "Approches collaboratives pour la classification des données complexes." Thesis, Paris 8, 2016. http://www.theses.fr/2016PA080079.

Full text
Abstract:
La présente thèse s'intéresse à la classification collaborative dans un contexte de données complexes, notamment dans le cadre du Big Data, nous nous sommes penchés sur certains paradigmes computationels pour proposer de nouvelles approches en exploitant des technologies de calcul intensif et large echelle. Dans ce cadre, nous avons mis en oeuvre des classifieurs massifs, au sens où le nombre de classifieurs qui composent le multi-classifieur peut être tres élevé. Dans ce cas, les méthodes classiques d'interaction entre classifieurs ne demeurent plus valables et nous devions proposer de nouvelles formes d'interactions, qui ne se contraignent pas de prendre la totalité des prédictions des classifieurs pour construire une prédiction globale. Selon cette optique, nous nous sommes trouvés confrontés à deux problèmes : le premier est le potientiel de nos approches à passer à l'echelle. Le second, relève de la diversité qui doit être créée et maintenue au sein du système, afin d'assurer sa performance. De ce fait, nous nous sommes intéressés à la distribution de classifieurs dans un environnement de Cloud-computing, ce système multi-classifieurs est peut etre massif et ses propréités sont celles d'un système complexe. En terme de diversité des données, nous avons proposé une approche d'enrichissement de données d'apprentissage par la génération de données de synthèse, à partir de modèles analytiques qui décrivent une partie du phenomène étudié. Aisni, la mixture des données, permet de renforcer l'apprentissage des classifieurs. Les expérientations menées ont montré un grand potentiel pour l'amélioration substantielle des résultats de classification
This thesis focuses on the collaborative classification in the context of complex data, in particular the context of Big Data, we used some computational paradigms to propose new approaches based on HPC technologies. In this context, we aim at offering massive classifiers in the sense that the number of elementary classifiers that make up the multiple classifiers system can be very high. In this case, conventional methods of interaction between classifiers is no longer valid and we had to propose new forms of interaction, where it is not constrain to take all classifiers predictions to build an overall prediction. According to this, we found ourselves faced with two problems: the first is the potential of our approaches to scale up. The second, is the diversity that must be created and maintained within the system, to ensure its performance. Therefore, we studied the distribution of classifiers in a cloud-computing environment, this multiple classifiers system can be massive and their properties are those of a complex system. In terms of diversity of data, we proposed a training data enrichment approach for the generation of synthetic data from analytical models that describe a part of the phenomenon studied. so, the mixture of data reinforces learning classifiers. The experimentation made have shown the great potential for the substantial improvement of classification results
APA, Harvard, Vancouver, ISO, and other styles
25

Jlassi, Aymen. "Optimisation de la gestion des ressources sur une plate-forme informatique du type Big Data basée sur le logiciel Hadoop." Thesis, Tours, 2017. http://www.theses.fr/2017TOUR4042.

Full text
Abstract:
L'entreprise "Cyres-group" cherche à améliorer le temps de réponse de ses grappes Hadoop et la manière dont les ressources sont exploitées dans son centre de données. Les idées sous-jacentes à la réduction du temps de réponse sont de faire en sorte que (i) les travaux soumis se terminent au plus tôt et que (ii) le temps d'attente de chaque utilisateur du système soit réduit. Nous identifions deux axes d'amélioration : 1. nous décidons d'intervenir pour optimiser l'ordonnancement des travaux sur une plateforme Hadoop. Nous considérons le problème d'ordonnancement d'un ensemble de travaux du type MapReduce sur une plateforme homogène. 2. Nous décidons d'évaluer et proposer des outils capables (i) de fournir plus de flexibilité lors de la gestion des ressources dans le centre de données et (ii) d'assurer l'intégration d'Hadoop dans des infrastructures Cloud avec le minimum de perte de performance. Dans une première étude, nous effectuons une revue de la littérature. À la fin de cette étape, nous remarquons que les modèles mathématiques proposés dans la littérature pour le problème d'ordonnancement ne modélisent pas toutes les caractéristiques d'une plateforme Hadoop. Nous proposons à ce niveau un modèle plus réaliste qui prend en compte les aspects les plus importants tels que la gestion des ressources, la précédence entre les travaux, la gestion du transfert des données et la gestion du réseau. Nous considérons une première modélisation simpliste et nous considérons la minimisation de la date de fin du dernier travail (Cmax) comme critère à optimiser. Nous calculons une borne inférieure à l'aide de la résolution du modèle mathématique avec le solveur CPLEX. Nous proposons une heuristique (LocFirst) et nous l'évaluons. Ensuite, nous faisons évoluer notre modèle et nous considérons, comme fonction objective, la somme des deux critères identifiés depuis la première étape : la minimisation de la somme pondérée des dates de fin des travaux ( ∑ wjCj) et la minimisation du (Cmax). Nous cherchons à minimiser la moyenne pondérée des deux critères, nous calculons une borne inférieure et nous proposons deux heuristiques de résolution
"Cyres-Group" is working to improve the response time of his clusters Hadoop and optimize how the resources are exploited in its data center. That is, the goals are to finish work as soon as possible and reduce the latency of each user of the system. Firstly, we decide to work on the scheduling problem in the Hadoop system. We consider the problem as the problem of scheduling a set of jobs on a homogeneous platform. Secondly, we decide to propose tools, which are able to provide more flexibility during the resources management in the data center and ensure the integration of Hadoop in Cloud infrastructures without unacceptable loss of performance. Next, the second level focuses on the review of literature. We conclude that, existing works use simple mathematical models that do not reflect the real problem. They ignore the main characteristics of Hadoop software. Hence, we propose a new model ; we take into account the most important aspects like resources management and the relations of precedence among tasks and the data management and transfer. Thus, we model the problem. We begin with a simplistic model and we consider the minimisation of the Cmax as the objective function. We solve the model with mathematical solver CPLEX and we compute a lower bound. We propose the heuristic "LocFirst" that aims to minimize the Cmax. In the third level, we consider a more realistic modelling of the scheduling problem. We aim to minimize the weighted sum of the following objectives : the weighted flow time ( ∑ wjCj) and the makespan (Cmax). We compute a lower bound and we propose two heuristics to resolve the problem
APA, Harvard, Vancouver, ISO, and other styles
26

Attasena, Varunya. "Secret sharing approaches for secure data warehousing and on-line analysis in the cloud." Thesis, Lyon 2, 2015. http://www.theses.fr/2015LYO22014/document.

Full text
Abstract:
Les systèmes d’information décisionnels dans le cloud Computing sont des solutions de plus en plus répandues. En effet, ces dernières offrent des capacités pour l’aide à la décision via l’élasticité des ressources pay-per-use du Cloud. Toutefois, les questions de sécurité des données demeurent une des principales préoccupations notamment lorsqu'il s’agit de traiter des données sensibles de l’entreprise. Beaucoup de questions de sécurité sont soulevées en terme de stockage, de protection, de disponibilité, d'intégrité, de sauvegarde et de récupération des données ainsi que des transferts des données dans un Cloud public. Les risques de sécurité peuvent provenir non seulement des fournisseurs de services de cloud computing mais aussi d’intrus malveillants. Les entrepôts de données dans les nuages devraient contenir des données sécurisées afin de permettre à la fois le traitement d'analyse en ligne hautement protégé et efficacement rafraîchi. Et ceci à plus faibles coûts de stockage et d'accès avec le modèle de paiement à la demande. Dans cette thèse, nous proposons deux nouvelles approches pour la sécurisation des entrepôts de données dans les nuages basées respectivement sur le partage vérifiable de clé secrète (bpVSS) et le partage vérifiable et flexible de clé secrète (fVSS). L’objectif du partage de clé cryptée et la distribution des données auprès de plusieurs fournisseurs du cloud permet de garantir la confidentialité et la disponibilité des données. bpVSS et fVSS abordent cinq lacunes des approches existantes traitant de partage de clés secrètes. Tout d'abord, ils permettent le traitement de l’analyse en ligne. Deuxièmement, ils garantissent l'intégrité des données à l'aide de deux signatures interne et externe. Troisièmement, ils aident les utilisateurs à minimiser le coût de l’entreposage du cloud en limitant le volume global de données cryptées. Sachant que fVSS fait la répartition des volumes des données cryptées en fonction des tarifs des fournisseurs. Quatrièmement, fVSS améliore la sécurité basée sur le partage de clé secrète en imposant une nouvelle contrainte : aucun groupe de fournisseurs de service ne peut contenir suffisamment de volume de données cryptées pour reconstruire ou casser le secret. Et cinquièmement, fVSS permet l'actualisation de l'entrepôt de données, même si certains fournisseurs de services sont défaillants. Pour évaluer l'efficacité de bpVSS et fVSS, nous étudions théoriquement les facteurs qui influent sur nos approches en matière de sécurité, de complexité et de coût financier dans le modèle de paiement à la demande. Nous validons également expérimentalement la pertinence de nos approches avec le Benchmark schéma en étoile afin de démontrer son efficacité par rapport aux méthodes existantes
Cloud business intelligence is an increasingly popular solution to deliver decision support capabilities via elastic, pay-per-use resources. However, data security issues are one of the top concerns when dealing with sensitive data. Many security issues are raised by data storage in a public cloud, including data privacy, data availability, data integrity, data backup and recovery, and data transfer safety. Moreover, security risks may come from both cloud service providers and intruders, while cloud data warehouses should be both highly protected and effectively refreshed and analyzed through on-line analysis processing. Hence, users seek secure data warehouses at the lowest possible storage and access costs within the pay-as-you-go paradigm.In this thesis, we propose two novel approaches for securing cloud data warehouses by base-p verifiable secret sharing (bpVSS) and flexible verifiable secret sharing (fVSS), respectively. Secret sharing encrypts and distributes data over several cloud service providers, thus enforcing data privacy and availability. bpVSS and fVSS address five shortcomings in existing secret sharing-based approaches. First, they allow on-line analysis processing. Second, they enforce data integrity with the help of both inner and outer signatures. Third, they help users minimize the cost of cloud warehousing by limiting global share volume. Moreover, fVSS balances the load among service providers with respect to their pricing policies. Fourth, fVSS improves secret sharing security by imposing a new constraint: no cloud service provide group can hold enough shares to reconstruct or break the secret. Five, fVSS allows refreshing the data warehouse even when some service providers fail. To evaluate bpVSS' and fVSS' efficiency, we theoretically study the factors that impact our approaches with respect to security, complexity and monetary cost in the pay-as-you-go paradigm. Moreover, we also validate the relevance of our approaches experimentally with the Star Schema Benchmark and demonstrate its superiority to related, existing methods
APA, Harvard, Vancouver, ISO, and other styles
27

Hamadache, Clarisse. "Recherche d'effets de microlentille gravitationnelle vers le centre galactique avec les données d'EROS-II." Phd thesis, Université Louis Pasteur - Strasbourg I, 2004. http://tel.archives-ouvertes.fr/tel-00008874.

Full text
Abstract:
La recherche systématique d'effets de microlentille gravitationnelle vers le centre galactique permet de sonder la structure galactique. Le travail de thèse présenté ici concerne l'analyse des données collectées vers le centre galactique par l'expérience Eros2 pendant toute sa durée (1996-2003) : 66 degrés carrés du ciel situés de part et d'autre du plan galactique étaient surveillés. Les courbes de lumière d'environ 50 millions d'étoiles ont pu être construites dans deux filtres. Les effets de microlentille gravitationnelle d'une durée comprise entre 4 jours et 500 jours et dont l'amplification maximum est supérieure à 2,18 ont été recherchés ; ceci permet de sélectionner des candidats convaincants et constitue une originalité par rapport aux analyses précédentes (Eros2 et concurrents) où l'on considérait une amplification maximum supérieure à 1,34. L'analyse a révélé 139 candidats de microlentille gravitationnelle. Pour calculer la profondeur optique, l'échantillon d'étoiles sources a été restreint aux étoiles situées autour de l'amas des étoiles géantes rouges dans le diagramme couleur magnitude. Ce sous-échantillon constitué de 5,57.10e6 étoiles présente 91 candidats parmi les 139 avec une efficacité moyenne de détection de 56%. La profondeur optique correspondante est de (1,79+/-0,20).10e-6, elle est compatible avec les valeurs attendues par les modèles galactiques. Ce résultat est en accord avec le dernier résultat du groupe Macho mais est plus bas que celui des expériences concurrentes Ogle et Moa qui donnent une profondeur optique 2 à 3 fois plus grande que celle prédite par les modèles. Par ailleurs, la grande statistique des données Eros2 collectées vers le centre galactique a permis de calculer la profondeur optique pour différentes latitudes galactiques, mettant ainsi en évidence le gradient de profondeur optique attendu du fait de la diminution de la densité d'objets compacts avec la distance au plan galactique.
APA, Harvard, Vancouver, ISO, and other styles
28

Dumas, feris Barbara Pilar. "Réseaux optiques en mode paquet pour les connexions internes à un centre de données." Thesis, Ecole nationale supérieure Mines-Télécom Atlantique Bretagne Pays de la Loire, 2017. http://www.theses.fr/2017IMTA0057/document.

Full text
Abstract:
La consommation d'énergie des centres de données est un enjeu majeur. Leurs communications internes représentent près du quart de cette consommation. Les technologies de commutation optique ont en principe une meilleure efficacité énergétique que les solutions actuelles. Ce travail porte sur les réseaux optiques en mode paquet pour des centres de données de petite et moyenne taille. Il s'est déroulé dans le cadre du projet EPOC (Energy Proportional and Opportunistic Computing) qui s'intéresse à la réduction de la consommation d'énergie d'un centre de données alimenté partiellement par des sources renouvelables. Une hypothèse clé est l'absence d'un réseau de stockage dédié réduisant ainsi la consommation des interconnexions. Par contre, afin de pouvoir éteindre certains serveurs selon la charge de travail et l'énergie disponible, le débit doit être de l'ordre de 100 Gbit/s. Après un état de l'art des réseaux optiques pour centre de données nous choisissons une solution reposant sur une infrastructure entièrement passive et des émetteurs rapidement accordables en longueur d'onde, proposée récemment dans la littérature (POPI).Nous étudions les limitations dues aux composants (pertes d'insertion, plage d'accord et espacement des canaux). Nous proposons une extension (E-POPI) qui permet d'augmenter le nombre de serveurs connectés en utilisant plusieurs plages de longueurs d'onde. Pour les centres de données de plus grande taille nous proposons un réseau à deux étages (intra- et inter-racks) opérant respectivement dans les bandes C et L, POPI+. La connexion entre étages se fait via une passerelle transparente dans un sens et opaque dans l'autre. Différentes solutions de contrôle des deux étages sont détaillées.Un des éléments essentiels de faisabilité de ces architectures est de concilier la montée en débit avec les pertes du réseau passif d'interconnexion. Les techniques cohérentes des transmissions longue distance ne sont pas actuellement envisageables pour un centre de données. Nous avons donc étudié les formats PAM 4 et 8, par simulation avec différents débits (jusqu'à 112 Gbit/s et récepteurs (PIN, APD et SOA-PIN) et aussi, expérimentalement, à 12 et 18 Gbit/s. Nous avons développé une méthode de compensation des distorsions générées par les différents composants qui procure un compromis entre précision de correction et temps de calcul.Ces résultats nous permettent de déterminer les pertes d'insertion tolérables. Nous les combinons avec les limitations liées à la plage d'accord des émetteurs et à l'encombrement spectral des canaux occupant des fenêtres multiples de 12,5 GHz pour dimensionner les différentes architectures. Les réseaux POPI, E-POPI et POPI+ permettent respectivement la connexion de 48, 99 et 2352 entités à 112 Gbit/s. Nos évaluations tiennent compte d'une possible dispersion des caractéristiques des principaux composants
Data-center energy consumption is nowadays a major issue. Intra-data-center networking accounts almost for a quarter of the data-center total power consumption. Optical switching technologies could provide higher power efficiency than current solutions based on electrical-packet switching. This work focuses on optical-packet-switched networks for small- and medium-size data centers. It takes part of the EPOC (Energy-Proportional and Opportunistic Computing) project, which main interest consists on reducing the overall power consumption of a data center partially powered by renewable sources. A key assumption is that our data center does not rely on a dedicated storage network, in order to reduce the consumption of those interconnections. In addition, with the aim of being able to turn off some servers according to the workload and the available energy, the bit rate must be close to 100 Gbit/s. We have chosen, after studying the state of the art of data-center interconnects, a purely passive network architecture based on fast-wavelength-tunable transmitters under the name of POPI.We study POPI's limitations due to its components (insertion loss, tuning range and channel spacing). We then propose an extension called E-POPI that allows to increase the number of connected servers by using several transmission bands. For larger data centers, we propose POPI+, a two-stage infrastructure for intra- and inter-rack communications operating in the C and L bands, respectively. The connection between both stages is done via a transparent gateway in one direction and an opaque one in the other. We discuss different control solutions for both stages.The feasibility of these architectures depends on, among other factors, dealing with bit-rate increasing and power losses of a passive interconnect. Coherent long-distance-transmission techniques are not currently suited to data centers. We therefore studied PAM 4 and 8 modulation formats with direct detection. On one hand, by simulation, with different bit rates (up to 112 Gbit/s) and receivers (PIN, APD and SOA-PIN) and, on the other hand, experimentally, at 12 and 18 Gbit/s. We have developed a method for compensating the distortions generated by the different network components. Our method takes into account a good tradeoff between correction accuracy and computation time.Simulation results allow us to determine the amount of insertion loss that may be supported. We then combine these results with the limitations of transmitters-tuning range and channel spacing using multiple of 12.5 GHz slots for dimensioning the proposed architectures. POPI, E-POPI and POPI+ interconnects allow the connection of 48, 99 and 2352 entities, respectively, at 112 Gbit/s. Our assessments take into account a potential dispersion of the characteristics of the main architecture components
APA, Harvard, Vancouver, ISO, and other styles
29

Hamadache, Clarisse. "Recherches d'effets de microlentille gravitationnelle vers le centre galactique avec les données d'Eros II." Université Louis Pasteur (Strasbourg) (1971-2008), 2004. https://publication-theses.unistra.fr/public/theses_doctorat/2004/HAMADACHE_Clarisse_2004.pdf.

Full text
Abstract:
La recherche systématique d'effets de microlentille gravitationnelle vers le centre galactique permet de sonder la structure galactique. Le travail de thèse présenté ici concerne l'analyse des données collectées vers le centre galactique par l'expérience Eros2 pendant toute sa durée (1996-2003) : 66 degrés carrés du ciel situés de part et d'autre du plan galactique étaient surveillés. Les courbes de lumière d'environ 50 millions d'étoiles ont pu être construites dans deux filtres. Les effets de microlentille gravitationnelle d'une durée comprise entre 4 jours et 500 jours et dont l'amplification maximum est supérieure à 2,18 ont été recherchés ; ceci permet de sélectionner des candidats convaincants et constitue une originalité par rapport aux analyses précédentes (Eros2 et concurrents) où l'on considérait une amplification maximum supérieure à 1,34. L'analyse a révélé 139 candidats de microlentille gravitationnelle. Pour calculer la profondeur optique, l'échantillon d'étoiles sources a été restreint aux étoiles situées autour de l'amas des étoiles géantes rouges dans le diagramme couleur magnitude. Ce sous-échantillon constitué de 5,57. 10e6 étoiles présente 91 candidats parmi les 139 avec une efficacité moyenne de détection de 56%. La profondeur optique correspondante est de (1,79 +/- 0,20). 10e-6, elle est compatible avec les valeurs attendues par les modèles galactiques. Ce résultat est en accord avec le dernier résultat du groupe Macho mais est plus bas que celui des expériences concurrentes Ogle et Moa qui donnent une profondeur optique 2 à 3 fois plus grande que celle prédite par les modèles. Par ailleurs, la grande statistique des données Eros2 collectées vers le centre galactique a permis de calculer la profondeur optique pour différentes latitudes galactiques, mettant ainsi en évidence le gradient de profondeur optique attendu du fait de la diminution de la densité d'objets compacts avec la distance au plan galactique
The systematic search for gravitational microlensing effect towards the galactic center makes it possible to probe the galactic structure. The thesis work presented here concerns the analysis of all galactic center data collected by the Eros2 experiment during 7 years (1996-2003) : the survey of 66 square degrees located on both sides of the galactic plane has allowed to build the lightcurves of approximately 50 million stars in two filters. Gravitational microlensing events with a duration ranging between 4 days and 500 days and whose maximum magnification is higher than 2. 18 were required ; this makes it possible to select convincing candidates and constitutes an originality compared to the previous analyses (Eros2 and other experiment) where maximum magnification was required to be higher than 1. 34. The analysis revealed 139 microlensing candidates. This sample contains 91 candidates whose source is a clump red giant star with an associated detection efficiency of 56%. The optical depth obtained for the clump red giant sources is (1,79 +/- 0,20). 10e-6. This value is in good agreement with predicted values as well as with the latest result of the Macho group but it is lower than the Ogle and Moa group results which are 2 to 3 times higher than the predicted one. In addition, the large statistics of galactic center data collected by Eros2 made it possible to calculate the optical depth for various galactic latitudes, and to detect the gradient of optical depth expected in galactic models
APA, Harvard, Vancouver, ISO, and other styles
30

Lefebvre, Sylvain. "Services de répartition de charge pour le Cloud : application au traitement de données multimédia." Phd thesis, Conservatoire national des arts et metiers - CNAM, 2013. http://tel.archives-ouvertes.fr/tel-01062823.

Full text
Abstract:
Le travail de recherche mené dans cette thèse consiste à développer de nouveaux algorithmes de répartition de charge pour les systèmes de traitement de données massives. Le premier algorithme mis au point, nommé "WACA" (Workload and Cache Aware Algorithm) améliore le temps d'exécution des traitements en se basant sur des résumés de contenus. Le second algorithme, appelé "CAWA" (Cost Aware Algorithm) tire partie de l'information de coût disponible dans les plateformes de type "Cloud Computing" en étudiant l'historique d'exécution des services.L'évaluation de ces algorithmes a nécessité le développement d'un simulateur d'infrastructures de "Cloud" nommé Simizer, afin de permettre leur test avant le déploiement en conditions réelles. Ce déploiement peut se faire de manière transparente grâce au système de distribution et de surveillance de service web nommé "Cloudizer", développé aussi dans le cadre de cette thèse. Ces travaux s'inscrivent dans le cadredu projet de plateforme de traitement de données Multimédia for Machine to Machine (MCUBE), dans le lequel le canevas Cloudizer est mis en oeuvre.
APA, Harvard, Vancouver, ISO, and other styles
31

Guo, Chaopeng. "Allocation de ressources efficace en énergie pour les bases de données dans le cloud." Thesis, Toulouse 3, 2019. http://www.theses.fr/2019TOU30065.

Full text
Abstract:
Aujourd'hui, beaucoup de techniques de cloud computing et de bases de données dans le cloud sont adoptées dans l'industrie et le monde universitaire pour faire face à l'arrivée de l'ère du big data. Parallèlement, l'efficacité énergétique et les économies d'énergie deviennent une préoccupation majeure pour les centres de données, qui sont en charge de grands systèmes distribués et de bases de données dans le cloud. Toutefois, l'efficacité énergétique et l'accord de niveau de service des bases de données dans le cloud souffrent d'un problème d'allocation en ressources, de sur-allocation et de sous-allocation, c'est-à-dire qu'il y a un écart entre les ressources fournies et les ressources requises. Comme l'utilisation des bases de données dans le cloud est dynamique, les ressources du système devraient être fournies en fonction de sa charge de travail. Dans cette thèse, nous présentons nos recherches sur l'allocation de ressources efficace en énergie pour les bases de données dans le cloud, utilisant des techniques d'ajustement dynamique de la tension et de la fréquence (dynamic voltage and frequency scaling, DVFS for short) pour résoudre les problèmes d'allocation en ressources. De plus, une approche de migration est introduite pour améliorer davantage l'efficacité énergétique des systèmes de bases de données dans le cloud. Notre contribution peut se résumer comme suit : Dans un premier temps, le comportement de l'efficacité énergétique du système de base de données dans le cloud utilisant des techniques DVFS est analysé. En fonction des résultats du benchmark, deux approches de sélection des fréquences sont proposées. Ensuite, une approche de type problème borné est introduite pour la sélection de la fréquence. Avec cette approche, la consommation d'énergie et le coût de migration sont traités séparément. Un programme linéaire et un algorithme multi-phases sont proposés. Puisque l'espace de solution est très grand, les deux algorithmes sont comparés avec un petit cas, tandis que l'algorithme multi-phases est évalué avec des cas plus grands. En outre, une approche de type problème d'optimisation est introduite pour la sélection de la fréquence. Avec cette approche, la consommation d'énergie et le coût de migration sont traités comme un tout. Un algorithme génétique ainsi qu'un algorithme fondé sur la recherche arborescente Monte-Carlo sont proposés. Chacun des deux algorithmes présente des avantages et des inconvénients. Enfin, une approche de migration est introduite pour migrer les données en fonction des fréquences données et de leur disposition actuelle. Un plan de migration peut être obtenu en temps polynomial grâce à l'algorithme Constrictif MTHM proposé
Today a lot of cloud computing and cloud database techniques are adopted both in industry and academia to face the arrival of the big data era. Meanwhile, energy efficiency and energy saving become a major concern in data centers, which are in charge of large distributed systems and cloud databases. However, energy efficiency and service-level agreement of cloud databases are suffering from resource provisioning, resource over-provisioning and resource under-provisioning, namely that there is a gap between resource provided and resource required. Since the usage of cloud database is dynamical, resource of the system should be provided according to its workload. In this thesis, we present our work on energy-efficient resource provisioning for cloud databases that utilizes dynamic voltage and frequency scaling (DVFS) technique to cope with resource provisioning issues. Additionally, a migration approach is introduced to improve the energy efficiency of cloud database systems further. Our contribution can be summarized as follows: At first, the behavior of energy efficiency of the cloud database system under DVFS technique is analyzed. Based on the benchmark result, two frequency selection approaches are proposed. Then, a frequency selection approach with bounded problem is introduced, in which the power consumption and migration cost are treated separately. A linear programming algorithm and a multi-phases algorithm are proposed. Because of the huge solution space, both algorithms are compared within a small case, while the multi-phases algorithm is evaluated with larger cases. Further, a frequency selection approach with optimization problem is introduced, in which the energy consumption for executing the workload and migration cost are handled together. Two algorithms, a genetic based algorithm and a monte carlo tree search based algorithm are proposed. Both algorithms have their pros and cons. At last, a migration approach is introduced to migrate data according to the given frequencies and current data layout. A migration plan can be obtained within polynomial time by the proposed Constrained MHTM algorithm
APA, Harvard, Vancouver, ISO, and other styles
32

Sobati, Moghadam Somayeh. "Contributions to Data Privacy in Cloud Data Warehouses." Thesis, Lyon, 2017. http://www.theses.fr/2017LYSE2020.

Full text
Abstract:
Actuellement, les scénarios d’externalisation de données deviennent de plus en plus courants avec l’avènement de l’infonuagique. L’infonuagique attire les entreprises et les organisations en raison d’une grande variété d’avantages fonctionnels et économiques.De plus, l’infonuagique offre une haute disponibilité, le passage d’échelle et une reprise après panne efficace. L’un des services plus notables est la base de données en tant que service (Database-as-a-Service), où les particuliers et les organisations externalisent les données, le stockage et la gestion `a un fournisseur de services. Ces services permettent de stocker un entrepôt de données chez un fournisseur distant et d’exécuter des analysesen ligne (OLAP).Bien que l’infonuagique offre de nombreux avantages, elle induit aussi des problèmes de s´sécurité et de confidentialité. La solution usuelle pour garantir la confidentialité des données consiste à chiffrer les données localement avant de les envoyer à un serveur externe. Les systèmes de gestion de base de données sécurisés utilisent diverses méthodes de cryptage, mais ils induisent un surcoût considérable de calcul et de stockage ou révèlent des informations sur les données.Dans cette thèse, nous proposons une nouvelle méthode de chiffrement (S4) inspirée du partage secret de Shamir. S4 est un système homomorphique additif : des additions peuvent être directement calculées sur les données cryptées. S4 trait les points faibles des systèmes existants en réduisant les coûts tout en maintenant un niveau raisonnable de confidentialité. S4 est efficace en termes de stockage et de calcul, ce qui est adéquat pour les scénarios d’externalisation de données qui considèrent que l’utilisateur dispose de ressources de calcul et de stockage limitées. Nos résultats expérimentaux confirment l’efficacité de S4 en termes de surcoût de calcul et de stockage par rapport aux solutions existantes.Nous proposons également de nouveaux schémas d’indexation qui préservent l’ordre des données, OPI et waOPI. Nous nous concentrons sur le problème de l’exécution des requêtes exacts et d’intervalle sur des données chiffrées. Contrairement aux solutions existantes, nos systèmes empêchent toute analyse statistique par un adversaire. Tout en assurant la confidentialité des données, les schémas proposés présentent de bonnes performances et entraînent un changement minimal dans les logiciels existants
Nowadays, data outsourcing scenarios are ever more common with the advent of cloud computing. Cloud computing appeals businesses and organizations because of a wide variety of benefits such as cost savings and service benefits. Moreover, cloud computing provides higher availability, scalability, and more effective disaster recovery rather than in-house operations. One of the most notable cloud outsourcing services is database outsourcing (Database-as-a-Service), where individuals and organizations outsource data storage and management to a Cloud Service Provider (CSP). Naturally, such services allow storing a data warehouse (DW) on a remote, untrusted CSP and running on-line analytical processing (OLAP).Although cloud data outsourcing induces many benefits, it also brings out security and in particular privacy concerns. A typical solution to preserve data privacy is encrypting data locally before sending them to an external server. Secure database management systems use various encryption schemes, but they either induce computational and storage overhead or reveal some information about data, which jeopardizes privacy.In this thesis, we propose a new secure secret splitting scheme (S4) inspired by Shamir’s secret sharing. S4 implements an additive homomorphic scheme, i.e., additions can be directly computed over encrypted data. S4 addresses the shortcomings of existing approaches by reducing storage and computational overhead while still enforcing a reasonable level of privacy. S4 is efficient both in terms of storage and computing, which is ideal for data outsourcing scenarios that consider the user has limited computation and storage resources. Experimental results confirm the efficiency of S4 in terms of computation and storage overhead with respect to existing solutions.Moreover, we also present new order-preserving schemes, order-preserving indexing (OPI) and wrap-around order-preserving indexing (waOPI), which are practical on cloud outsourced DWs. We focus on the problem of performing range and exact match queries over encrypted data. In contrast to existing solutions, our schemes prevent performing statistical and frequency analysis by an adversary. While providing data privacy, the proposed schemes bear good performance and lead to minimal change for existing software
APA, Harvard, Vancouver, ISO, and other styles
33

El, Sibai Rayane. "Sampling, qualification and analysis of data streams." Thesis, Sorbonne université, 2018. http://www.theses.fr/2018SORUS170/document.

Full text
Abstract:
Un système de surveillance environnementale collecte et analyse continuellement les flux de données générés par les capteurs environnementaux. L'objectif du processus de surveillance est de filtrer les informations utiles et fiables et d'inférer de nouvelles connaissances qui aident l'exploitant à prendre rapidement les bonnes décisions. L'ensemble de ce processus, de la collecte à l'analyse des données, soulève deux problèmes majeurs : le volume de données et la qualité des données. D'une part, le débit des flux de données générés n'a pas cessé d'augmenter sur les dernières années, engendrant un volume important de données continuellement envoyées au système de surveillance. Le taux d'arrivée des données est très élevé par rapport aux capacités de traitement et de stockage disponibles du système de surveillance. Ainsi, un stockage permanent et exhaustif des données est très coûteux, voire parfois impossible. D'autre part, dans un monde réel tel que les environnements des capteurs, les données sont souvent de mauvaise qualité, elles contiennent des valeurs bruitées, erronées et manquantes, ce qui peut conduire à des résultats défectueux et erronés. Dans cette thèse, nous proposons une solution appelée filtrage natif, pour traiter les problèmes de qualité et de volume de données. Dès la réception des données des flux, la qualité des données sera évaluée et améliorée en temps réel en se basant sur un modèle de gestion de la qualité des données que nous proposons également dans cette thèse. Une fois qualifiées, les données seront résumées en utilisant des algorithmes d'échantillonnage. En particulier, nous nous sommes intéressés à l'analyse de l'algorithme Chain-sample que nous comparons à d'autres algorithmes de référence comme l'échantillonnage probabiliste, l'échantillonnage déterministe et l'échantillonnage pondéré. Nous proposons aussi deux nouvelles versions de l'algorithme Chain-sample améliorant sensiblement son temps d'exécution. L'analyse des données du flux est également abordée dans cette thèse. Nous nous intéressons particulièrement à la détection des anomalies. Deux algorithmes sont étudiés : Moran scatterplot pour la détection des anomalies spatiales et CUSUM pour la détection des anomalies temporelles. Nous avons conçu une méthode améliorant l'estimation de l'instant de début et de fin de l'anomalie détectée dans CUSUM. Nos travaux ont été validés par des simulations et aussi par des expérimentations sur deux jeux de données réels et différents : Les données issues des capteurs dans le réseau de distribution de l'eau potable fournies dans le cadre du projet Waves et les données relatives au système de vélo en libre-service (Velib)
An environmental monitoring system continuously collects and analyzes the data streams generated by environmental sensors. The goal of the monitoring process is to filter out useful and reliable information and to infer new knowledge that helps the network operator to make quickly the right decisions. This whole process, from the data collection to the data analysis, will lead to two keys problems: data volume and data quality. On the one hand, the throughput of the data streams generated has not stopped increasing over the last years, generating a large volume of data continuously sent to the monitoring system. The data arrival rate is very high compared to the available processing and storage capacities of the monitoring system. Thus, permanent and exhaustive storage of data is very expensive, sometimes impossible. On the other hand, in a real world such as sensor environments, the data are often dirty, they contain noisy, erroneous and missing values, which can lead to faulty and defective results. In this thesis, we propose a solution called native filtering, to deal with the problems of quality and data volume. Upon receipt of the data streams, the quality of the data will be evaluated and improved in real-time based on a data quality management model that we also propose in this thesis. Once qualified, the data will be summarized using sampling algorithms. In particular, we focus on the analysis of the Chain-sample algorithm that we compare against other reference algorithms such as probabilistic sampling, deterministic sampling, and weighted sampling. We also propose two new versions of the Chain-sample algorithm that significantly improve its execution time. Data streams analysis is also discussed in this thesis. We are particularly interested in anomaly detection. Two algorithms are studied: Moran scatterplot for the detection of spatial anomalies and CUSUM for the detection of temporal anomalies. We have designed a method that improves the estimation of the start time and end time of the anomaly detected in CUSUM. Our work was validated by simulations and also by experimentation on two real and different data sets: The data issued from sensors in the water distribution network provided as part of the Waves project and the data relative to the bike sharing system (Velib)
APA, Harvard, Vancouver, ISO, and other styles
34

Cornejo-Ramirez, Mario. "Security for the cloud." Thesis, Paris Sciences et Lettres (ComUE), 2016. http://www.theses.fr/2016PSLEE049/document.

Full text
Abstract:
La cryptographie a été un facteur clé pour permettre la vente de services et du commerce par Internet. Le cloud computing a amplifié cette révolution et est devenu un service très demandé grâce à ses avantages comme : puissance de calcul importante, services à bas coûts, rendement, évolutivité, accessibilité et disponibilité. Parallèlement à la hausse de nouveaux business, des protocoles pour des calculs sécurisés ont aussi émergé. Le but de cette thèse est de contribuer à la sécurité des protocoles d’Internet existants en fournissant une analyse de la source aléatoire de ces protocoles et en introduisant des protocoles mieux adaptés pour les environnements des cloud computing. Nous proposons de nouvelles constructions en améliorant l'efficacité des solutions actuelles afin de les rendre plus accessibles et pratiques. Nous fournissons une analyse de sécurité détaillée pour chaque schéma avec des hypothèses raisonnables. Nous étudions la sécurité du cloud computing à différents niveaux. D'une part, nous formalisons un cadre pour analyser quelques-uns des générateurs de nombres pseudo-aléatoires populaires à ce jour qui sont utilisés dans presque chaque application cryptographique. D'autre part, nous proposons deux approches efficaces pour des calculs en cloud. Le premier permet à un utilisateur de partager publiquement son secret de haute entropie avec des serveurs différents pour plus tard le récupérer par interaction avec certains de ces serveurs en utilisant seulement son mot de passe et sans données authentifiées. Le second permet à un client d'externaliser à un serveur une base de données en toute sécurité, qui peut être recherchée et modifiée ultérieurement
Cryptography has been a key factor in enabling services and products trading over the Internet. Cloud computing has expanded this revolution and it has become a highly demanded service or utility due to the advantages of high computing power, cheap cost of services, high performance, scalability, accessibility as well as availability. Along with the rise of new businesses, protocols for secure computation have as well emerged. The goal of this thesis is to contribute in the direction of securing existing Internet protocols by providing an analysis of the sources of randomness of these protocols and to introduce better protocols for cloud computing environments. We propose new constructions, improving the efficiency of current solutions in order to make them more accessible and practical. We provide a detailed security analysis for each scheme under reasonable assumptions. We study the security in a cloud computing environment in different levels. On one hand, we formalize a framework to study some popular real-life pseudorandom number generators used in almost every cryptographic application. On the other, we propose two efficient applications for cloud computing. The first allows a user to publicly share its high-entropy secret across different servers and to later recover it by interacting with some of these servers using only his password without requiring any authenticated data. The second, allows a client to securely outsource to a server an encrypted database that can be searched and modified later
APA, Harvard, Vancouver, ISO, and other styles
35

Kaced, Yazid. "Études du refroidissement par free cooling indirect d’un bâtiment exothermique : application au centre de données." Thesis, Lorient, 2018. http://www.theses.fr/2018LORIS499/document.

Full text
Abstract:
Un centre de données est un site comportant des salles hébergeant un grand nombre d’équipements informatiques. Le fonctionnement de ces équipements informatiques induit des apports de chaleur très conséquents qui doivent être compensés par des systèmes de refroidissement. En effet, les normes imposent des plages restreintes de température et d’humidité dans les salles qui induisent de fortes consommations d’énergie. Il est donc nécessaire de développer et d’optimiser des solutions moins énergivores. Le refroidissement par free cooling consiste à refroidir les équipements en exploitant les conditions climatiques favorables. Les travaux réalisés durant cette thèse s’appuient sur une expérimentation menée dans des conditions climatiques réelles au sein d’un bâtiment. Il s’agit d’étudier le refroidissement de baies informatiques. Pour mettre en place un refroidissement par « free cooling » indirect, la configuration du bâtiment a été modifiée au cours de la thèse et une instrumentation conséquente mise en place. Les objectifs sont de déterminer à partir de séquences de mesures des coefficients de performance, de développer et de valider un modèle numérique destiné à la prédiction du comportement thermo-aéraulique en usage de ce type de solution. Dans un premier temps, des expériences sont menées avec une puissance dissipée à l’intérieur du bâtiment et un refroidissement assuré uniquement par une circulation de l’air extérieur au sein de trois parois. Des modifications ont ensuite été apportées au sein du bâtiment. Une circulation d’air en circuit fermé a été créée à l’intérieure afin de refroidir les baies par un flux d’air traversant. Afin de disposer d’une base de données probante, de nombreuses séquences de mesures avec une ou plusieurs baies sont réalisées dans différentes conditions. La variation des paramètres opératoires permet de bien appréhender le fonctionnement de l’installation et définir les paramètres d’optimisation énergétique. Les modèles numériques sont développés par le biais de TRNSYS / TRNFLOW. La confrontation des simulations à des mesures montre la pertinence de la démarche mise en œuvre
A data center is a warehouse that contains telecommunication equipment, network infrastructure, servers, and computers. This equipment leads to a very high heat dissipation which must be compensated by the use of cooling systems. Telecommunication standards impose restricted climatic ranges (temperatures and humidity) leading to a very high energy consumption devote to air conditioning. The reduction of this energy consumption constitutes a real challenge which should be raised and solved. Many cooling solutions are proposed as the free cooling solution, which consists in cooling equipment by using external air in propitious climatic conditions. The work carried out during this thesis is based on experiments conducted within a building in real climatic conditions in order to study the cooling of telecom cabinets. During this study, the building configuration was modified, an indirect "free cooling" system was set up and a significant instrumentation was implemented. The objectives are to establish performance factors issued from measurements, to develop and to validate a numerical model in order to predict the thermoaeraulic behavior for this type of solution. Initially, experiments are carried out with a power dissipated inside the building and a cooling provided only by an outside air circulation. Then, significant modifications were made into the building to introduce an internal air circulation in a closed loop in order to evacuate the heat dissipated inside cabinets by a crossing airflow. In order to get a convincing database, measurements were conducted by using one and then several cabinets in different conditions. Modifications are made to operating parameters in order to better understand the installation operation and to define the energy optimization parameters. Numerical models are developed through TRNSYS / TRNFLOW. The confrontation of simulations with measurements shows the implemented approach relevance
APA, Harvard, Vancouver, ISO, and other styles
36

Ladjel, Riad. "Secure distributed computations for the personal cloud." Electronic Thesis or Diss., université Paris-Saclay, 2020. http://www.theses.fr/2020UPASG043.

Full text
Abstract:
Grâce aux “smart disclosure initiatives”, traduit en français par « ouvertures intelligentes » et aux nouvelles réglementations comme le RGPD, les individus ont la possibilité de reprendre le contrôle sur leurs données en les stockant localement de manière décentralisée. En parallèle, les solutions dites de clouds personnels ou « système personnel de gestion de données » se multiplient, leur objectif étant de permettre aux utilisateurs d'exploiter leurs données personnelles pour leur propre bien.Cette gestion décentralisée des données personnelles offre une protection naturelle contre les attaques massives sur les serveurs centralisés et ouvre de nouvelles opportunités en permettant aux utilisateurs de croiser leurs données collectées auprès de différentes sources. D'un autre côté, cette approche empêche le croisement de données provenant de plusieurs utilisateurs pour effectuer des calculs distribués.L'objectif de cette thèse est de concevoir un protocole de calcul distribué, générique, qui passe à l’échelle et qui permet de croiser les données personnelles de plusieurs utilisateurs en offrant de fortes garanties de sécurité et de protection de la vie privée. Le protocole répond également aux deux questions soulevées par cette approche : comment préserver la confiance des individus dans leur cloud personnel lorsqu'ils effectuent des calculs croisant des données provenant de plusieurs individus ? Et comment garantir l'intégrité du résultat final lorsqu'il a été calculé par une myriade de clouds personnels collaboratifs mais indépendants ?
Thanks to smart disclosure initiatives and new regulations like GDPR, individuals are able to get the control back on their data and store them locally in a decentralized way. In parallel, personal data management system (PDMS) solutions, also called personal clouds, are flourishing. Their goal is to empower users to leverage their personal data for their own good. This decentralized way of managing personal data provides a de facto protection against massive attacks on central servers and opens new opportunities by allowing users to cross their data gathered from different sources. On the other side, this approach prevents the crossing of data from multiple users to perform distributed computations. The goal of this thesis is to design a generic and scalable secure decentralized computing framework which allows the crossing of personal data of multiple users while answering the following two questions raised by this approach. How to preserve individuals' trust on their PDMS when performing global computations crossing data from multiple individuals? And how to guarantee the integrity of the final result when it has been computed by a myriad of collaborative but independent PDMSs?
APA, Harvard, Vancouver, ISO, and other styles
37

Marchadier, Elodie Sylviane Germaine. "Etude fonctionnelle d'un centre d'interactions protéiques chez Bacillus subtilis par une approche intégrée." Paris 11, 2009. http://www.theses.fr/2009PA112047.

Full text
Abstract:
Le protéome qui est l’ensemble des protéines exprimées par un génome, est organisé en réseaux structurés d’interactions protéiques : l’interactome. Dans ces réseaux d’interactions, la plupart des protéines ont un petit nombre d’interactions alors que quelques protéines, appelées centres d’interactions ou hubs, ont un grand nombre de connexions. Cette thèse s’est concentrée sur une question biologique importante : comprendre la fonction biologique d’un cluster de hubs (CoH), découvert chez Bacillus subtilis, et qui se situe à l’interface de plusieurs processus cellulaires essentiels : la réplication de l’ADN, la division cellulaire, la ségrégation des chromosomes, la réponse au stress et la biogenèse de la paroi bactérienne. Les partenaires des protéines du cluster de hub ont tout d’abord été identifiés par la technique du double-hybride en levure, ce qui a permis de le définir de façon rigoureuse au sein d’un réseau composé de 287 protéines connectées par 787 interactions spécifiques. Ce réseau place de nombreuses protéines dans un contexte nouveau, facilitant ainsi l’analyse fonctionnelle des protéines individuelles et des liens entre les grands processus cellulaires. Après avoir réalisé une analyse du contexte génomique des gènes codant pour les protéines du CoH, une démarche de biologie intégrative a été amorcée en analysant des données transcriptomiques hétérogènes disponibles dans des bases de données publiques. L'analyse statistique de ces données a permis d’identifier des groupes de gènes co-régulés avec les gènes du CoH. En première approche, l’analyse des corrélations entre l’expression des gènes à travers diverses conditions a été menée sur la base de l’utilisation classique de la statistique telle que la classification non supervisée. Cette première analyse, nous a permis d'associer certains gènes du hub à des groupes fonctionnels, de valider et d'identifier des régulons. Elle nous a aussi permis de mettre en évidence les limites d’une telle approche et la nécessité de recourir à des méthodes permettant d’identifier les conditions dans lesquelles les gènes sont co-régulés. A cette fin, nous avons (i) généré des données transcriptomiques visant à favoriser l’expression différentielle des gènes codant pour les protéines du CoH et (ii) utilisé des méthodes de bi-clustering, qui permettent d’identifier des groupes de gènes co-exprimés dans un ensemble significatif de conditions. Ceci nous a conduit à identifier des associations d’expression spécifiques de certaines conditions parmi les gènes du CoH. Il nous a donc été possible de combiner deux approches : l'étude du transcriptome et celle de l'interactome, l'une comme l'autre ont été menées de façon systématique à l'échelle du génome complet. L'intégration de ces deux types de données nous permet d'éclairer le contexte fonctionnel de certains gènes de notre étude et d'émettre des hypothèses quant à la nature des interactions entre protéines du cluster de hub. Celui-ci apparaît finalement composé de quelques groupes de protéines co-exprimées (party hubs) capables d’interagir entre eux et avec les autres protéines du CoH exprimées de façon non corrélée (date hubs). Le CoH pourrait donc former un vaste groupe de date hubs dont la fonction pourrait être d’assurer la connexion entre processus cellulaires essentiels quelque soient les conditions environnementales auxquelles B. Subtilis pourrait être exposé. La génération et le traitement d'un tel jeu de données répond à des enjeux scientifiques majeurs, nécessitant la mobilisation des compétences, des connaissances, et des outils pour accéder à une compréhension plus globale du fonctionnement des organismes vivants. Le jeu de données constitué peut être utilisé pour mettre en œuvre d’autres méthodes statistiques ou informatiques. Tout cela nous permettra de disposer de méthodes permettant in fine d’extraire des informations de grands jeux de données en cours de production, ce qui constitue un enjeu majeur de la biologie intégrative
The entire complement of proteins expressed by a genome forms the proteome. The proteome is organized in structured networks of protein interactions: the interactome. In these networks, most of the proteins have few interactions whereas a few proteins have many connections: these proteins are called centres of interactions or hubs. This thesis focused on an important biological question: understanding the biological function of a cluster of hubs (CoH), discovered in Bacillus subtilis, and which is located at the interface of several essential cellular processes: DNA replication, cell division, chromosome segregation, stress response and biogenesis of the bacterial cell wall. The partners of the protein of the cluster of hubs were first identified by the technique of two-hybrid in yeast, which helped us to define it rigorously in a network composed of 287 proteins connected by 787 interactions. This network shows many proteins in a new context, thereby facilitate functional analysis of individual proteins and links between the major cellular processes. After conducting a study of the genomic context of genes of the CoH, an integrative biology approach has been initiated by analyzing heterogeneous transcriptome data available in public databases. Statistical analysis of these data identified groups of genes co-regulated with the genes of the cluster of hubs. At first, the analysis of correlations between the expression of genes across various conditions has been performed on the basis of classical statistics such as the unsupervised classification. This first analysis allowed us to associate genes in the CoH to functional groups, to validate and to identify regulons. It also enabled us to highlight the limitations of this approach and the need to resort to methods allowing identification of the conditions in which genes are co-regulated. To this end, we have (i) generated transcriptome data to promote the differential expression of genes coding for proteins CoH and (ii) used bi-clustering methods, to identify groups of genes co -expressed in a wide range of conditions. This led us to identify associations of expression in specific conditions among the genes of the CoH. Therefore, it has been possible to combine two approaches: the study of the transcriptome and the interactome, both of them were conducted in a systematic manner in the whole genome. The integration of these two kinds of data allowed us to clarify the functional context of genes of interest and to make assumptions about the nature of interactions between proteins cluster hub. It appears finally composed of a few groups of co-expressed proteins (party hubs) which can interact together and other proteins expressed in an uncorrelated manner (date hubs). The CoH could form a large group of date hubs whose function could be to ensure the connection between basic cellular processes, whatever the environmental conditions B. Subtilis could be exposed. Generation and processing of such a data set is a major scientific challenge, it require the mobilization of skills, knowledge, and tools to access to a better understanding of living organisms. The constituted data set may be used to implement other statistical methods. All of this will provide methods to ultimately extract information from large data sets which are currently produced. This is the major issue of integrative biology
APA, Harvard, Vancouver, ISO, and other styles
38

Jagueneau, Liliane. "Structuration de l'espace linguistique entre Loire et Gironde : analyse dialectométrique des données phonétiques de l'"Atlas linguistique et ethnographique de l'Ouest"." Toulouse 2, 1987. http://www.theses.fr/1987TOU20082.

Full text
Abstract:
Cette etude porte sur la structuration geolinguistique des traits phonetiques entre loire et gironde, dans le "centre-ouest" (vendee, deux-sevres, vienne, charente-maritime, charente, et points limitrophes), zone-limite entre les langues du nord et du sud de la france ("oil" et "oc"). Elle presente d'abord la description phonetique de cette zone, a partir de l'atlas linguistique et ethnographique de l'ouest (b. Horiot-g. Massignon). C'est ensuite la repartition dans l'espace de ces traits phonetiques qui est analysee: ils ne sont en effet ni disperses au hasard ni ordonnes selon des limites dialectales rigides. Apres l'analyse automatique de ces donnees, une nouvelle structuration de l'espace linguistique est proposee: d'une part, la structuration de l'espace qui resulte de la classification ascendante hierarchique des parlers (82 points) se rapproche beaucoup du schema geologique de cette region, et correspond en partie aux aires historiques, culturelles ou economiques, mais elle differe toujours des subdivisions administratives. D'autre part, la classification ascendante hierarchique des traits phonetiques met en evidence un nouveau schema geolinguistique: les traits phonetiques se repartissent en un "noyau", entoure d'une "aire d'influence" ou ils rayonnent de maniere diffuse (theorie des noyaux geolinguistiques). Enfin l'analyse des correspondances attire l'attention sur les rapports entre les points (parlers), et sur les rapports entre les points et les modalites phonetiques
This study deals with the geolinguistic structuration of phonetic features between loire and gironde, in the "centre-ouest" (vendee, deux-sevres, vienne, charente-maritime, charente, and some surrounding points) - a boundary area between northern and southern languages of france ("oil" and "oc"). It first presents the phonetic description of this area, derived from the maps of the atlas linguistique et ethnographique de l'ouest (b. Horiot-g. Massignon). And then, the space distribution of these phonetic features is analysed: actually they are neither spread about nor ordered according to strict dialect limits. After the automatic analysis of these data, a new structuration of linguistic space is put forward: on the one hand, the space structuration which results from the cluster analysis of the languages (eighty-two points) is quite similar to the geological one, and partly corresponds to historical, cultural or economic areas; but it always differs from administrative divisions. On the other hand, the cluster analysis of phonetic features reveals a new geolinguistic scheme: these phonetic features are distributed in a "nucleus", and then diffuse into an "area of influence". (theory of geolinguistic nuclei) finally, through the multivariate analysis, attention is drawn to the relations between the points themselves, and to the relations between the points and the phonetic modalities
APA, Harvard, Vancouver, ISO, and other styles
39

Tourne, Elise. "Le phénomène de circulation des données à caractère personnel dans le cloud : étude de droit matériel dans le contexte de l'Union européenne." Thesis, Lyon, 2018. http://www.theses.fr/2018LYSE3012/document.

Full text
Abstract:
Le régime juridique applicable à la collecte et à l’exploitation par les fournisseurs de services de cloud computing des données à caractère personnel de leurs utilisateurs constitue une source d’interrogation pour ces derniers. De fait, aucun régime juridique organisé ne permet aujourd’hui de réguler de manière globale, au niveau de l’Union européenne, le phénomène de circulation des données à caractère personnel dans le cloud, que ce soit de manière directe ou indirecte. Il apparaît, dès lors, nécessaire de s’interroger sur la manière dont le droit s’est organisé en conséquence et d’analyser les traitements complémentaires et/ou alternatifs actuellement offerts par le droit, certes moins structurellement organisés et mosaïques, mais plus pragmatiques, réalistes et politiquement viables. Historiquement, le phénomène de circulation a été presque exclusivement traité via le droit spécifique à la protection des données à caractère personnel découlant de l’Union européenne. Ce droit, souvent considéré par opposition au droit à la libre circulation des données, constituait initialement une émanation du droit à la protection de la vie privée avant d’être consacré en tant que droit fondamental de l’Union européenne. Le traitement offert par le droit à la protection des données, s’il cible directement les données au cœur du phénomène de circulation dans le cloud, ne couvre que partiellement ledit phénomène. De surcroît, malgré l’entrée en vigueur du Règlement 2016/679 relatif à la protection des personnes physiques à l’égard du traitement des données à caractère personnel et à la libre circulation de ces données, il possède une efficacité contestable, ne proposant pas de solution harmonisée au sein de l’Union européenne et étant dépendant de la bonne volonté et des moyens financiers, organisationnels et humains des Etats Membres. Les traitements alternatifs ou complémentaires au droit à la protection des données qui existent au sein de l’Union européenne, qui peuvent être répartis entre outils techniques, contractuels et législatifs, n’offrent qu’une appréhension indirecte du phénomène de circulation via un encadrement de son environnement cloud. Individuellement, ils ne permettent d’appréhender qu’un aspect très réduit du phénomène de circulation, de surcroît avec une efficacité plus ou moins grande. En outre, les outils techniques et contractuels n’ont pas la légitimité attachée aux outils législatifs. Néanmoins, associés les uns aux autres, ils permettent de cibler le phénomène de circulation des données de manière plus globale et efficace
The legal framework applicable to the gathering and processing by cloud service providers of the personal data of their users raises questions for such users. De facto, there does not now exist an organized legal framework allowing for the regulation, at the European Union level and as a whole, of the flow of personal data in the cloud, whether directly or indirectly. It thus seems necessary to question the way law organized itself consequently and analyze the complementary and/or alternative treatments offered by law, which are less structurally organized and are mosaical, but are more pragmatic, realistic and politically sustainable. Historically, the flow of personal data has been dealt almost exclusively via the specific right to the protection of personal data, which derives from the European Union. Such right, often considered in opposition to the right to the free circulation of data, was initially an emanation of the right to privacy before being established as a fundamental right of the European Union. The treatment provided by the right to the protection of personal data, if it targets directly the data within the flow phenomena, only partly covers such phenomena. In addition, despite the entry into force of the Regulation 2016/679 on the protection of individuals with regard to the processing of personal data and on the free movement of such data, its effectiveness is questionable, not offering any harmonized solution within the European Union and being highly dependent on the goodwill and the financial, organizational and human means of the Member States. The complementary and/or alternative treatments to the right to the protection of personal data that exist within the European Union, which may be allocated among technical, contractual and regulatory tools, only approach the data flow phenomena indirectly by providing a framework to its environment. Individually, they only target one very limited aspect of the data flow phenomena, with more or less effectiveness. Furthermore, technical and contractual tools have not the legitimacy attached to the regulatory tools. However, associated one with another, they allow a more global and efficient targeting of the data flow phenomena
APA, Harvard, Vancouver, ISO, and other styles
40

Dumas, Stéphane. "Développement d'un système de veille stratégique dans un centre technique." Aix-Marseille 3, 1994. http://www.theses.fr/1994AIX30063.

Full text
Abstract:
Le centre technique des industries mecaniques (cetim) a pour role d'apporter aux entreprises mecaniciennes francaises des moyens et des competences pour les aider a accroitre leur competivite. Rester a l'ecoute de ses ressortissants et leur faciliter l'acces aux informations scientifiques et techniques sont deux taches essentielles de son travail. Ce memoire expose la demarche de veille strategique du cetim qui, a travers l'analyse des besoins des pmi et la surveillance des domaines techniques en permanente evolution, fournit a ses entreprises des prestations de veille technologique adaptees et determine des sujets de r & d interessant les mecaniciens. La methodologie employee ainsi que les outils utilises sont presentes et accompagnes d'exemples concrets qui illustrent l'ensemble de la demarche. L'analyse des besoins, qui constitue la phase de veille marche du centre, consiste a realiser une enquete aupres d'un echantillon representatif d'entreprises et a analyser les donnees recueillies afin de determiner les attentes de la profession. La veille technologique apporte un complement indispensable a ces analyses grace au regard porte sur les developpements en cours a travers le monde. Les deux composantes permettent de cibler la demande du marche et l'etat de l'offre technologique. Elles situent le cetim dans son environnement et lui permettent de developper les competences necessaires pour promouvoir le progres technique au sein de son secteur
APA, Harvard, Vancouver, ISO, and other styles
41

Mahboubi, Sakina. "Préservation de la confidentialité des données externalisées dans le traitement des requêtes top-k." Thesis, Montpellier, 2018. http://www.theses.fr/2018MONTS026/document.

Full text
Abstract:
L’externalisation de données d’entreprise ou individuelles chez un fournisseur de cloud, par exemple avec l’approche Database-as-a-Service, est pratique et rentable. Mais elle introduit un problème majeur: comment préserver la confidentialité des données externalisées, tout en prenant en charge les requêtes expressives des utilisateurs. Une solution simple consiste à crypter les données avant leur externalisation. Ensuite, pour répondre à une requête, le client utilisateur peut récupérer les données cryptées du cloud, les décrypter et évaluer la requête sur des données en texte clair (non cryptées). Cette solution n’est pas pratique, car elle ne tire pas parti de la puissance de calcul fournie par le cloud pour évaluer les requêtes.Dans cette thèse, nous considérons un type important de requêtes, les requêtes top-k, et le problème du traitement des requêtes top-k sur des données cryptées dans le cloud, tout en préservant la vie privée. Une requête top-k permet à l’utilisateur de spécifier un nombre k de tuples les plus pertinents pour répondre à la requête. Le degré de pertinence des tuples par rapport à la requête est déterminé par une fonction de notation.Nous proposons d’abord un système complet, appelé BuckTop, qui est capable d’évaluer efficacement les requêtes top-k sur des données cryptées, sans avoir à les décrypter dans le cloud. BuckTop inclut un algorithme de traitement des requêtes top-k qui fonctionne sur les données cryptées, stockées dans un nœud du cloud, et retourne un ensemble qui contient les données cryptées correspondant aux résultats top-k. Il est aidé par un algorithme de filtrage efficace qui est exécuté dans le cloud sur les données chiffrées et supprime la plupart des faux positifs inclus dans l’ensemble renvoyé. Lorsque les données externalisées sont volumineuses, elles sont généralement partitionnées sur plusieurs nœuds dans un système distribué. Pour ce cas, nous proposons deux nouveaux systèmes, appelés SDB-TOPK et SD-TOPK, qui permettent d’évaluer les requêtes top-k sur des données distribuées cryptées sans avoir à les décrypter sur les nœuds où elles sont stockées. De plus, SDB-TOPK et SD-TOPK ont un puissant algorithme de filtrage qui filtre les faux positifs autant que possible dans les nœuds et renvoie un petit ensemble de données cryptées qui seront décryptées du côté utilisateur. Nous analysons la sécurité de notre système et proposons des stratégies efficaces pour la mettre en œuvre.Nous avons validé nos solutions par l’implémentation de BuckTop, SDB-TOPK et SD-TOPK, et les avons comparé à des approches de base par rapport à des données synthétiques et réelles. Les résultats montrent un excellent temps de réponse par rapport aux approches de base. Ils montrent également l’efficacité de notre algorithme de filtrage qui élimine presque tous les faux positifs. De plus, nos systèmes permettent d’obtenir une réduction significative des coûts de communication entre les nœuds du système distribué lors du calcul du résultat de la requête
Outsourcing corporate or individual data at a cloud provider, e.g. using Database-as-a-Service, is practical and cost-effective. But it introduces a major problem: how to preserve the privacy of the outsourced data, while supporting powerful user queries. A simple solution is to encrypt the data before it is outsourced. Then, to answer a query, the user client can retrieve the encrypted data from the cloud, decrypt it, and evaluate the query over plaintext (non encrypted) data. This solution is not practical, as it does not take advantage of the computing power provided by the cloud for evaluating queries.In this thesis, we consider an important kind of queries, top-k queries,and address the problem of privacy-preserving top-k query processing over encrypted data in the cloud.A top-k query allows the user to specify a number k, and the system returns the k tuples which are most relevant to the query. The relevance degree of tuples to the query is determined by a scoring function.We first propose a complete system, called BuckTop, that is able to efficiently evaluate top-k queries over encrypted data, without having to decrypt it in the cloud. BuckTop includes a top-k query processing algorithm that works on the encrypted data, stored at one cloud node,and returns a set that is proved to contain the encrypted data corresponding to the top-k results. It also comes with an efficient filtering algorithm that is executed in the cloud on encypted data and removes most of the false positives included in the set returned.When the outsourced data is big, it is typically partitioned over multiple nodes in a distributed system. For this case, we propose two new systems, called SDB-TOPK and SD-TOPK, that can evaluate top-k queries over encrypted distributed data without having to decrypt at the nodes where they are stored. In addition, SDB-TOPK and SD-TOPK have a powerful filtering algorithm that filters the false positives as much as possible in the nodes, and returns a small set of encrypted data that will be decrypted in the user side. We analyze the security of our system, and propose efficient strategies to enforce it.We validated our solutions through implementation of BuckTop , SDB-TOPK and SD-TOPK, and compared them to baseline approaches over synthetic and real databases. The results show excellent response time compared to baseline approaches. They also show the efficiency of our filtering algorithm that eliminates almost all false positives. Furthermore, our systems yieldsignificant reduction in communication cost between the distributed system nodes when computing the query result
APA, Harvard, Vancouver, ISO, and other styles
42

Ahmed-Nacer, Mehdi. "Méthodologie d'évaluation pour les types de données répliqués." Thesis, Université de Lorraine, 2015. http://www.theses.fr/2015LORR0039/document.

Full text
Abstract:
Pour fournir une disponibilité permanente des données et réduire la latence réseau, les systèmes de partage de données se basent sur la réplication optimiste. Dans ce paradigme, il existe plusieurs copies de l'objet partagé dite répliques stockées sur des sites. Ces répliques peuvent être modifiées librement et à tout moment. Les modifications sont exécutées en local puis propagées aux autres sites pour y être appliquées. Les algorithmes de réplication optimiste sont chargés de gérer les modifications parallèles. L'objectif de cette thèse est de proposer une méthodologie d'évaluation pour les algorithmes de réplication optimiste. Le contexte de notre étude est l'édition collaborative. Nous allons concevoir pour cela un outil d'évaluation qui intègre un mécanisme de génération de corpus et un simulateur d'édition collaborative. À travers cet outil, nous allons dérouler plusieurs expériences sur deux types de corpus: synchrone et asynchrone. Dans le cas d'une édition collaborative synchrone, nous évaluerons les performances des différents algorithmes de réplication sur différents critères tels que le temps d'exécution, l'occupation mémoire, la taille des messages, etc. Nous proposerons ensuite quelques améliorations. En plus, dans le cas d'une édition collaborative asynchrone, lorsque deux répliques se synchronisent, les conflits sont plus nombreux à apparaître. Le système peut bloquer la fusion des modifications jusqu'à ce que l'utilisateur résolut les conflits. Pour réduire le nombre de ces conflits et l'effort des utilisateurs, nous proposerons une métrique d'évaluation et nous évaluerons les différents algorithmes sur cette métrique. Nous analyserons le résultat pour comprendre le comportement des utilisateurs et nous proposerons ensuite des algorithmes pour résoudre les conflits les plus important et réduire ainsi l'effort des développeurs. Enfin, nous proposerons une nouvelle architecture hybride basée sur deux types d'algorithmes de réplication. Contrairement aux architectures actuelles, l'architecture proposéeest simple, limite les ressources sur les dispositifs clients et ne nécessite pas de consensus entre les centres de données
To provide a high availability from any where, at any time, with low latency, data is optimistically replicated. This model allows any replica to apply updates locally, while the operations are later sent to all the others. In this way, all replicas eventually apply all updates, possibly even in different order. Optimistic replication algorithms are responsible for managing the concurrent modifications and ensure the consistency of the shared object. In this thesis, we present an evaluation methodology for optimistic replication algorithms. The context of our study is collaborative editing. We designed a tool that implements our methodology. This tool integrates a mechanism to generate a corpus and a simulator to simulate sessions of collaborative editing. Through this tool, we made several experiments on two different corpus: synchronous and asynchronous. In synchronous collaboration, we evaluate the performance of optimistic replication algorithms following several criteria such as execution time, memory occupation, message's size, etc. After analysis, some improvements were proposed. In addition, in asynchronous collaboration, when replicas synchronize their modifications, more conflicts can appear in the document. In this case, the system cannot merge the modifications until a user resolves them. In order to reduce the conflicts and the user's effort, we propose an evaluation metric and we evaluate the different algorithms on this metric. Afterward, we analyze the quality of the merge to understand the behavior of the users and the collaboration cases that create conflicts. Then, we propose algorithms for resolving the most important conflicts, therefore reducing the user's effort. Finally, we propose a new architecture for supporting cloud-based collaborative editing system. This architecture is based on two optimistic replication algorithms. Unlike current architectures, the proposed one removes the problems of the centralization and consensus between data centers, is simple and accessible for any developers
APA, Harvard, Vancouver, ISO, and other styles
43

Liu, Ji. "Gestion multisite de workflows scientifiques dans le cloud." Thesis, Montpellier, 2016. http://www.theses.fr/2016MONTT260/document.

Full text
Abstract:
Les in silico expérimentations scientifiques à grande échelle contiennent généralement plusieurs activités de calcule pour traiter big data. Workflows scientifiques (SWfs) permettent aux scientifiques de modéliser les activités de traitement de données. Puisque les SWfs moulinent grandes quantités de données, les SWfs orientés données deviennent un problème important. Dans un SWf orienté donnée, les activités sont liées par des dépendances de données ou de contrôle et une activité correspond à plusieurs tâches pour traiter les différentes parties de données. Afin d’exécuter automatiquement les SWfs orientés données, Système de management pour workflows scientifiques (SWfMSs) peut être utilisé en exploitant High Perfmance Comuting (HPC) fournisse par un cluster, grille ou cloud. En outre, SWfMSs génèrent des données de provenance pour tracer l’exécution des SWfs.Puisque le cloud fournit des services stables, diverses ressources, la capacité de calcul et de stockage virtuellement infinie, il devient une infrastructure intéressante pour l’exécution de SWf. Le cloud données essentiellement trois types de services, i.e. Infrastructure en tant que Service (IaaS), Plateforme en tant que Service (PaaS) et Logiciel en tant que Service (SaaS). SWfMSs peuvent être déployés dans le cloud en utilisant des Machines Virtuelles (VMs) pour exécuter les SWfs orientés données. Avec la méthode de pay-as-you-go, les utilisateurs de cloud n’ont pas besoin d’acheter des machines physiques et la maintenance des machines sont assurée par les fournisseurs de cloud. Actuellement, le cloud généralement se compose de plusieurs sites (ou centres de données), chacun avec ses propres ressources et données. Du fait qu’un SWf orienté donnée peut-être traite les données distribuées dans différents sites, l’exécution de SWf orienté donnée doit être adaptée aux multisite cloud en utilisant des ressources de calcul et de stockage distribuées.Dans cette thèse, nous étudions les méthodes pour exécuter SWfs orientés données dans un environnement de multisite cloud. Certains SWfMSs existent déjà alors que la plupart d’entre eux sont conçus pour des grappes d’ordinateurs, grille ou cloud d’un site. En outre, les approches existantes sont limitées aux ressources de calcul statique ou à l’exécution d’un seul site. Nous vous proposons des algorithmes pour partitionner SWfs et d’un algorithme d’ordonnancement des tâches pour l’exécution des SWfs dans un multisite cloud. Nos algorithmes proposés peuvent réduire considérablement le temps global d’exécution d’un SWf dans un multisite cloud.En particulier, nous proposons une solution générale basée sur l’ordonnancement multi-objectif afin d’exécuter SWfs dans un multisite cloud. La solution se compose d’un modèle de coût, un algorithme de provisionnement de VMs et un algorithme d’ordonnancement des activités. L’algorithme de provisionnement de VMs est basé sur notre modèle de coût pour générer les plans à provisionner VMs pour exécuter SWfs dans un cloud d’un site. L’algorithme d’ordonnancement des activités permet l’exécution de SWf avec le coût minimum, composé de temps d’exécution et le coût monétaire, dans un multisite cloud. Nous avons effectué beaucoup d’expérimentations et les résultats montrent que nos algorithmes peuvent réduire considérablement le coût global pour l’exécution de SWf dans un multisite cloud
Large-scale in silico scientific experiments generally contain multiple computational activities to process big data. Scientific Workflows (SWfs) enable scientists to model the data processing activities. Since SWfs deal with large amounts of data, data-intensive SWfs is an important issue. In a data-intensive SWf, the activities are related by data or control dependencies and one activity may consist of multiple tasks to process different parts of experimental data. In order to automatically execute data-intensive SWfs, Scientific Work- flow Management Systems (SWfMSs) can be used to exploit High Performance Computing (HPC) environments provided by a cluster, grid or cloud. In addition, SWfMSs generate provenance data for tracing the execution of SWfs.Since a cloud offers stable services, diverse resources, virtually infinite computing and storage capacity, it becomes an interesting infrastructure for SWf execution. Clouds basically provide three types of services, i.e. Infrastructure-as-a-Service (IaaS), Platform- as-a-Service (PaaS) and Software-as-a-Service (SaaS). SWfMSs can be deployed in the cloud using Virtual Machines (VMs) to execute data-intensive SWfs. With a pay-as-you- go method, the users of clouds do not need to buy physical machines and the maintenance of the machines are ensured by the cloud providers. Nowadays, a cloud is typically made of several sites (or data centers), each with its own resources and data. Since a data- intensive SWf may process distributed data at different sites, the SWf execution should be adapted to multisite clouds while using distributed computing or storage resources.In this thesis, we study the methods to execute data-intensive SWfs in a multisite cloud environment. Some SWfMSs already exist while most of them are designed for computer clusters, grid or single cloud site. In addition, the existing approaches are limited to static computing resources or single site execution. We propose SWf partitioning algorithms and a task scheduling algorithm for SWf execution in a multisite cloud. Our proposed algorithms can significantly reduce the overall SWf execution time in a multisite cloud.In particular, we propose a general solution based on multi-objective scheduling in order to execute SWfs in a multisite cloud. The general solution is composed of a cost model, a VM provisioning algorithm, and an activity scheduling algorithm. The VM provisioning algorithm is based on our proposed cost model to generate VM provisioning plans to execute SWfs at a single cloud site. The activity scheduling algorithm enables SWf execution with the minimum cost, composed of execution time and monetary cost, in a multisite cloud. We made extensive experiments and the results show that our algorithms can reduce considerably the overall cost of the SWf execution in a multisite cloud
APA, Harvard, Vancouver, ISO, and other styles
44

Duranthon, Sophie. "Intoxications par les produits agricoles : bilan sur 5 années de données recueillies au centre anti-poison de Bordeaux (1990-1994)." Bordeaux 2, 1996. http://www.theses.fr/1996BOR2P007.

Full text
APA, Harvard, Vancouver, ISO, and other styles
45

Bondiombouy, Carlyna. "Query Processing in Multistore Systems." Thesis, Montpellier, 2017. http://www.theses.fr/2017MONTS056/document.

Full text
Abstract:
Le cloud computing a eu un impact majeur sur la gestion des données, conduisant à une prolifération de nouvelles solutions évolutives de gestion des données telles que le stockage distribué de fichiers et d’objets, les bases de données NoSQL et les frameworks de traitement de données. Cela a conduit également à une grande diversification des interfaces aux SGBD et à la perte d’un paradigme de programmation commun, ce qui rend très difficile pour un utilisateur d’intégrer ses données lorsqu’elles se trouvent dans des sources de données spécialisées, par exemple, relationnelle, document et graphe.Dans cette thèse, nous abordons le problème du traitement de requêtes avec plusieurs sources de données dans le cloud, où ces sources ont des modèles, des langages et des API différents. Cette thèse a été préparée dans le cadre du projet européen CoherentPaaS et, en particulier, du système multistore CloudMdsQL. CloudMdsQL est un langage de requête fonctionnel capable d’exploiter toute la puissance des sources de données locales, en permettant simplement à certaines requêtes natives portant sur les systèmes locauxd’être appelées comme des fonctions et en même temps optimisées, par exemple, en exploitant les prédicats de sélection, en utilisant le bindjoin, en réalisant l’ordonnancement des jointures ou en réduisant les transferts de données intermédiaires.Dans cette thèse, nous proposons une extension de CloudMdsQL pour tirer pleinement parti des fonctionnalités des frameworks de traitement de données sous-jacents tels que Spark en permettant l’utilisation ad hoc des opérateurs de map/filter/reduce (MFR) définis par l’utilisateur en combinaison avec les ordres SQL traditionnels. Cela permet d’effectuer des jointures entre données relationnelles et HDFS. Notre solution permet l’optimisation en permettant la réécriture de sous-requêtes afin de réaliser des optimisations majeures comme le bindjoin ou le filtrage des données le plus tôt possible.Nous avons validé notre solution en implémentant l’extension MFR dans le moteur de requête CloudMdsQL. Sur la base de ce prototype, nous proposons une validation expérimentale du traitement des requêtes multistore dans un cluster pour évaluer l’impact sur les performances de l’optimisation. Plus précisément, nous explorons les avantages de l’utilisation du bindjoin et du filtrage de données dans des conditions différentes. Dans l’ensemble, notre évaluation des performances illustre la capacité du moteur de requête CloudMdsQL à optimiser une requête et à choisir la stratégie d’exécution la plus efficace
Cloud computing is having a major impact on data management, with a proliferation of new, scalable data management solutions such as distributed file and object storage, NoSQL databases and big data processing frameworks. This also leads to a wide diversification of DBMS interfaces and the loss of a common programming paradigm, making it very hard for a user to integrate its data sitting in specialized data stores, e.g. relational, documents and graph data stores.In this thesis, we address the problem of query processing with multiple cloud data stores, where the data stores have different models, languages and APIs. This thesis has been prepared in the context of the CoherentPaaS European project and, in particular, the CloudMdsQL multistore system. CloudMdsQL is a functional query language able to exploit the full power of local data stores, by simply allowing some local data store native queries to be called as functions, and at the same time be optimized, e.g. by pushing down select predicates, using bind join, performing join ordering, or planning intermediate data shipping.In this thesis, we propose an extension of CloudMdsQL to take full advantage of the functionality of the underlying data processing frameworks such as Spark by allowing the ad-hoc usage of user defined map/filter/reduce (MFR) operators in combination with traditional SQL statements. This allows performing joins between relational and HDFS big data. Our solution allows for optimization by enabling subquery rewriting so that bind join can be used and filter conditions can be pushed down and applied by the data processing framework as early as possible.We validated our solution by implementing the MFR extension as part of the CloudMdsQL query engine. Based on this prototype, we provide an experimental validation of multistore query processing in a cluster to evaluate the impact on performance of optimization. More specifically, we explore the performance benefit of using bind join and select pushdown under different conditions. Overall, our performance evaluation illustrates the CloudMdsQL query engine’s ability to optimize a query and choose the most efficient execution strategy
APA, Harvard, Vancouver, ISO, and other styles
46

Carpen-Amarie, Alexandra. "Utilisation de BlobSeer pour le stockage de données dans les Clouds: auto-adaptation, intégration, évaluation." Phd thesis, École normale supérieure de Cachan - ENS Cachan, 2011. http://tel.archives-ouvertes.fr/tel-00696012.

Full text
Abstract:
L'émergence de l'informatique dans les nuages met en avant de nombreux défis qui pourraient limiter l'adoption du paradigme Cloud. Tandis que la taille des données traitées par les applications Cloud augmente exponentiellement, un défi majeur porte sur la conception de solutions efficaces pour la gestion de données. Cette thèse a pour but de concevoir des mécanismes d'auto-adaptation pour des systèmes de gestion de données, afin qu'ils puissent répondre aux exigences des services de stockage Cloud en termes de passage à l'échelle, disponibilité et sécurité des données. De plus, nous nous proposons de concevoir un service de données qui soit à la fois compatible avec les interfaces Cloud standard dans et capable d'offrir un stockage de données à haut débit. Pour relever ces défis, nous avons proposé des mécanismes génériques pour l'auto-connaissance, l'auto-protection et l'auto-configuration des systèmes de gestion de données. Ensuite, nous les avons validés en les intégrant dans le logiciel BlobSeer, un système de stockage qui optimise les accès hautement concurrents aux données. Finalement, nous avons conçu et implémenté un système de fichiers s'appuyant sur BlobSeer, afin d'optimiser ce dernier pour servir efficacement comme support de stockage pour les services Cloud. Puis, nous l'avons intégré dans un environnement Cloud réel, la plate-forme Nimbus. Les avantages et les désavantages de l'utilisation du stockage dans le Cloud pour des applications réelles sont soulignés lors des évaluations effectuées sur Grid'5000. Elles incluent des applications à accès intensif aux données, comme MapReduce, et des applications fortement couplées, comme les simulations atmosphériques.
APA, Harvard, Vancouver, ISO, and other styles
47

Diallo, Thierno. "La fibre en support du Mobile Cloud." Thesis, Limoges, 2016. http://www.theses.fr/2016LIMO0122/document.

Full text
Abstract:
De nos jours, la montée en débit observée dans les réseaux mobiles est une problématique. A long terme, la densification des réseaux radios mobiles s'avérera inefficace. En plus de cela cette densification entraînera une baisse de rentabilité des réseaux d'accès mobiles et augmentera la complexité au niveau de la gestion des fréquences mobile qui accroîtra inéluctablement le risque de la présence des interférences. Pour pallier ce manque de rentabilité et pour faciliter le déploiement de certaines techniques d'optimisation et d'amélioration de l'interface air comme le « Coordinated MultiPoint » (CoMP), les acteurs des télécommunications proposent une nouvelle architecture innovante désignée par les termes Mobile Cloud ou « Centralized or Cloud Radio Access Network » (C-RAN). Le C-RAN consiste à déporter l'entité de traitement des données numérisées appelée « Base Band Unit » (BBU) du site d'antenne vers un local plus sécurisé nommé « Central Oce (CO) ». L'entité de traitement radio dénommée « Remote Radio Head (RRH) »est toujours localisée sur le site d'antenne. Cette délocalisation crée un nouveau segment réseau appelé « fronthaul ». Le fronthaul est un segment réseau très gourmand en bande passante par conséquent la fibre est désignée comme le support idéal pour assurer la communication bidirectionnelle entre la RRH et la BBU. Dans notre thèse, nous avons étudié les solutions de déploiement du fronthaul. Etant donné que l'interface fronthaul utilise de grands débits pour la transmission de données numérisées, elle est soumise à un phénomène physique nommé gigue qui a tendance à dégrader les performances de transmission. Les effets et l'impact de la gigue sur l'interface fronthaul et sur l'interface air ont été aussi étudiés
In Europe, the competition between the mobile operators is so strong that the profitability of the mobile network has decreased. The cost to implement, to operate and to upgrade the mobile network is increasing while the revenues generated by the latter are not sufficient. Therefore, the operators should find the way to reduce the CAPEX and the OPEX. To keep competitive, the operators have begun to think about a novel RAN architecture. This new architecture is called Centralized or Cloud Radio Access Network. The traditional antenna site consists of the Radio Remote Head (RRH) which performs the radio processing, and the Base Band Unit (BBU) which carries out the digital processing. The principle of C-RAN consists to move the BBU from antenna site towards the local secured belonging to an operator called Central Office (CO). The move of BBU from antenna site to CO leads to the appearance of a new network segment called fronthaul. During this thesis, the different solutions to the deployment of fronthaul are studied and also the effects and the impacts of jitter on the fronthaul interface
APA, Harvard, Vancouver, ISO, and other styles
48

SANCIN, LJUBA. "SEISMIC VULNERABILITY EVALUATION OF R.C. AND MASONRY BUILDINGS IN THE CENTRE OF GORIZIA." Doctoral thesis, Università degli Studi di Trieste, 2021. http://hdl.handle.net/11368/2998137.

Full text
Abstract:
The aim of this research study is to investigate the vulnerability of the building heritage in Gorizia, a town in north-eastern Italy, on the border with Slovenia. This town has not been considered seismic until the year 2003 and then in 2010 it has been classified in a higher seismicity class. For this reason, most of the buildings are not designed to resist seismic action at all and an even lower percentage fulfils the requirements of the current technical standard. Four real existing buildings are analysed as case study buildings, representative of the main structural types that can be found in the town. Two of them are high - rise (11 and 12 storeys) reinforced concrete (RC) framed buildings with a brittle concrete stairwell, designed for gravitational load only and built in the 60’s-70’s. In the last years, a growing attention has been payed to the seismic vulnerability of existing RC framed structures, but this type of buildings, with a core of concrete walls, has been investigated much less, although it is a structural type that is very spread. The other two case studies are masonry buildings built in 1740 and in 1903, respectively. One of the masonry buildings is the city hall of Gorizia, on which many in-situ tests have been performed within a project of the Department of Engineering and Architecture with the Municipality of Gorizia. For both RC buildings, some considerations are made about the influence of the masonry infills on the seismic behaviour of the building and of the numerical model. The vibration periods found with numerical modelling are also compared to the periods evaluated with vibrational measurements. The two numerical models without infills are then analysed with non-linear static and dynamic analyses. The results are processed with a cloud analysis in order to calculate fragility curves of the buildings, that show a very brittle behaviour. The two masonry buildings are analysed also with pushover analysis. For the evaluation of the seismic vulnerability of the analysed buildings, two types of seismic hazard assessments have been considered for the extraction of the seismic inputs: Probabilistic Seismic Hazard Assessment (PSHA) method, by the Italian code response spectra and Neo Deterministic Seismic Hazard Assessment (NDSHA) method, with response spectra of two specific possible scenarios for the town of Gorizia. The physics-based scenarios are calculated for the two faults that are the closest to Gorizia: Idrija and Medea. A comparison is made between the demand given by the seismic inputs defined with the two methods. The importance of using both methods for the design of low-damage retrofitting solutions is highlighted. At last, a theoretical study has been carried out within the present research study in order to find an innovative and effective solution for the retrofit of the RC high-rise brittle buildings. It consists in the application of an exo - or endo - skeleton, with the additional introduction of a sliding system at the base of the RC building, in order to decouple its motion from the ground motion. In this way, the exo- or endo-skeleton can be designed independently from the features of the existing building, that remains undamaged. The characteristics of the exo/endo-skeleton can be calibrated on the seismic input of the site of interest, with the possibility to adapt it to new seismic classifications of the territory.
The aim of this research study is to investigate the vulnerability of the building heritage in Gorizia, a town in north-eastern Italy, on the border with Slovenia. This town has not been considered seismic until the year 2003 and then in 2010 it has been classified in a higher seismicity class. For this reason, most of the buildings are not designed to resist seismic action at all and an even lower percentage fulfils the requirements of the current technical standard. Four real existing buildings are analysed as case study buildings, representative of the main structural types that can be found in the town. Two of them are high - rise (11 and 12 storeys) reinforced concrete (RC) framed buildings with a brittle concrete stairwell, designed for gravitational load only and built in the 60’s-70’s. In the last years, a growing attention has been payed to the seismic vulnerability of existing RC framed structures, but this type of buildings, with a core of concrete walls, has been investigated much less, although it is a structural type that is very spread. The other two case studies are masonry buildings built in 1740 and in 1903, respectively. One of the masonry buildings is the city hall of Gorizia, on which many in-situ tests have been performed within a project of the Department of Engineering and Architecture with the Municipality of Gorizia. For both RC buildings, some considerations are made about the influence of the masonry infills on the seismic behaviour of the building and of the numerical model. The vibration periods found with numerical modelling are also compared to the periods evaluated with vibrational measurements. The two numerical models without infills are then analysed with non-linear static and dynamic analyses. The results are processed with a cloud analysis in order to calculate fragility curves of the buildings, that show a very brittle behaviour. The two masonry buildings are analysed also with pushover analysis. For the evaluation of the seismic vulnerability of the analysed buildings, two types of seismic hazard assessments have been considered for the extraction of the seismic inputs: Probabilistic Seismic Hazard Assessment (PSHA) method, by the Italian code response spectra and Neo Deterministic Seismic Hazard Assessment (NDSHA) method, with response spectra of two specific possible scenarios for the town of Gorizia. The physics-based scenarios are calculated for the two faults that are the closest to Gorizia: Idrija and Medea. A comparison is made between the demand given by the seismic inputs defined with the two methods. The importance of using both methods for the design of low-damage retrofitting solutions is highlighted. At last, a theoretical study has been carried out within the present research study in order to find an innovative and effective solution for the retrofit of the RC high-rise brittle buildings. It consists in the application of an exo - or endo - skeleton, with the additional introduction of a sliding system at the base of the RC building, in order to decouple its motion from the ground motion. In this way, the exo- or endo-skeleton can be designed independently from the features of the existing building, that remains undamaged. The characteristics of the exo/endo-skeleton can be calibrated on the seismic input of the site of interest, with the possibility to adapt it to new seismic classifications of the territory.
APA, Harvard, Vancouver, ISO, and other styles
49

Muresan, Adrian. "Ordonnancement et déploiement d'applications de gestion de données à grande échelle sur des plates-formes de type Clouds." Phd thesis, Ecole normale supérieure de lyon - ENS LYON, 2012. http://tel.archives-ouvertes.fr/tel-00793092.

Full text
Abstract:
L'usage des plateformes de Cloud Computing offrant une Infrastructure en tant que service (IaaS) a augmenté au sein de l'industrie. Les infrastructures IaaS fournissent des ressources virtuelles depuis un catalogue de types prédéfinis. Les avancées dans le domaine de la virtualisation rendent possible la création et la destruction de machines virtuelles au fur et à mesure, avec un faible surcout d'exploitation. En conséquence, le bénéfice offert par les plate-formes IaaS est la possibilité de dimensionner une architecture virtuelle au fur et à mesure de l'utilisation, et de payer uniquement les ressources utilisées. D'un point de vue scientifique, les plateformes IaaS soulèvent de nouvelles questions concernant l'efficacité des décisions prises en terme de passage à l'échelle, et également l'ordonnancement des applications sur les plateformes dynamiques. Les travaux de cette thèse explorent ce thème et proposent des solutions à ces deux problématiques. La première contribution décrite dans cette thèse concerne la gestion des ressources. Nous avons travaillé sur le redimensionnement automatique des applications clientes de Cloud afin de modéliser les variations d'utilisation de la plateforme. De nombreuses études ont montré des autosimilarités dans le trafic web des plateformes, ce qui implique l'existence de motifs répétitifs pouvant être périodiques ou non. Nous avons développé une stratégie automatique de dimensionnement, capable de prédire le temps d'utilisation de la plateforme en identifiant les motifs répétitifs non périodiques. Dans un second temps, nous avons proposé d'étendre les fonctionnalités d'un intergiciel de grilles, en implémentant une utilisation des ressources à la demandes.Nous avons développé une extension pour l'intergiciel DIET (Distributed Interactive Engineering Toolkit), qui utilise un marché virtuel pour gérer l'allocation des ressources. Chaque utilisateur se voit attribué un montant de monnaie virtuelle qu'il utilisera pour exécuter ses tâches. Le mécanisme d'aide assure un partage équitable des ressources de la plateforme entre les différents utilisateurs. La troisième et dernière contribution vise la gestion d'applications pour les plateformes IaaS. Nous avons étudié et développé une stratégie d'allocation des ressources pour les applications de type workflow avec des contraintes budgétaires. L'abstraction des applications de type workflow est très fréquente au sein des applications scientifiques, dans des domaines variés allant de la géologie à la bioinformatique. Dans ces travaux, nous avons considéré un modèle général d'applications de type workflow qui contient des tâches parallèles et permet des transitions non déterministes. Nous avons élaboré deux stratégies d'allocations à contraintes budgétaires pour ce type d'applications. Le problème est une optimisation à deux critères dans la mesure où nous optimisons le budget et le temps total du flux d'opérations. Ces travaux ont été validés de façon expérimentale par leurs implémentations au sein de la plateforme de Cloud libre Nimbus et de moteur de workflow MADAG présent au sein de DIET. Les tests ont été effectuées sur une simulation de cosmologie appelée RAMSES. RAMSES est une application parallèle qui, dans le cadre de ces travaux, a été portée sur des plateformes virtuelles dynamiques. L'ensemble des résultats théoriques et pratiques ont débouché sur des résultats encourageants et des améliorations.
APA, Harvard, Vancouver, ISO, and other styles
50

Chihoub, Houssem Eddine. "Managing consistency for big data applications : tradeoffs and self-adaptiveness." Thesis, Cachan, Ecole normale supérieure, 2013. http://www.theses.fr/2013DENS0059/document.

Full text
Abstract:
Dans l’ère de Big Data, les applications intensives en données gèrent des volumes de données extrêmement grand. De plus, ils ont besoin de temps de traitement rapide. Une grande partie de ces applications sont déployées sur des infrastructures cloud. Ceci est afin de bénéficier de l’élasticité des clouds, les déploiements sur demande et les coûts réduits strictement relatifs à l’usage. Dans ce contexte, la réplication est un moyen essentiel dans le cloud afin de surmonter les défis de Big Data. En effet, la réplication fournit les moyens pour assurer la disponibilité des données à travers de nombreuses copies de données, des accès plus rapide aux copies locales, la tolérance aux fautes. Cependant, la réplication introduit le problème majeur de la cohérence de données. La gestion de la cohérence est primordiale pour les systèmes de Big Data. Les modèles à cohérence forte présentent de grandes limitations aux aspects liées aux performances et au passage à l’échelle à cause des besoins de synchronisation. En revanche, les modèles à cohérence faible et éventuelle promettent de meilleures performances ainsi qu’une meilleure disponibilité de données. Toutefois, ces derniers modèles peuvent tolérer, sous certaines conditions, trop d’incohérence temporelle. Dans le cadre du travail de cette thèse, on s'adresse particulièrement aux problèmes liés aux compromis de cohérence dans les systèmes à large échelle de Big Data. Premièrement, on étudie la gestion de cohérence au niveau du système de stockage. On introduit un modèle de cohérence auto-adaptative (nommé Harmony). Ce modèle augmente et diminue de manière automatique le niveau de cohérence et le nombre de copies impliquées dans les opérations. Ceci permet de fournir de meilleures performances toute en satisfaisant les besoins de cohérence de l’application. De plus, on introduit une étude détaillée sur l'impact de la gestion de la cohérence sur le coût financier dans le cloud. On emploi cette étude afin de proposer une gestion de cohérence efficace qui réduit les coûts. Dans une troisième direction, on étudie les effets de gestion de cohérence sur la consommation en énergie des systèmes de stockage distribués. Cette étude nous mène à analyser les gains potentiels des reconfigurations adaptatives des systèmes de stockage en matière de réduction de la consommation. Afin de compléter notre travail au niveau système de stockage, on s'adresse à la gestion de cohérence au niveau de l’application. Les applications de Big Data sont de nature différente et ont des besoins de cohérence différents. Par conséquent, on introduit une approche de modélisation du comportement de l’application lors de ses accès aux données. Le modèle résultant facilite la compréhension des besoins en cohérence. De plus, ce modèle est utilisé afin de délivrer une cohérence customisée spécifique à l’application
In the era of Big Data, data-intensive applications handle extremely large volumes of data while requiring fast processing times. A large number of such applications run in the cloud in order to benefit from cloud elasticity, easy on-demand deployments, and cost-efficient Pays-As-You-Go usage. In this context, replication is an essential feature in the cloud in order to deal with Big Data challenges. Therefore, replication therefore, enables high availability through multiple replicas, fast data access to local replicas, fault tolerance, and disaster recovery. However, replication introduces the major issue of data consistency across different copies. Consistency management is a critical for Big Data systems. Strong consistency models introduce serious limitations to systems scalability and performance due to the required synchronization efforts. In contrast, weak and eventual consistency models reduce the performance overhead and enable high levels of availability. However, these models may tolerate, under certain scenarios, too much temporal inconsistency. In this Ph.D thesis, we address this issue of consistency tradeoffs in large-scale Big Data systems and applications. We first, focus on consistency management at the storage system level. Accordingly, we propose an automated self-adaptive model (named Harmony) that scale up/down the consistency level at runtime when needed in order to provide as high performance as possible while preserving the application consistency requirements. In addition, we present a thorough study of consistency management impact on the monetary cost of running in the cloud. Hereafter, we leverage this study in order to propose a cost efficient consistency tuning (named Bismar) in the cloud. In a third direction, we study the consistency management impact on energy consumption within the data center. According to our findings, we investigate adaptive configurations of the storage system cluster that target energy saving. In order to complete our system-side study, we focus on the application level. Applications are different and so are their consistency requirements. Understanding such requirements at the storage system level is not possible. Therefore, we propose an application behavior modeling that apprehend the consistency requirements of an application. Based on the model, we propose an online prediction approach- named Chameleon that adapts to the application specific needs and provides customized consistency
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography