Conecte-se

Bibliografias temáticas / Infrastructures à large échelle / Teses / dissertações

Teses / dissertações sobre o tema "Infrastructures à large échelle"

Siga este link para ver outros tipos de publicações sobre o tema: Infrastructures à large échelle.

Autor: Grafiati

Publicado: 25 de maio de 2024

Crie uma referência precisa em APA, MLA, Chicago, Harvard, e outros estilos

Selecione um tipo de fonte:

Veja os 50 melhores trabalhos (teses / dissertações) para estudos sobre o assunto "Infrastructures à large échelle".

Ao lado de cada fonte na lista de referências, há um botão "Adicionar à bibliografia". Clique e geraremos automaticamente a citação bibliográfica do trabalho escolhido no estilo de citação de que você precisa: APA, MLA, Harvard, Chicago, Vancouver, etc.

Você também pode baixar o texto completo da publicação científica em formato .pdf e ler o resumo do trabalho online se estiver presente nos metadados.

Veja as teses / dissertações das mais diversas áreas científicas e compile uma bibliografia correta.

1

Quesnel, Flavien. "Vers une gestion coopérative des infrastructures virtualisées à large échelle : le cas de l'ordonnancement". Phd thesis, Ecole des Mines de Nantes, 2013. http://tel.archives-ouvertes.fr/tel-00821103.

Texto completo da fonte

Resumo:

Les besoins croissants en puissance de calcul sont généralement satisfaits en fédérant de plus en plus d'ordinateurs (ou noeuds) pour former des infrastructures distribuées. La tendance actuelle est d'utiliser la virtualisation système dans ces infrastructures, afin de découpler les logiciels des noeuds sous-jacents en les encapsulant dans des machines virtuelles. Pour gérer efficacement ces infrastructures virtualisées, de nouveaux gestionnaires logiciels ont été mis en place. Ces gestionnaires sont pour la plupart hautement centralisés (les tâches de gestion sont effectuées par un nombre restreint de nœuds dédiés). Cela limite leur capacité à passer à l'échelle, autrement dit à gérer de manière réactive des infrastructures de grande taille, qui sont de plus en plus courantes. Au cours de cette thèse, nous nous sommes intéressés aux façons d'améliorer cet aspect ; l'une d'entre elles consiste à décentraliser le traitement des tâches de gestion, lorsque cela s'avère judicieux. Notre réflexion s'est concentrée plus particulièrement sur l'ordonnancement dynamique des machines virtuelles, pour donner naissance à la proposition DVMS (Distributed Virtual Machine Scheduler). Nous avons mis en œuvre un prototype, que nous avons validé au travers de simulations (notamment via l'outil SimGrid), et d'expériences sur le banc de test Grid'5000. Nous avons pu constater que DVMS se montrait particulièrement réactif pour gérer des infrastructures virtualisées constituées de dizaines de milliers de machines virtuelles réparties sur des milliers de nœuds. Nous nous sommes ensuite penchés sur les perspectives d'extension et d'amélioration de DVMS. L'objectif est de disposer à terme d'un gestionnaire décentralisé complet, objectif qui devrait être atteint au travers de l'initiative Discovery qui fait suite à ces travaux.

Estilos ABNT, Harvard, Vancouver, APA, etc.

2

Rais, Issam. "Discover, model and combine energy leverages for large scale energy efficient infrastructures". Thesis, Lyon, 2018. http://www.theses.fr/2018LYSEN051/document.

Texto completo da fonte

Resumo:

La consommation énergétique de nos entités de calculs à grande échelle est une problématique de plus en plus inquiétante. Il est d'autant plus inquiétant que nous nous dirigeons vers "L'exascale",machine qui calcule 10^18 opérations flottantes par secondes, soit 10 fois plus que les meilleurs machines publiques actuelles. En 2017, les data-center consommaient 7% de la demande globale et étaient responsable de 2% de l’émission globale de CO2. Avec la multiplication actuelle du nombre d'outils connectés par personne, réduire la consommation énergétique des data-centers et supercalculateurs à grande échelle est une problématique cruciale pour construire une société numérique durable.Il est donc urgent de voir la consommation énergétique comme une problématique phare de cescentres. De nombreuses techniques, ici nommé "levier", ont été développées dans le but de réduire la consommation électrique des centres de calculs, à différents niveaux : infrastructure, matériel, intergiciel et applicatif. Bien utiliser ces leviers est donc capitale pour s'approcher de l'efficience énergétique. Un grand nombre de leviers sont disponibles dans ces centres de calculs. Malgré leurs gains potentiels, il peut être compliqué de bien les utiliser mais aussi d'en combiner plusieurs en restant efficace en énergie.Dans cette thèse, nous avons abordé la découverte, compréhension et usage intelligent des leviers disponibles à grande échelle dans ces centres de calculs. Nous avons étudié des leviers de manière indépendante, puis les avons combinés à d'autres leviers afin de proposer une solution générique et dynamique à l'usage combiné des leviers
Energy consumption is a growing concern on the verge of Exascale computing, a machine reaching 10^18 operations per seconds, 10 times the actual best public supercomputers, it became a crucial focus. Data centers consumed about 7% of total demand of electricity and are responsible of 2% of global carbon emission. With the multiplication of connected devices per person around the world, reducing the energy consumption of large scale computing system is a mandatory step to address in order to build a sustainable digital society.Several techniques, that we call leverage, have been developed in order to lower the electricalconsumption of computing facilities. To face this growing concern many solutions have beendeveloped at multiple levels of computing facilities: infrastructure, hardware, middle-ware, andapplication.It is urgent to embrace energy efficiency as a major concern of our modern computing facilities. Using these leverages is mandatory to better energy efficiency. A lot of leverages are available on large scale computing center. In spite of their potential gains, users and administrators don't fully use them or don't use them at all to better energy efficiency. Although, using these techniques, alone and combined, could be complicated and counter productive if not wisely used.This thesis defines and investigates the discovery, understanding and smart usage of leverages available on a large scale data center or supercomputer. We focus on various single leverages and understand them. We then combine them to other leverages and propose a generic solution to the dynamic usage of combined leverages

Estilos ABNT, Harvard, Vancouver, APA, etc.

3

Moise, Diana Maria. "Optimizing data management for MapReduce applications on large-scale distributed infrastructures". Thesis, Cachan, Ecole normale supérieure, 2011. http://www.theses.fr/2011DENS0067/document.

Texto completo da fonte

Resumo:

Les applications data-intensive sont largement utilisées au sein de domaines diverses dans le but d'extraire et de traiter des informations, de concevoir des systèmes complexes, d'effectuer des simulations de modèles réels, etc. Ces applications posent des défis complexes tant en termes de stockage que de calcul. Dans le contexte des applications data-intensive, nous nous concentrons sur le paradigme MapReduce et ses mises en oeuvre. Introduite par Google, l'abstraction MapReduce a révolutionné la communauté intensif de données et s'est rapidement étendue à diverses domaines de recherche et de production. Une implémentation domaine publique de l'abstraction mise en avant par Google, a été fournie par Yahoo à travers du project Hadoop. Le framework Hadoop est considéré l'implémentation de référence de MapReduce et est actuellement largement utilisé à des fins diverses et sur plusieurs infrastructures. Nous proposons un système de fichiers distribué, optimisé pour des accès hautement concurrents, qui puisse servir comme couche de stockage pour des applications MapReduce. Nous avons conçu le BlobSeer File System (BSFS), basé sur BlobSeer, un service de stockage distribué, hautement efficace, facilitant le partage de données à grande échelle. Nous étudions également plusieurs aspects liés à la gestion des données intermédiaires dans des environnements MapReduce. Nous explorons les contraintes des données intermédiaires MapReduce à deux niveaux: dans le même job MapReduce et pendant l'exécution des pipelines d'applications MapReduce. Enfin, nous proposons des extensions de Hadoop, un environnement MapReduce populaire et open-source, comme par example le support de l'opération append. Ce travail inclut également l'évaluation et les résultats obtenus sur des infrastructures à grande échelle: grilles informatiques et clouds
Data-intensive applications are nowadays, widely used in various domains to extract and process information, to design complex systems, to perform simulations of real models, etc. These applications exhibit challenging requirements in terms of both storage and computation. Specialized abstractions like Google’s MapReduce were developed to efficiently manage the workloads of data-intensive applications. The MapReduce abstraction has revolutionized the data-intensive community and has rapidly spread to various research and production areas. An open-source implementation of Google's abstraction was provided by Yahoo! through the Hadoop project. This framework is considered the reference MapReduce implementation and is currently heavily used for various purposes and on several infrastructures. To achieve high-performance MapReduce processing, we propose a concurrency-optimized file system for MapReduce Frameworks. As a starting point, we rely on BlobSeer, a framework that was designed as a solution to the challenge of efficiently storing data generated by data-intensive applications running at large scales. We have built the BlobSeer File System (BSFS), with the goal of providing high throughput under heavy concurrency to MapReduce applications. We also study several aspects related to intermediate data management in MapReduce frameworks. We investigate the requirements of MapReduce intermediate data at two levels: inside the same job, and during the execution of pipeline applications. Finally, we show how BSFS can enable extensions to the de facto MapReduce implementation, Hadoop, such as the support for the append operation. This work also comprises the evaluation and the obtained results in the context of grid and cloud environments

Estilos ABNT, Harvard, Vancouver, APA, etc.

4

Pastor, Jonathan. "Contributions à la mise en place d'une infrastructure de Cloud Computing à large échelle". Thesis, Nantes, Ecole des Mines, 2016. http://www.theses.fr/2016EMNA0240/document.

Texto completo da fonte

Resumo:

La croissance continue des besoins en puissance de calcul a conduit au triomphe du modèle de Cloud Computing. Des clients demandeurs en puissance de calcul vont s’approvisionner auprès de fournisseurs d’infrastructures de Cloud Computing, mises à disposition via Internet. Pour réaliser des économies d’échelles, ces infrastructures sont toujours plus grandes et concentrées en quelques endroits, conduisant à des problèmes tels que l’approvisionnement en énergie, la tolérance aux pannes et l’éloignement des utilisateurs. Cette thèse s’est intéressée à la mise en place d’un système d’IaaS massivement distribué et décentralisé exploitant un réseau de micros centres de données déployés sur la dorsale Internet, utilisant une version d’OpenStack revisitée pendant cette thèse autour du support non intrusif de bases de données non relationnelles. Des expériences sur Grid’5000 ont montré des résultats intéressants sur le plan des performances, toutefois limités par le fait qu’OpenStack ne tirait pas avantage nativement d’un fonctionnement géographiquement réparti. Nous avons étudié la prise en compte de la localité réseau pour améliorer les performances des services distribués en favorisant les collaborations proches. Un prototype de l’algorithme de placement de machines virtuelles DVMS, fonctionnant sur une topologie non structurée basée sur l’algorithme Vivaldi, a été validé sur Grid’5000. Ce prototype a fait l’objet d’un prix scientifique lors de l’école de printemps Grid’50002014. Enfin, ces travaux nous ont amenés à participer au développement du simulateur VMPlaceS
The continuous increase of computing power needs has favored the triumph of the Cloud Computing model. Customers asking for computing power will receive supplies via Internet resources hosted by providers of Cloud Computing infrastructures. To make economies of scale, Cloud Computing that are increasingly large and concentrated in few attractive places, leading to problems such energy supply, fault tolerance and the fact that these infrastructures are far from most of their end users. During this thesis we studied the implementation of an fully distributed and decentralized IaaS system operating a network of micros data-centers deployed in the Internet backbone, using a modified version of OpenStack that leverages non relational databases. A prototype has been experimentally validated onGrid’5000, showing interesting results, however limited by the fact that OpenStack doesn’t take advantage of a geographically distributed functioning. Thus, we focused on adding the support of network locality to improve performance of Cloud Computing services by favoring collaborations between close nodes. A prototype of the DVMS algorithm, working with an unstructured topology based on the Vivaldi algorithm, has been validated on Grid’5000. This prototype got the first prize at the large scale challenge of the Grid’5000 spring school in 2014. Finally, the work made with DVMS enabled us to participate at the development of the VMPlaceS simulator

Estilos ABNT, Harvard, Vancouver, APA, etc.

5

Esteves, José Jurandir Alves. "Optimization of network slice placement in distributed large-scale infrastructures : from heuristics to controlled deep reinforcement learning". Electronic Thesis or Diss., Sorbonne université, 2021. http://www.theses.fr/2021SORUS325.

Texto completo da fonte

Resumo:

Cette thèse examine comment optimiser le placement de tranches (slices) de réseau dans les infrastructures distribuées à grande échelle en se concentrant sur des approches heuristiques en ligne et basées sur l'apprentissage par renforcement profond (DRL). Tout d'abord, nous nous appuyons sur la programmation linéaire en nombre entiers (ILP) pour proposer un modèle de données permettant le placement de tranches de réseau sur le bord et le cœur du réseau. Contrairement à la plupart des études relatives au placement de fonctions réseau virtualisées, le modèle ILP proposé prend en compte les topologies complexes des tranches de réseau et accorde une attention particulière à l'emplacement géographique des utilisateurs des tranches réseau et à son impact sur le calcul de la latence de bout en bout. Des expérimentations numériques nous ont permis de montrer la pertinence de la prise en compte des contraintes de localisation des utilisateurs.Ensuite, nous nous appuyons sur une approche appelée "Power of Two Choices" pour proposer un algorithme heuristique en ligne qui est adapté à supporter le placement sur des infrastructures distribuées à grande échelle tout en intégrant des contraintes spécifiques au bord du réseau. Les résultats de l'évaluation montrent la bonne performance de l'heuristique qui résout le problème en quelques secondes dans un scénario à grande échelle. L'heuristique améliore également le taux d'acceptation des demandes de placement de tranches de réseau par rapport à une solution déterministe en ligne en utilisant l'ILP.Enfin, nous étudions l'utilisation de méthodes de ML, et plus particulièrement de DRL, pour améliorer l'extensibilité et l'automatisation du placement de tranches réseau en considérant une version multi-objectif du problème. Nous proposons d'abord un algorithme DRL pour le placement de tranches réseau qui s'appuie sur l'algorithme "Advantage Actor Critic" pour un apprentissage rapide, et sur les réseaux convolutionels de graphes pour l'extraction de propriétés. Ensuite, nous proposons une approche que nous appelons "Heuristically Assisted DRL" (HA-DRL), qui utilise des heuristiques pour contrôler l'apprentissage et l'exécution de l'agent DRL. Nous évaluons cette solution par des simulations dans des conditions de charge de réseau stationnaire, ensuite cyclique et enfin non-stationnaire. Les résultats de l'évaluation montrent que le contrôle par heuristique est un moyen efficace d'accélérer le processus d'apprentissage du DRL, et permet d'obtenir un gain substantiel dans l'utilisation des ressources, de réduire la dégradation des performances et d'être plus fiable en cas de changements imprévisibles de la charge du réseau que les algorithmes DRL non contrôlés
This PhD thesis investigates how to optimize Network Slice Placement in distributed large-scale infrastructures focusing on online heuristic and Deep Reinforcement Learning (DRL) based approaches. First, we rely on Integer Linear Programming (ILP) to propose a data model for enabling on-Edge and on-Network Slice Placement. In contrary to most studies related to placement in the NFV context, the proposed ILP model considers complex Network Slice topologies and pays special attention to the geographic location of Network Slice Users and its impact on the End-to-End (E2E) latency. Extensive numerical experiments show the relevance of taking into account the user location constraints. Then, we rely on an approach called the “Power of Two Choices"(P2C) to propose an online heuristic algorithm for the problem which is adapted to support placement on large-scale distributed infrastructures while integrating Edge-specific constraints. The evaluation results show the good performance of the heuristic that solves the problem in few seconds under a large-scale scenario. The heuristic also improves the acceptance ratio of Network Slice Placement Requests when compared against a deterministic online ILP-based solution. Finally, we investigate the use of ML methods, more specifically DRL, for increasing scalability and automation of Network Slice Placement considering a multi-objective optimization approach to the problem. We first propose a DRL algorithm for Network Slice Placement which relies on the Advantage Actor Critic algorithm for fast learning, and Graph Convolutional Networks for feature extraction automation. Then, we propose an approach we call Heuristically Assisted Deep Reinforcement Learning (HA-DRL), which uses heuristics to control the learning and execution of the DRL agent. We evaluate this solution trough simulations under stationary, cycle-stationary and non-stationary network load conditions. The evaluation results show that heuristic control is an efficient way of speeding up the learning process of DRL, achieving a substantial gain in resource utilization, reducing performance degradation, and is more reliable under unpredictable changes in network load than non-controlled DRL algorithms

Estilos ABNT, Harvard, Vancouver, APA, etc.

6

Tsafack, Chetsa Ghislain Landry. "Profilage système et leviers verts pour les infrastructures distribuées à grande échelle". Phd thesis, Ecole normale supérieure de lyon - ENS LYON, 2013. http://tel.archives-ouvertes.fr/tel-00925320.

Texto completo da fonte

Resumo:

De nos jours, réduire la consommation énergétique des infrastructures de calcul à grande échelle est devenu un véritable challenge aussi bien dans le monde académique qu'industriel. Ceci est justifié par les nombreux efforts visant à réduire la consommation énergétique de ceux-ci. Ces efforts peuvent sans nuire à la généralité être divisés en deux groupes : les approches matérielles et les approches logicielles. Contrairement aux approches matérielles, les approches logicielles connaissent très peu de succès à cause de leurs complexités. En effet, elles se focalisent sur les applications et requièrent souvent une très bonne compréhension des solutions proposées et/ou de l'application considérée. Ce fait restreint leur utilisation à un nombre limité d'experts puisqu'en général les utilisateurs n'ont pas les compétences nécessaires à leurs implémentation. Aussi, les solutions actuelles en plus de leurs complexités de déploiement ne prennent en compte que le processeur alors que les composants tel que la mémoire, le stockage et le réseau sont eux aussi de gros consommateurs d'énergie. Cette thèse propose une méthodologie de réduction de la consommation énergétique des infrastructures de calcul à grande échelle. Elaborée en trois étapes à savoir : (i) détection de phases, (ii) caractérisation de phases détectées et (iii) identification de phases et reconfiguration du système ; elle s'abstrait de toute application en se focalisant sur l'infrastructure dont elle analyse le comportement au cours de son fonctionnement afin de prendre des décisions de reconfiguration. La méthodologie proposée est implémentée et évaluée sur des grappes de calcul à haute performance de tailles variées par le biais de MREEF (Multi-Resource Energy Efficient Framework). MREEF implémente la méthodologie de réduction énergétique de manière à permettre aux utilisateurs d'implémenter leurs propres mécanismes de reconfiguration du système en fonction des besoins. Les résultats expérimentaux montrent que la méthodologie proposée réduit la consommation énergétique de 24% pour seulement une perte de performance de moins de 7%. Ils montrent aussi que pour réduire la consommation énergétique des systèmes, on peut s'appuyer sur les sous-systèmes tels que les sous-systèmes de stockage et de communication. Nos validations montrent que notre méthodologie s'étend facilement à un grand nombre de grappes de calcul sensibles à l'énergie (energy aware). L'extension de MREEF dans les environnements virtualisés tel que le cloud montre que la méthodologie proposée peut être utilisée dans beaucoup d'autres environnements de calcul.

Estilos ABNT, Harvard, Vancouver, APA, etc.

7

Capizzi, Sirio <1980&gt. "A tuple space implementation for large-scale infrastructures". Doctoral thesis, Alma Mater Studiorum - Università di Bologna, 2008. http://amsdottorato.unibo.it/914/1/Tesi_Capizzi_Sirio.pdf.

Texto completo da fonte

Resumo:

Coordinating activities in a distributed system is an open research topic. Several models have been proposed to achieve this purpose such as message passing, publish/subscribe, workflows or tuple spaces. We have focused on the latter model, trying to overcome some of its disadvantages. In particular we have applied spatial database techniques to tuple spaces in order to increase their performance when handling a large number of tuples. Moreover, we have studied how structured peer to peer approaches can be applied to better distribute tuples on large networks. Using some of these result, we have developed a tuple space implementation for the Globus Toolkit that can be used by Grid applications as a coordination service. The development of such a service has been quite challenging due to the limitations imposed by XML serialization that have heavily influenced its design. Nevertheless, we were able to complete its implementation and use it to implement two different types of test applications: a completely parallelizable one and a plasma simulation that is not completely parallelizable. Using this last application we have compared the performance of our service against MPI. Finally, we have developed and tested a simple workflow in order to show the versatility of our service.

Estilos ABNT, Harvard, Vancouver, APA, etc.

8

Capizzi, Sirio <1980&gt. "A tuple space implementation for large-scale infrastructures". Doctoral thesis, Alma Mater Studiorum - Università di Bologna, 2008. http://amsdottorato.unibo.it/914/.

Texto completo da fonte

Resumo:

Coordinating activities in a distributed system is an open research topic. Several models have been proposed to achieve this purpose such as message passing, publish/subscribe, workflows or tuple spaces. We have focused on the latter model, trying to overcome some of its disadvantages. In particular we have applied spatial database techniques to tuple spaces in order to increase their performance when handling a large number of tuples. Moreover, we have studied how structured peer to peer approaches can be applied to better distribute tuples on large networks. Using some of these result, we have developed a tuple space implementation for the Globus Toolkit that can be used by Grid applications as a coordination service. The development of such a service has been quite challenging due to the limitations imposed by XML serialization that have heavily influenced its design. Nevertheless, we were able to complete its implementation and use it to implement two different types of test applications: a completely parallelizable one and a plasma simulation that is not completely parallelizable. Using this last application we have compared the performance of our service against MPI. Finally, we have developed and tested a simple workflow in order to show the versatility of our service.

Estilos ABNT, Harvard, Vancouver, APA, etc.

9

Quinson, Martin. "Méthodologies d'expérimentation pour l'informatique distribuée à large échelle". Habilitation à diriger des recherches, Université de Lorraine, 2013. http://tel.archives-ouvertes.fr/tel-00927316.

Texto completo da fonte

Resumo:

Bien qu'omniprésents dans notre société, les systèmes informatiques distribués de très grande taille restent extrêmement difficiles à étudier et à évaluer. Ils agrègent des millions d'éléments hétérogènes dans des hiérarchies complexes afin de fournir une puissance de traitement et de stockage toujours accrue. Ces artéfacts, parmi les plus complexes jamais construits, posent un défi méthodologique nouveau en architecture des systèmes informatiques : l'approche réductionniste visant à expliquer le système au travers des interactions entre ses parties ne suffit plus à appréhender la complexité de ces systèmes. L'approche expérimentale s'impose alors avec une force nouvelle. Ce document présente mes recherches sur la résolution pratique de ces problèmes méthodologiques. La plupart de ces travaux ont été implémentés dans l'environnement SimGrid. Cet instrument scientifique permet l'étude des performances des systèmes distribués au travers de simulations réalistes. La première partie présente nos contributions aux performances de SimGrid grâce entre autres à une nouvelle approche de parallélisation des simulateurs de DES (Discrete-Event Systems). La seconde partie détaille nos travaux pour faire converger l'étude des performances et celle de la correction des systèmes au sein du même environnement, au travers de l'intégration d'un model checker complet à SimGrid. Enfin, nous étendons dans la troisième partie le champ d'application de SimGrid à des applications réelles.

Estilos ABNT, Harvard, Vancouver, APA, etc.

10

Griesner, Jean-Benoit. "Systèmes de recommandation de POI à large échelle". Electronic Thesis or Diss., Paris, ENST, 2018. http://www.theses.fr/2018ENST0037.

Texto completo da fonte

Resumo:

La recommandation de points d’intérêts (POI) est une composante essentielle des réseaux sociaux géolocalisés. Cette tâche pose de nouveaux défis dûs aux contraintes spécifiques de ces réseaux. Cette thèse étudie de nouvelles solutions au problème de la recommandation personnalisée de POI. Trois contributions sont proposées dans ce travail. La première contribution est un nouveau modèle de factorisation de matrices qui intègre les influences géographique et temporelle. Ce modèle s’appuie sur un traitement spécifique des données. La deuxième contribution est une nouvelle solution au problème dit du feedback implicite. Ce problème correspond à la difficulté à distinguer parmi les POI non visités, les POI dont l’utilisateur ignore l’existence des POI qui ne l’intéressent pas. Enfin la troisième contribution de cette thèse est une méthode pour générer des recommandations à large échelle. Cette approche combine un algorithme de clustering géographique avec l’influence sociale des utilisateurs à différentes échelles de mobilité
The task of points-of-interest (POI) recommendations has become an essential feature in location-based social networks. However it remains a challenging problem because of specific constraints of these networks. In this thesis I investigate new approaches to solve the personalized POI recommendation problem. Three main contributions are proposed in this work. The first contribution is a new matrix factorization model that integrates geographical and temporal influences. This model is based on a specific processing of geographical data. The second contribution is an innovative solution against the implicit feedback problem. This problem corresponds to the difficulty to distinguish among unvisited POI the actual "unknown" from the "negative" ones. Finally the third contribution of this thesis is a new method to generate recommendations with large-scale datasets. In this approach I propose to combine a new geographical clustering algorithm with users’ implicit social influences in order to define local and global mobility scales

Estilos ABNT, Harvard, Vancouver, APA, etc.

11

Ludinard, Romaric. "Caractérisation locale de fautes dans les systèmes large échelle". Thesis, Rennes 1, 2014. http://www.theses.fr/2014REN1S065/document.

Texto completo da fonte

Resumo:

Internet est un réseau de réseaux permettant la mise en œuvre de divers services consommés par les utilisateurs. Malheureusement, chacun des éléments présents dans le réseau ou impliqués dans ces services peut potentiellement exhiber des défaillances. Une défaillance peut être perçue par un nombre variable d'utilisateurs suivant la localisation dans le système de la source de celle-Ci. Cette thèse propose un ensemble de contributions visant à déterminer du point de vue d'un utilisateur percevant une défaillance, si celle-Ci est perçue par un faible nombre d'utilisateurs (défaillance isolée) ou à l'inverse par un très grand nombre d'utilisateurs (défaillance massive). Nous formalisons dans un premier temps les défaillances par leur impact sur la perception des services consommés par les utilisateurs. Nous montrons ainsi qu'il est impossible, du point de vue d'un utilisateur, de déterminer de manière certaine si une défaillance perçue est isolée ou massive. Cependant, il possible de déterminer de manière certaine pour chaque utilisateur, s'il a perçu une défaillance isolée, massive, ou s'il est impossible de le déterminer. Cette caractérisation est optimale et totalement parallélisable. Dans un second temps, nous proposons une architecture pour la caractérisation de fautes. Les entités du système s'organisent au sein d'une structure à deux niveaux permettant de regrouper ensemble les entités ayant des perceptions similaires et ainsi mener à bien l'approche proposée. Enfin, une analyse probabiliste de la résistance au dynamisme et aux comportements malveillants du second niveau de cette architecture complète ce document
The Internet is a global system of interconnected computer networks that carries lots of services consumed by users. Unfortunately, each element this system may exhibit failures. A failure can be perceived by a variable range of users, according to the location of the failure source. This thesis proposes a set of contributions that aims at determining from a user perception if a failure is perceived by a few number of users (isolated failure) or in contrast by lots of them (massive failure). We formalize failures with respect to their impact on the services that are consumed by users. We show that it is impossible to determine with certainty if a user perceives a local or a massive failure, from the user point of view. Nevertheless, it is possible to determine for each user whether it perceives a local failure, a massive one or whether it is impossible to determine. This characterization is optimal and can be run in parallel. Then, we propose a self-Organizing architecture for fault characterization. Entities of the system organize themselves in a two-Layered overlay that allows to gather together entities with similar perception. This gathering allows us to successfully apply our characterization. Finally, a probabilistic evaluation of the resilience to dynamism and malicious behaviors of this architecture is performed

Estilos ABNT, Harvard, Vancouver, APA, etc.

12

Vouzoukidou, Despoina. "Evaluation de requêtes top-k continues à large-échelle". Thesis, Paris 6, 2015. http://www.theses.fr/2015PA066659/document.

Texto completo da fonte

Resumo:

Dans cette thèse, nous nous intéressons à l'évaluation efficace de requêtes top-k continues sur des flux d'informations textuelles avec des feedbacks utilisateurs. La première contribution est une généralisation des modèles de requêtes top-k continues proposés dans l'état de l'art. Cette généralisation est fondée sur une famille des scores non-homogènes définis comme une combinaison linéaire de scores d'importance de l'information (indépendants des requêtes) et de scores de pertinence du contenu avec une décroissance continue de score reflétant la fraîcheur de l'information. La deuxième contribution est la définition et la mise en ¿uvre de structures de données en mémoire pour l'indexation et l'évaluation de cette nouvelle famille de requêtes top-k continues. Nos expériences montrent que notre solution est évolutive et, limitées aux fonctions homogènes, surpasse les performances d'autres solutions. Dans la deuxième partie de cette thèse, nous considérons le problème de l'intégration des signaux de feedback à notre famille de scores non-homogènes. Nous proposons un nouveau cadre général pour l'évaluation de ces requêtes du "web en temps réel" (real-time web queries) avec un ensemble d'algorithmes minimisant le coût d'évaluation d'un signal de feedback utilisateur dynamique sur un item d'information. Enfin, nous présentons MeowsReader, notre prototype de recommandation d'actualités qui intègre l'ensemble des résultats obtenus et illustre comment une classe générale de requêtes continues top-k propose une abstraction appropriée pour la modélisation et le filtrage continu d'information sur le web "temps-réel"
In this thesis, we are interested in efficient evaluation techniques of continuous top-k queries over text and feedback streams featuring generalized scoring functions which capture dynamic ranking aspects. As a first contribution, we generalize state of the art continuous top-k query models, by introducing a general family of non-homogeneous scoring functions combining query-independent item importance with query-dependent content relevance and continuous score decay reflecting information freshness. Our second contribution consists in the definition and implementation of efficient in-memory data structures for indexing and evaluating this new family of continuous top-k queries. Our experiments show that our solution is scalable and outperforms other existing state of the art solutions, when restricted to homogeneous functions. Going a step further, in the second part of this thesis we consider the problem of incorporating dynamic feedback signals to the original scoring function and propose a new general real-time query evaluation framework with a family of new algorithms for efficiently processing continuous top-k queries with dynamic feedback scores in a real-time web context. Finally, putting together the outcomes of these works, we present MeowsReader, a real-time news ranking and filtering prototype which illustrates how a general class of continuous top-k queries offers a suitable abstraction for modelling and implementing continuous online information filtering applications combining keyword search and real-time web activity

Estilos ABNT, Harvard, Vancouver, APA, etc.

13

Vouzoukidou, Despoina. "Evaluation de requêtes top-k continues à large-échelle". Electronic Thesis or Diss., Paris 6, 2015. http://www.theses.fr/2015PA066659.

Texto completo da fonte

Resumo:

Dans cette thèse, nous nous intéressons à l'évaluation efficace de requêtes top-k continues sur des flux d'informations textuelles avec des feedbacks utilisateurs. La première contribution est une généralisation des modèles de requêtes top-k continues proposés dans l'état de l'art. Cette généralisation est fondée sur une famille des scores non-homogènes définis comme une combinaison linéaire de scores d'importance de l'information (indépendants des requêtes) et de scores de pertinence du contenu avec une décroissance continue de score reflétant la fraîcheur de l'information. La deuxième contribution est la définition et la mise en ¿uvre de structures de données en mémoire pour l'indexation et l'évaluation de cette nouvelle famille de requêtes top-k continues. Nos expériences montrent que notre solution est évolutive et, limitées aux fonctions homogènes, surpasse les performances d'autres solutions. Dans la deuxième partie de cette thèse, nous considérons le problème de l'intégration des signaux de feedback à notre famille de scores non-homogènes. Nous proposons un nouveau cadre général pour l'évaluation de ces requêtes du "web en temps réel" (real-time web queries) avec un ensemble d'algorithmes minimisant le coût d'évaluation d'un signal de feedback utilisateur dynamique sur un item d'information. Enfin, nous présentons MeowsReader, notre prototype de recommandation d'actualités qui intègre l'ensemble des résultats obtenus et illustre comment une classe générale de requêtes continues top-k propose une abstraction appropriée pour la modélisation et le filtrage continu d'information sur le web "temps-réel"
In this thesis, we are interested in efficient evaluation techniques of continuous top-k queries over text and feedback streams featuring generalized scoring functions which capture dynamic ranking aspects. As a first contribution, we generalize state of the art continuous top-k query models, by introducing a general family of non-homogeneous scoring functions combining query-independent item importance with query-dependent content relevance and continuous score decay reflecting information freshness. Our second contribution consists in the definition and implementation of efficient in-memory data structures for indexing and evaluating this new family of continuous top-k queries. Our experiments show that our solution is scalable and outperforms other existing state of the art solutions, when restricted to homogeneous functions. Going a step further, in the second part of this thesis we consider the problem of incorporating dynamic feedback signals to the original scoring function and propose a new general real-time query evaluation framework with a family of new algorithms for efficiently processing continuous top-k queries with dynamic feedback scores in a real-time web context. Finally, putting together the outcomes of these works, we present MeowsReader, a real-time news ranking and filtering prototype which illustrates how a general class of continuous top-k queries offers a suitable abstraction for modelling and implementing continuous online information filtering applications combining keyword search and real-time web activity

Estilos ABNT, Harvard, Vancouver, APA, etc.

14

Gueye, Modou. "Gestion de données de recommandation à très large échelle". Electronic Thesis or Diss., Paris, ENST, 2014. http://www.theses.fr/2014ENST0083.

Texto completo da fonte

Resumo:

Cette thèse s'intéresse à la problématique de passage à l'échelle des systèmes de recommandations. Dans ce cadre, nous proposons deux algorithmes de recommandation passant à l'échelle tout en délivrant une bonne qualité de recommandation. Dans nos premiers travaux, nous considérons l'utilisation de la factorisation de matrice pour prédire les avis des utilisateurs dans des contextes dynamiques où les utilisateurs soumettent sans cesse de nouveaux avis sur des objets. Il est difficile d'y tenir un modèle de prédiction à jour. Nous proposons un modèle de factorisation utilisant plusieurs biais locaux décrivant de façon plus élaborée les comportements des utilisateurs. Leur coût de calcul faible permet de les ajuster à la volée, lorsque de nouvelles notes arrivent. Ils assurent ainsi la robustesse du modèle dans un contexte dynamique, tout en garantissant une meilleure qualité au cours le temps. Nous nous sommes aussi intéressés à la recommandation de tags dans les réseaux sociaux. Notre proposition s'appuie sur l'algorithme des plus proches voisins. Cependant, nous déterminons dynamiquement le nombre optimal de voisins à utiliser. Notre approche prend en compte les avis des voisins indirects en étendant la relation de proximité entre les utilisateurs. Nos expérimentations ont démontré l'efficacité de cette approche qui peut être adaptée à bien d'autres types de recommandation. Enfin, nous proposons une technique d'optimisation du nombre d'objets à recommander en fonction du contexte. L'idée étant ici de chercher le nombre optimal d'objets à proposer à l'utilisateur, de telle sorte que la probabilité qu'il les choisisse tous soit la plus élevée
In this thesis, we address the scalability problem of recommender systems. We propose accu rate and scalable algorithms. We first consider the case of matrix factorization techniques in a dynamic context, where new ratings..are continuously produced. ln such case, it is not possible to have an up to date model, due to the incompressible time needed to compute it. This happens even if a distributed technique is used for matrix factorization. At least, the ratings produced during the model computation will be missing. Our solution reduces the loss of the quality of the recommendations over time, by introducing some stable biases which track users' behavior deviation. These biases are continuously updated with the new ratings, in order to maintain the quality of recommendations at a high leve for a longer time. We also consider the context of online social networks and tag recommendation. We propose an algorithm that takes account of the popularity of the tags and the opinions of the users' neighborhood. But, unlike common nearest neighbors' approaches, our algorithm doe not rely on a fixed number of neighbors when computing a recommendation. We use a heuristic that bounds the network traversai in a way that allows to faster compute the recommendations while preserving the quality of the recommendations. Finally, we propose a novel approach that improves the accuracy of the recommendations for top-k algorithms. Instead of a fixed list size, we adjust the number of items to recommend in a way that optimizes the likelihood that ail the recommended items will be chosen by the user, and find the best candidate sub-list to recommend to the user

Estilos ABNT, Harvard, Vancouver, APA, etc.

15

Gattoni, Gaia. "Analysis of the infrastructures to build immersive visit at large scale". Master's thesis, Alma Mater Studiorum - Università di Bologna, 2022.

Encontre o texto completo da fonte

Resumo:

This thesis aims to introduce some relevant notion to demonstrate how digital innovation may benefit all phases of the development of a construction project. It has proven possible, through the use of the BIM technique, to optimize the design, construction, and administration phases of structures. With the aid of virtual reality, it is feasible to reproduce a complete immersion experience of the structure during the design phase. The two scenarios illustrated in this thesis need to be considered as two different approaches to technological innovation. From LaVallée project, the first scenario, it can be stated that the BIM methodology applied in this context and then expanded to the concept of CIM is essential for the district's construction. The purpose is to predict and describe the quality of the environment and urban spaces in a project situation and to validate the results obtained. In order to do this, it is necessary to create an immersive visit with 3D modeling of the LaVallée area using BIM data, where these data are collected from different project partners in IFC format. With all of the information I gained from this study, I was able to employ the abilities to a different scenario: the Rimini port. The goal of this final part, is to reconstruct a three-dimensional visualization starting from a very basic level of information, which means looking for methods and tools that can easily represent a virtual visit through the use of 2D data.

Estilos ABNT, Harvard, Vancouver, APA, etc.

16

Tsafack, Chetsa Ghislain Landry. "System Profiling and Green Capabilities for Large Scale and Distributed Infrastructures". Phd thesis, Ecole normale supérieure de lyon - ENS LYON, 2013. http://tel.archives-ouvertes.fr/tel-00946583.

Texto completo da fonte

Resumo:

Nowadays, reducing the energy consumption of large scale and distributed infrastructures has truly become a challenge for both industry and academia. This is corroborated by the many efforts aiming to reduce the energy consumption of those systems. Initiatives for reducing the energy consumption of large scale and distributed infrastructures can without loss of generality be broken into hardware and software initiatives.Unlike their hardware counterpart, software solutions to the energy reduction problem in large scale and distributed infrastructures hardly result in real deployments. At the one hand, this can be justified by the fact that they are application oriented. At the other hand, their failure can be attributed to their complex nature which often requires vast technical knowledge behind proposed solutions and/or thorough understanding of applications at hand. This restricts their use to a limited number of experts, because users usually lack adequate skills. In addition, although subsystems including the memory are becoming more and more power hungry, current software energy reduction techniques fail to take them into account. This thesis proposes a methodology for reducing the energy consumption of large scale and distributed infrastructures. Broken into three steps known as (i) phase identification, (ii) phase characterization, and (iii) phase identification and system reconfiguration; our methodology abstracts away from any individual applications as it focuses on the infrastructure, which it analyses the runtime behaviour and takes reconfiguration decisions accordingly.The proposed methodology is implemented and evaluated in high performance computing (HPC) clusters of varied sizes through a Multi-Resource Energy Efficient Framework (MREEF). MREEF implements the proposed energy reduction methodology so as to leave users with the choice of implementing their own system reconfiguration decisions depending on their needs. Experimental results show that our methodology reduces the energy consumption of the overall infrastructure of up to 24% with less than 7% performance degradation. By taking into account all subsystems, our experiments demonstrate that the energy reduction problem in large scale and distributed infrastructures can benefit from more than "the traditional" processor frequency scaling. Experiments in clusters of varied sizes demonstrate that MREEF and therefore our methodology can easily be extended to a large number of energy aware clusters. The extension of MREEF to virtualized environments like cloud shows that the proposed methodology goes beyond HPC systems and can be used in many other computing environments.

Estilos ABNT, Harvard, Vancouver, APA, etc.

17

Keriven, Nicolas. "Apprentissage de modèles de mélange à large échelle par Sketching". Thesis, Rennes 1, 2017. http://www.theses.fr/2017REN1S055/document.

Texto completo da fonte

Resumo:

Les bases de données modernes sont de très grande taille, parfois divisées et distribuées sur plusieurs lieux de stockage, ou encore sous forme de flux de données : ceci soulève de nouveaux défis majeurs pour les méthodes d’apprentissage statistique. Une des méthodes récentes capable de s’adapter à ces situations consiste à d’abord compresser les données en une structure appelée sketch linéaire, puis ensuite de réaliser la tâche d’apprentissage en utilisant uniquement ce sketch, ce qui est extrêmement rapide si celui-ci est de petite taille. Dans cette thèse, nous définissons une telle méthode pour estimer un modèle de mélange de distributions de probabilités à partir des données, en utilisant uniquement un sketch de celles-ci. Ce sketch est défini en s’inspirant de plusieurs notions venant du domaine des méthodes à noyaux : le plongement par noyau moyen et les approximations aléatoires de noyaux. Défini comme tel, le sketch correspond à des mesures linéaires de la distribution de probabilité sous-jacente aux données. Ainsi nous analysons le problème en utilisant des outils venant du domaine de l’acquisition comprimée, dans lequel un signal est mesuré aléatoirement sans perte d’information, sous certaines conditions. Nous étendons certains résultats de l’acquisition comprimée à la dimension infinie, donnons des conditions génériques garantissant le succès de notre méthode d’estimation de modèles de mélanges, et les appliquons à plusieurs problèmes, dont notamment celui d’estimer des mélanges de distributions stables multivariées, pour lequel il n’existait à ce jour aucun estimateur. Notre analyse est basée sur la construction d’opérateurs de sketch construits aléatoirement, qui satisfont une Propriété d’Isométrie Restreinte dans l’espace de Banach des mesures finies signées avec forte probabilité. Dans une second partie, nous introduisons un algorithme glouton capable heuristiquement d’estimer un modèle de mélange depuis un sketch linéaire. Cet algorithme est appliqué sur données simulées et réelles à trois problèmes : l’estimation de centres significatifs dans les données, pour lequel on constate que la méthode de sketch est significativement plus rapide qu’un algorithme de k-moyennes classique, l’estimation de mélanges de Gaussiennes, pour lequel elle est plus rapide qu’un algorithme d’Espérance-Maximisation, et enfin l’estimation de mélange de distributions stables multivariées, pour lequel il n’existait à ce jour, à notre connaissance, aucun algorithme capable de réaliser une telle tâche
Learning parameters from voluminous data can be prohibitive in terms of memory and computational requirements. Furthermore, new challenges arise from modern database architectures, such as the requirements for learning methods to be amenable to streaming, parallel and distributed computing. In this context, an increasingly popular approach is to first compress the database into a representation called a linear sketch, that satisfies all the mentioned requirements, then learn the desired information using only this sketch, which can be significantly faster than using the full data if the sketch is small. In this thesis, we introduce a generic methodology to fit a mixture of probability distributions on the data, using only a sketch of the database. The sketch is defined by combining two notions from the reproducing kernel literature, namely kernel mean embedding and Random Features expansions. It is seen to correspond to linear measurements of the underlying probability distribution of the data, and the estimation problem is thus analyzed under the lens of Compressive Sensing (CS), in which a (traditionally finite-dimensional) signal is randomly measured and recovered. We extend CS results to our infinite-dimensional framework, give generic conditions for successful estimation and apply them analysis to many problems, with a focus on mixture models estimation. We base our method on the construction of random sketching operators such that some Restricted Isometry Property (RIP) condition holds in the Banach space of finite signed measures with high probability. In a second part we introduce a flexible heuristic greedy algorithm to estimate mixture models from a sketch. We apply it on synthetic and real data on three problems: the estimation of centroids from a sketch, for which it is seen to be significantly faster than k-means, Gaussian Mixture Model estimation, for which it is more efficient than Expectation-Maximization, and the estimation of mixtures of multivariate stable distributions, for which, to our knowledge, it is the only algorithm capable of performing such a task

Estilos ABNT, Harvard, Vancouver, APA, etc.

18

Reis, Valentin. "Apprentissage pour le contrôle de plateformes parallèles à large échelle". Thesis, Université Grenoble Alpes (ComUE), 2018. http://www.theses.fr/2018GREAM045/document.

Texto completo da fonte

Resumo:

Fournir les infrastructures de calcul nécessaires à la résolution des problèmescom-plexes de la société moderne constitue un défistratégique. Lesorganisations y répondent classiquement en mettant en place de largesinfrastructures de calcul parallèle et distribué. Les vendeurs de systèmes deCalcul Hautes Performances sont incités par la compétition à produire toujoursplus de puissance de calcul et de stockage, ce qui mène à des plateformes”Petascale“ spécifiques et sophistiquées, et bientôt à des machines”Exascale“. Ces systèmes sont gérés de manière centralisée à l’aide desolutions logicielles de gestion de jobs et de resources dédiées. Un problèmecrucial auquel répondent ces logiciels est le problème d’ordonnancement, pourlequel le gestionnaire de resources doit choisir quand, et sur quellesresources exécuter quelle tache calculatoire. Cette thèse fournit des solutionsà ce problème. Toutes les plateformes sont différentes. En effet, leurinfrastructure, le comportement de leurs utilisateurs et les objectifs del’organisation hôte varient. Nous soutenons donc que les politiquesd’ordonnancement doivent s’adapter au comportement des systèmes. Dans cemanuscrit, nous présentons plusieurs manières d’obtenir cette adaptativité. Atravers une approche expérimentale, nous étudions plusieurs compromis entre lacomplexité de l’approche, le gain potentiel, et les risques pris
Providing the computational infrastucture needed to solve complex problemsarising in modern society is a strategic challenge. Organisations usuallyadress this problem by building extreme-scale parallel and distributedplatforms. High Performance Computing (HPC) vendors race for more computingpower and storage capacity, leading to sophisticated specific Petascaleplatforms, soon to be Exascale platforms. These systems are centrally managedusing dedicated software solutions called Resource and Job Management Systems(RJMS). A crucial problem adressed by this software layer is the job schedulingproblem, where the RJMS chooses when and on which resources computational taskswill be executed. This manuscript provides ways to adress this schedulingproblem. No two platforms are identical. Indeed, the infrastructure, userbehavior and organization's goals all change from one system to the other. Wetherefore argue that scheduling policies should be adaptative to the system'sbehavior. In this manuscript, we provide multiple ways to achieve thisadaptativity. Through an experimental approach, we study various tradeoffsbetween the complexity of the approach, the potential gain, and the riskstaken

Estilos ABNT, Harvard, Vancouver, APA, etc.

19

Sellami, Sana. "Méthodologie de matching à large échelle pour des schémas XML". Lyon, INSA, 2009. http://theses.insa-lyon.fr/publication/2009ISAL0088/these.pdf.

Texto completo da fonte

Resumo:

De l’intégration des schémas de bases de données jusqu’à l’alignement d’ontologies, la problématique qui a suscité le plus de points ardus à résoudre cette dernière décennie est la recherche des correspondances. Nous nous intéressons plus particulièrement au matching. Le matching est un processus qui vise à identifier et découvrir les correspondances sémantiques entre différents formats de données tels que les schémas, les ontologies,… Cependant, dès que l’on passe à un contexte à large échelle, plusieurs problèmes se posent tels que. Les problèmes d'efficacité en termes de temps d'exécution et de qualité des résultats. L’objectif de notre travail est de relever le challenge du matching à grande échelle. En particulier, nous proposons une méthodologie de matching à large échelle, basée sur une approche hybride et structurée en trois phases (pré-matching, matching et post-matching), qui vise à optimiser le matching en s’appuyant notamment sur une phase préalable de prétraitement. Ce prétraitement se base sur des techniques d’analyse, de traitement linguistique des éléments des schémas et une approche de décomposition des schémas. La décomposition est une approche holistique qui consiste à diviser les schémas en sous schémas tout en identifiant ceux qui sont linguistiquement similaires. L’utilisation d’une telle approche nécessite des techniques qui passent à l’échelle et qui permettent un traitement d’un grand nombre de données en une seule fois. La méthodologie proposée est supportée par une plateforme nommée PLASMA (Platform for LArge Schema MAtching) que nous avons développée pour des besoins d’évaluation et d’expérimentations. Nous avons pu ainsi démontrer grâce aux expérimentations réalisées que notre système offre des résultats fiables pour des schémas très volumineux et que grâce à la méthodologie mise au point, nous avons réussi à améliorer les performances du matching en temps d’exécution
Nowadays, the Information Technology domains (semantic web, deep web, e-business, digital libraries, life science, biology, etc) abound with a large variety of DB schemas, XML schemas or ontologies stored in many heterogeneous databases and information sources. One can observe commonly in e-business applications for example schemas with several thousand elements and expressed in different formats. Thereby, a hard problem has been brought up: solving the semantic heterogeneity in the large and perform the integration of such heterogeneous collections of schemas and ontologies. Matching techniques are solutions to automatically find correspondences between these schemas/ontologies in order to allow their integration in information systems. More precisely, matching is an operation that takes as input (e. G XML schemas, ontologies, relational database schemas) and returns the semantic similarity values of their elements. Even if matching has found considerable interest in both research and practice “in the small”, it still represents a laborious process “in the large”. The standard approaches trying to match the complete input schemas often leads to shading off performance. Various schema matching systems have been developed to solve the problem semi-automatically. Since schema matching is a semi-automatic task, efficient implementations are required to support interactive user feedback. In this context, scalable matching becomes a hard problem to be solved. A number of approaches and principles have been developed for matching small or medium schemas and ontologies (50-100 components), whereas in practice, real world schemas/ ontologies are voluminous (hundred or thousand components). In consequence, matching algorithms are facing up to more complicated contexts. As a result, many problems can appear, for example: performance decreasing when the matching algorithms deal with large schemas/ontologies, their complexity becomes consequently exponential, increasing human effort and poor quality of matching results is observed. In this context, a major challenge that is still largely to be tackled is to scale up semantic matching according to two facets: a large number of schemas to be aligned or matched and very large schemas. While the former is primarily addressed in the database area, the latter has been addressed by researchers in schema and ontology matching. Based on this observation, we propose a new scalable methodology for schema matching. Our methodology supports ii) a hybrid approach trying to address the two facets based on the combination of pair-wise and holistic strategies and is deployed in three phases (pre-matching, matching and post-matching; ii) a decomposition strategy to divide large XML schemas into small ones using tree mining technique. Our methodology has been evaluated and implemented in PLASMA (Platform for LArge Schema MAtching) prototype specifically developed to this aim. Our experiments on real world schemas show that PLASMA offers a good quality of matching and the proposed decomposition approach improves the performance of schema matching

Estilos ABNT, Harvard, Vancouver, APA, etc.

20

Dang, Quang Vinh. "Évaluation de la confiance dans la collaboration à large échelle". Thesis, Université de Lorraine, 2018. http://www.theses.fr/2018LORR0002/document.

Texto completo da fonte

Resumo:

Les systèmes collaboratifs à large échelle, où un grand nombre d’utilisateurs collaborent pour réaliser une tâche partagée, attirent beaucoup l’attention des milieux industriels et académiques. Bien que la confiance soit un facteur primordial pour le succès d’une telle collaboration, il est difficile pour les utilisateurs finaux d’évaluer manuellement le niveau de confiance envers chaque partenaire. Dans cette thèse, nous étudions le problème de l’évaluation de la confiance et cherchons à concevoir un modèle de confiance informatique dédiés aux systèmes collaboratifs. Nos travaux s’organisent autour des trois questions de recherche suivantes. 1. Quel est l’effet du déploiement d’un modèle de confiance et de la représentation aux utilisateurs des scores obtenus pour chaque partenaire ? Nous avons conçu et organisé une expérience utilisateur basée sur le jeu de confiance qui est un protocole d’échange d’argent en environnement contrôlé dans lequel nous avons introduit des notes de confiance pour les utilisateurs. L’analyse détaillée du comportement des utilisateurs montre que: (i) la présentation d’un score de confiance aux utilisateurs encourage la collaboration entre eux de manière significative, et ce, à un niveau similaire à celui de l’affichage du surnom des participants, et (ii) les utilisateurs se conforment au score de confiance dans leur prise de décision concernant l’échange monétaire. Les résultats suggèrent donc qu’un modèle de confiance peut être déployé dans les systèmes collaboratifs afin d’assister les utilisateurs. 2. Comment calculer le score de confiance entre des utilisateurs qui ont déjà collaboré ? Nous avons conçu un modèle de confiance pour les jeux de confiance répétés qui calcule les scores de confiance des utilisateurs en fonction de leur comportement passé. Nous avons validé notre modèle de confiance en relativement à: (i) des données simulées, (ii) de l’opinion humaine et (iii) des données expérimentales réelles. Nous avons appliqué notre modèle de confiance à Wikipédia en utilisant la qualité des articles de Wikipédia comme mesure de contribution. Nous avons proposé trois algorithmes d’apprentissage automatique pour évaluer la qualité des articles de Wikipédia: l’un est basé sur une forêt d’arbres décisionnels tandis que les deux autres sont basés sur des méthodes d’apprentissage profond. 3. Comment prédire la relation de confiance entre des utilisateurs qui n’ont pas encore interagi ? Etant donné un réseau dans lequel les liens représentent les relations de confiance/défiance entre utilisateurs, nous cherchons à prévoir les relations futures. Nous avons proposé un algorithme qui prend en compte les informations temporelles relatives à l’établissement des liens dans le réseau pour prédire la relation future de confiance/défiance des utilisateurs. L’algorithme proposé surpasse les approches de la littérature pour des jeux de données réels provenant de réseaux sociaux dirigés et signés
Large-scale collaborative systems wherein a large number of users collaborate to perform a shared task attract a lot of attention from both academic and industry. Trust is an important factor for the success of a large-scale collaboration. It is difficult for end-users to manually assess the trust level of each partner in this collaboration. We study the trust assessment problem and aim to design a computational trust model for collaborative systems. We focused on three research questions. 1. What is the effect of deploying a trust model and showing trust scores of partners to users? We designed and organized a user-experiment based on trust game, a well-known money-exchange lab-control protocol, wherein we introduced user trust scores. Our comprehensive analysis on user behavior proved that: (i) showing trust score to users encourages collaboration between them significantly at a similar level with showing nick- name, and (ii) users follow the trust score in decision-making. The results suggest that a trust model can be deployed in collaborative systems to assist users. 2. How to calculate trust score between users that experienced a collaboration? We designed a trust model for repeated trust game that computes user trust scores based on their past behavior. We validated our trust model against: (i) simulated data, (ii) human opinion, and (iii) real-world experimental data. We extended our trust model to Wikipedia based on user contributions to the quality of the edited Wikipedia articles. We proposed three machine learning approaches to assess the quality of Wikipedia articles: the first one based on random forest with manually-designed features while the other two ones based on deep learning methods. 3. How to predict trust relation between users that did not interact in the past? Given a network in which the links represent the trust/distrust relations between users, we aim to predict future relations. We proposed an algorithm that takes into account the established time information of the links in the network to predict future user trust/distrust relationships. Our algorithm outperforms state-of-the-art approaches on real-world signed directed social network datasets

Estilos ABNT, Harvard, Vancouver, APA, etc.

21

Le, Merrer Erwan. "Protocoles décentralisés pour la gestion de réseaux logiques large-échelle". Rennes 1, 2007. ftp://ftp.irisa.fr/techreports/theses/2007/lemerrer.pdf.

Texto completo da fonte

Resumo:

Notre cadre est celui des réseaux logiques, dynamiques et large échelle. Nous nous intéressons aux méthodes de remontée d'information, à des fins d'administration ou de surveillance. Après un état de l'art concernant les techniques de maintien du service rendu, nous présentons quatre protocoles mesurant des caractéristiques clés du réseau. Nous proposons une méthode d'échantillonnage uniforme de noeuds, reposant sur une marche aléatoire. Nous apportons ensuite deux techniques permettant l'estimation de la taille d'un réseau. La première méthode repose sur une marche aléatoire, la seconde emploie le renversement du paradoxe des anniversaires. Nous procédons à un comparatif de ces deux méthodes, puis de la plus adaptée avec deux solutions de l'état de l'art. Nous abordons également le problème du placement de répliquas, pour des services potentiellement fortement sollicités. Nous apportons enfin la première méthode d'estimation distribuée de la dynamique des noeuds du réseau logique
We focus on large scale distributed and dynamic systems. We are interested in methods that get information from the network, for monitoring and administration purposes. After surveying related work about techniques that assure the service maintenance, we present four protocols which are aimed to mesure key characteristics about the overlay. We introduce an uniform sampling method, based on a random walk. We then present two techniques aimed at estimate the syze of a system. The first method rely on a random walk, and the second one use the birthday paradox reversal. A comparative study is driven, and finally the best one is compared with other techniques of the related work. We also worked on the replica placement issue, for potentially highly used services. Finally we introduce, to the best of our knowledge, the first distributed estimation method on the arrivals and departures dynamics on the network

Estilos ABNT, Harvard, Vancouver, APA, etc.

22

Yahiaoui, Houssame. "Simulation à large échelle des instabilités du routage inter-domaine". Versailles-St Quentin en Yvelines, 2011. http://www.theses.fr/2011VERS0056.

Texto completo da fonte

Resumo:

Dans cette thèse, nous abordons l'étude et la résolution des instabilités du routage inter-domaine sous l'angle de la simulation a large échelle. Depuis plus de quinze ans, cette infrastructure souffre d'importants problèmes d'instabilité et de fiabilité, qui subsistent encore. Nous proposons un nouvel environnement de simulation des instabilités du routage inter-domaine, permettant l'analyse des causes des instabilités, ainsi que l'expérimentation de méthodes d'améliorations de BGP. La combinaison d'un simulateur à large échelle du protocole, et l'utilisation de topologies et politiques de routage inférées à partir de données de voisinage sur le réseau inter-domaine, est à même de reproduire qualitativement les instabilités constatées dans le réseau inter-domaine réel. Cet environnement offre un champ d'étude et d'essai fidèle à la réalité, puisqu'il est capable de reproduire les trois caractéristiques principales de l'infrastructure du routage inter-domaine, à savoir l'échelle de fonctionnement de BGP (plus de 20000 AS), l'instabilité omniprésente, et l'hétérogénéité des acteurs du routage inter-domaine. Nous avons également étudié les effets de certaines variations pathologiques du trafic utilisateur, sur le routage inter-domaine. Nous nous sommes attachés à l'étude des effets des propagations de certains codes malveillants sur les routeurs BGP. Nous avons abouti a une modélisation, permettant de quantifier ces effets, et donc de reproduire les variations de charge affectant BGP, dans l'environnement de simulation que nous proposons
In this thesis, we discuss the study and resolution of inter-domain routing instabilities using large scale simulation. For over fifteen years now, the inter-domain infrastructure has been suffering from serious problems of instability and reliability, still unsolved. We propose a new environment for simulating inter-domain routing instabilities, that allows analysis of instability causes, as well as experimenting with BGP improvement methods. The combination of a large-scale simulator of the BGP protocol and the use of topologies and routing policies inferred from real inter-domain neighborhood data, allows to reproduce, qualitatively, some real-life instabilities in a controlled environment. This environment provides a field of study and testing faithful to reality, since it can reproduce the three main characteristics of inter-domain routing infrastructure: large scale topologies, persistent instability and network heterogeneity. We also studied the effects of certain pathological changes of user traffic on the inter-domain routing. By modeling the effects of certain malicious code spread on BGP routers, we could quantify these effects. This model could be used to reproduce worm-induced load changes in the proposed simulation environment, to measure its impact on routing instability

Estilos ABNT, Harvard, Vancouver, APA, etc.

23

Moise, Diana Maria. "Optimisation de la gestion des données pour les applications MapReduce sur des infrastructures distribuées à grande échelle". Phd thesis, École normale supérieure de Cachan - ENS Cachan, 2011. http://tel.archives-ouvertes.fr/tel-00696062.

Texto completo da fonte

Resumo:

Les applications data-intensive sont largement utilisées au sein de domaines diverses dans le but d'extraire et de traiter des informations, de concevoir des systèmes complexes, d'effectuer des simulations de modèles réels, etc. Ces applications posent des défis complexes tant en termes de stockage que de calcul. Dans le contexte des applications data-intensive, nous nous concentrons sur le paradigme MapReduce et ses mises en oeuvre. Introduite par Google, l'abstraction MapReduce a révolutionné la communauté intensif de données et s'est rapidement étendue à diverses domaines de recherche et de production. Une implémentation domaine publique de l'abstraction mise en avant par Google, a été fournie par Yahoo à travers du project Hadoop. Le framework Hadoop est considéré l'implémentation de référence de MapReduce et est actuellement largement utilisé à des fins diverses et sur plusieurs infrastructures. Nous proposons un système de fichiers distribué, optimisé pour des accès hautement concurrents, qui puisse servir comme couche de stockage pour des applications MapReduce. Nous avons conçu le BlobSeer File System (BSFS), basé sur BlobSeer, un service de stockage distribué, hautement efficace, facilitant le partage de données à grande échelle. Nous étudions également plusieurs aspects liés à la gestion des données intermédiaires dans des environnements MapReduce. Nous explorons les contraintes des données intermédiaires MapReduce à deux niveaux: dans le même job MapReduce et pendant l'exécution des pipelines d'applications MapReduce. Enfin, nous proposons des extensions de Hadoop, un environnement MapReduce populaire et open-source, comme par example le support de l'opération append. Ce travail inclut également l'évaluation et les résultats obtenus sur des infrastructures à grande échelle: grilles informatiques et clouds.

Estilos ABNT, Harvard, Vancouver, APA, etc.

24

Moise, Diana. "Optimisation de la gestion des données pour les applications MapReduce sur des infrastructures distribuées à grande échelle". Phd thesis, École normale supérieure de Cachan - ENS Cachan, 2011. http://tel.archives-ouvertes.fr/tel-00653622.

Texto completo da fonte

Resumo:

Les applications data-intensive sont largement utilisées au sein de domaines diverses dans le but d'extraire et de traiter des informations, de concevoir des systèmes complexes, d'effectuer des simulations de modèles réels, etc. Ces applications posent des défis complexes tant en termes de stockage que de calcul. Dans le contexte des applications data-intensive, nous nous concentrons sur le paradigme MapReduce et ses mises en oeuvre. Introduite par Google, l'abstraction MapReduce a révolutionné la communauté data-intensive et s'est rapidement étendue à diverses domaines de recherche et de production. Une implémentation domaine publique de l'abstraction mise en avant par Google a été fournie par Yahoo à travers du project Hadoop. Le framework Hadoop est considéré l'implémentation de référence de MapReduce et est actuellement largement utilisé à des fins diverses et sur plusieurs infrastructures. Nous proposons un système de fichiers distribué, optimisé pour des accès hautement concurrents, qui puisse servir comme couche de stockage pour des applications MapReduce. Nous avons conçu le BlobSeer File System (BSFS), basé sur BlobSeer, un service de stockage distribué, hautement efficace, facilitant le partage de données à grande échelle. Nous étudions également plusieurs aspects liés à la gestion des données intermédiaires dans des environnements MapReduce. Nous explorons les contraintes des données intermédiaires MapReduce à deux niveaux: dans le même job MapReduce et pendant l'exécution des pipelines d'applications MapReduce. Enfin, nous proposons des extensions de Hadoop, un environnement MapReduce populaire et open-source, comme par example le support de l'opération append. Ce travail inclut également l'évaluation et les résultats obtenus sur des infrastructures à grande échelle: grilles informatiques et clouds.

Estilos ABNT, Harvard, Vancouver, APA, etc.

25

KAMMOUH, OMAR. "Resilience assessment of Physical infrastructures and social systems of large scale communities". Doctoral thesis, Politecnico di Torino, 2019. http://hdl.handle.net/11583/2735173.

Texto completo da fonte

Estilos ABNT, Harvard, Vancouver, APA, etc.

26

Rodrigues, Preston. "Interoperabilité à large échelle dans le contexte de l'Internet du future". Phd thesis, Université Sciences et Technologies - Bordeaux I, 2013. http://tel.archives-ouvertes.fr/tel-00920457.

Texto completo da fonte

Resumo:

La croissance de l'Internet en tant que plateforme d'approvisionnement à grande échelled'approvisionnement de contenus multimédia a été une grande success story du 21e siécle.Toutefois, les applications multimédia, avec les charactéristiques spécifiques de leur trafic ainsique les les exigences des nouveaux services, posent un défi intéressant en termes de découverte,de mobilité et de gestion. En outre, le récent élan de l'Internet des objets a rendu très nécessairela revitalisation de la recherche pour intégrer des sources hétérogènes d'information à travers desréseaux divers. Dans cet objectif, les contributions de cette thèse essayent de trouver un équilibreentre l'hétérogénéité et l'interopérabilité, pour découvrir et intégrer les sources hétérogènesd'information dans le contexte de l'Internet du Futur.La découverte de sources d'information sur différents réseaux requiert une compréhensionapprofondie de la façon dont l'information est structurée et quelles méthodes spécifiques sontutilisés pour communiquer. Ce processus a été régulé à l'aide de protocoles de découverte.Cependant, les protocoles s'appuient sur différentes techniques et sont conçues en prenant encompte l'infrastructure réseau sous-jacente, limitant ainsi leur capacité à franchir la limite d'unréseau donné. Pour résoudre ce problème, le première contribution dans cette thèse tente detrouver une solution équilibrée permettant aux protocoles de découverte d'interagir les uns avecles autres, tout en fournissant les moyens nécessaires pour franchir les frontières entre réseaux.Dans cet objectif, nous proposons ZigZag, un middleware pour réutiliser et étendre les protocolesde découverte courants, conçus pour des réseaux locaux, afin de découvrir des servicesdisponibles dans le large. Notre approche est basée sur la conversion de protocole permettant ladécouverte de service indépendamment de leur protocole de découverte sous-jacent. Toutefois,dans les réaux de grande échelle orientée consommateur, la quantité des messages de découvertepourrait rendre le réseau inutilisable. Pour parer à cette éventualité, ZigZag utilise le conceptd'agrégation au cours du processus de découverte. Grâce à l'agrégation, ZigZag est capabled'intégrer plusieurs réponses de différentes sources supportant différents protocoles de découverte.En outre, la personnalisation du processus d'agrégation afin de s'aligner sur ses besoins,requiert une compréhension approfondie des fondamentaux de ZigZag. À cette fin, nous proposonsune seconde contribution: un langage flexible pour aider à définir les politiques d'unemanière propre et efficace.

Estilos ABNT, Harvard, Vancouver, APA, etc.

27

Legrand, Contes Virginie. "UNE APPROCHE À COMPOSANT POUR L'ORCHESTRATION DE SERVICES À LARGE ÉCHELLE". Phd thesis, Université Nice Sophia Antipolis, 2011. http://tel.archives-ouvertes.fr/tel-00710427.

Texto completo da fonte

Resumo:

Cette thèse s'intéresse à l'orchestration de services répartie, résultat (1) d'une approche explicite de découpage d'une orchestration en sous-orchestrations localisées sur des sites physiques distants à des fins de protection de données par exemple, ou (2) d'une approche constructive issue du regroupement d'orchestrations existantes potentiellement hétérogènes, afin de constituer une orchestration globale mais répartie. Les orchestrations de services reflètent des processus métiers, souvent de longue durée, et qui doivent donc pouvoir être adaptables dynamiquement à l'exécution. Cette thèse propose un support d'exécution pour des orchestrations réparties, hétérogènes, dynamiquement reconfigurables, et permettant une administration globale. Une orchestration de services peut être abordée selon ses deux dimensions : temporelle qui reflète l'enchainement des services dans le temps, spatiale qui reflète les services que l'orchestration a besoin d'invoquer afin de s'exécuter. Nous proposons ainsi un nouveau modèle à composants pour les applications orientées services, inspiré en partie de SCA et de SCA/BPEL, mais permettant de représenter ces deux dimensions. Notre approche se fonde sur un modèle de composants logiciels répartis et dynamiquement reconfigurables, et hérite donc des qualités de répartition et de reconfiguration dynamique. Nous décrivons une mise en oeuvre au dessus de l'implémentation du modèle "Grid Component Model" sur la plateforme de programmation répartie à objets actifs "ProActive". Nous validons notre approche expérimentalement via une application à services d'installation et d'administration d'un parc de passerelles basées sur OSGi.

Estilos ABNT, Harvard, Vancouver, APA, etc.

28

Sarr, Idrissa. "Routage des transactions dans les bases de données à large échelle". Paris 6, 2010. http://www.theses.fr/2010PA066330.

Texto completo da fonte

Resumo:

La réplication dans les bases de données a été largement étudiée, au cours des trois dernières décennies. Elle vise à améliorer la disponibilité des données et à augmenter la performance d’accès aux données. Un des défis majeurs de la réplication est de maintenir la cohérence mutuelle des répliques, lorsque plusieurs d’entre elles sont mises à jour, simultanément, par des transactions. Des solutions qui relèvent partiellement ce défi pour un nombre restreint de bases de données reliées par un réseau fiable existent. Toutefois, ces solutions ne sont pas applicables à large échelle. Par ailleurs, l’antinomie entre les besoins de performances et ceux de cohérence étant bien connue, l’approche suivie dans cette thèse consiste à relâcher les besoins de cohérence afin d’améliorer la performance d’accès aux données. Dans cette thèse, nous considérons des applications transactionnelles déployées à large échelle et dont les données sont hébergées dans une infrastructure très dynamique telle qu’un système pair-à-pair. Nous proposons une solution intergicielle qui rend transparente la distribution et la duplication des ressources mais aussi leur indisponibilité temporaire. Nous définissons deux protocoles pour maintenir la cohérence globale: un premier protocole ordonne les transactions à partir de la définition a priori des données accédées, et un deuxième qui détermine un ordre plus souple, en comparant les données accédées, le plus tardivement possible, juste avant la validation des transactions. Toutes les solutions proposées tolèrent les pannes franches, fonctionnalité essentielle pour que les résultats de cette thèse puissent être mis en œuvre à très large échelle. Finalement, nous avons implémenté nos solutions pour les valider expérimentalement. Les tests de performances montrent que la gestion des métadonnées est efficace et améliore le débit transactionnel et que la redondance de l’intergiciel diminue le temps de réponse face aux situations de pannes.

Estilos ABNT, Harvard, Vancouver, APA, etc.

29

Maggiori, Emmanuel. "Approches d'apprentissage pour la classification à large échelle d'images de télédétection". Thesis, Université Côte d'Azur (ComUE), 2017. http://www.theses.fr/2017AZUR4041/document.

Texto completo da fonte

Resumo:

L’analyse des images satellite et aériennes figure parmi les sujets fondamentaux du domaine de la télédétection. Ces dernières années, les avancées technologiques ont permis d’augmenter la disponibilité à large échelle des images, en comprenant parfois de larges étendues de terre à haute résolution spatiale. En plus des questions évidentes de complexité calculatoire qui en surgissent, un de plus importants défis est l’énorme variabilité des objets dans les différentes régions de la terre. Pour aborder cela, il est nécessaire de concevoir des méthodes de classification qui dépassent l’analyse du spectre individuel de chaque pixel, en introduisant de l’information contextuelle de haut niveau. Dans cette thèse, nous proposons d’abord une méthode pour la classification avec des contraintes de forme, basée sur l’optimisation d’une structure de subdivision hiérarchique des images. Nous explorons ensuite l’utilisation des réseaux de neurones convolutionnels (CNN), qui nous permettent d’apprendre des descripteurs hiérarchiques profonds. Nous étudions les CNN depuis de nombreux points de vue, ce qui nous permettra de les adapter à notre objectif. Parmi les sujets abordés, nous proposons différentes solutions pour générer des cartes de classification à haute résolution et nous étudions aussi la récolte des données d’entrainement. Nous avons également créé une base de données d’images aériennes sur des zones variées, pour évaluer la capacité de généralisation des CNN. Finalement, nous proposons une méthode pour polygonaliser les cartes de classification issues des réseaux de neurones, afin de pouvoir les intégrer dans des systèmes d’information géographique. Au long de la thèse, nous conduisons des expériences sur des images hyperspectrales, satellites et aériennes, toujours avec l’intention de proposer des méthodes applicables, généralisables et qui passent à l’échelle
The analysis of airborne and satellite images is one of the core subjects in remote sensing. In recent years, technological developments have facilitated the availability of large-scale sources of data, which cover significant extents of the earth’s surface, often at impressive spatial resolutions. In addition to the evident computational complexity issues that arise, one of the current challenges is to handle the variability in the appearance of the objects across different geographic regions. For this, it is necessary to design classification methods that go beyond the analysis of individual pixel spectra, introducing higher-level contextual information in the process. In this thesis, we first propose a method to perform classification with shape priors, based on the optimization of a hierarchical subdivision data structure. We then delve into the use of the increasingly popular convolutional neural networks (CNNs) to learn deep hierarchical contextual features. We investigate CNNs from multiple angles, in order to address the different points required to adapt them to our problem. Among other subjects, we propose different solutions to output high-resolution classification maps and we study the acquisition of training data. We also created a dataset of aerial images over dissimilar locations, and assess the generalization capabilities of CNNs. Finally, we propose a technique to polygonize the output classification maps, so as to integrate them into operational geographic information systems, thus completing the typical processing pipeline observed in a wide number of applications. Throughout this thesis, we experiment on hyperspectral, atellite and aerial images, with scalability, generalization and applicability goals in mind

Estilos ABNT, Harvard, Vancouver, APA, etc.

30

Nzekwa, Russel. "Construction flexible des boucles de contrôles autonomes pour les applications à large échelle". Phd thesis, Université des Sciences et Technologie de Lille - Lille I, 2013. http://tel.archives-ouvertes.fr/tel-00843874.

Texto completo da fonte

Resumo:

Les logiciels modernes sont de plus en plus complexes. Ceci est dû en partie à l'hétérogénéité des solutions misent en oeuvre, au caractère distribué des architectures de déploiement et à la dynamicité requise pour de tels logiciels qui devraient être capable de s'adapter en fonction des variations de leur contexte d'évolution. D'un autre coté, l'importance grandissante des contraintes de productivité dans le but de réduire les coûts de maintenance et de production des systèmes informatiques a favorisé l'émergence de nouveaux paradigmes pour répondre à la complexité des logiciels modernes. L'informatique des systèmes autonomes (Autonomic computing) s'inscrit dans cette perspective. Elle se propose entre autres de réduire le coût de maintenance des systèmes informatiques en développant des logiciels dits autonomes, c'est à dire dotés de la capacité de s'auto-gérer moyennant une intervention limité d'un opérateur humain. Toutefois, le développement de logiciels autonomes soulèvent de nombreux défis scientifiques et technologiques. Par exemple, l'absence de visibilité de la couche de contrôle dans les applications autonomes rend difficile leur maintenabilité, l'absence d'outils de vérification pour les architectures autonomes est un frein pour l'implémentation d'applications fiables, enfin, la gestion transparente des propriétés non-fonctionnelles et la traçabilité entre le design et l'implémentation sont autant de défis que pose la construction de logiciels autonomes flexibles. La principale contribution de cette thèse est CORONA. CORONA est un canevas logiciel qui vise à faciliter le développement de logiciels autonomes flexibles. Dans cet objectif, CORONA s'appuie sur un langage de description architecturale qui réifie les éléments qui forment la couche de contrôle dans les systèmes autonomes. CORONA permet l'intégration transparente des propriétés non-fonctionnelles dans la description architecturale des systèmes autonomes. il fournit aussi dans sa chaîne de compilation un ensemble d'outils qui permet d'effectuer des vérifications sur l'architecture des systèmes autonomes. Enfin, la traçabilité entre le design et l'implémentation est assurée par un mécanisme de génération des skeletons d'implémentation à partir d'une description architecturale. Les différentes propriétés de CORONA sont illustrées par trois cas d'utilisation.

Estilos ABNT, Harvard, Vancouver, APA, etc.

31

Kermarrec, Anne-Marie. "Réseaux logiques collaboratifs pour la recherche décentralisée dans les systèmes à large échelle". Rennes 1, 2007. ftp://ftp.irisa.fr/techreports/theses/2007/riviere.pdf.

Texto completo da fonte

Resumo:

Il est nécessaire de proposer des mécanismes système facilitant la mise en œuvre d'applications réparties, adaptés au dynamisme et à la large échelle. Cette thèse propose un ensemble de systèmes pour fournir le service de recherche de données dans ces réseaux. Ceux-ci sont fondés sur le principe de réseau logique collaboratif, où les éléments de données sont liés dans un réseau virtuel dont la structure permet le support efficace de la recherche. Cette thèse propose VoroNet et Raynet, deux systèmes pour le support de recherches instantanées, qui fournissent nativement le support de la recherche avec forte expressivité et exhaustivité complète. Ensuite, deux réseaux pour le support des recherches persistantes sont proposés : Rappel, pour le support efficace de la diffusion de flux RSS/Atom avec prise en compte des proximités réseau et sémantiques, et Sub-2-Sub, pour les recherches persistantes fondées sur le contenu
It is necessary to propose system-level mechanisms to help the deployment of large-scale distributed applications, adapted to dynamism and scale shifts. More specifically, one such service of primordial importance is the search mechanism. These systems are based upon overlay structures, linking application data elements in a logical network whose structure provides a support for decentralized search. This thesis investigates first the support of instant query mechanisms, and presents VoroNet and RayNet, two systems that natively support search with high expressivity and full exhaustiveness. Then, the support of the publish/subscribe communication paradigm in a fully decentralized way is investigated. Two self-organizing overlays are presented. Rappel supports efficiently RSS/Atom feeds dissemination by leveraging both network and semantic proximities. Sub-2-Sub is a fully distributed system supporting content-based publish and subscribe

Estilos ABNT, Harvard, Vancouver, APA, etc.

32

Ghamri-Doudane, Samir. "Une approche pair à pair pour la découverte de ressources à large échelle". Paris 6, 2008. http://www.theses.fr/2008PA066450.

Texto completo da fonte

Resumo:

Ces dernières années ont vu la consécration du pair à pair comme modèle de référence pour le partage de ressources. Toutefois, les technologies proposées arrivent difficilement à concilier efficacité de fonctionnement, flexibilité des recherches et distribution complète de l’architecture. Dans cette thèse, nous étudions les différentes approches existantes et nous détaillons notre proposition pour un système de découverte de ressources qui puisse répondre aux différents besoins applicatifs tout en exhibant des propriétés d’adaptation à des environnements de déploiement hétérogènes. Le système ainsi proposé offre un outil de recherche déterministe, efficace et flexible. Ses performances sont comparées à celles d’autres systèmes existants. Puis, nous concentrons notre étude sur la répartition de charge en proposant des mécanismes complémentaires, dont l’évaluation montre que leur utilisation combinée garantit une répartition équitable des charges de stockage, de traitement et de routage.

Estilos ABNT, Harvard, Vancouver, APA, etc.

33

Fellus, Jérôme. "Algorithmes décentralisés et asynchrones pour l'apprentissage statistique large échelle et application à l'indexation multimédia". Thesis, Cergy-Pontoise, 2017. http://www.theses.fr/2017CERG0899/document.

Texto completo da fonte

Resumo:

Avec l’avènement de « l'ère des données », les besoins des systèmes de traitement de l'information en ressources de calcul ont explosé, dépassant largement les évolutions technologiques des processeurs modernes. Dans le domaine de l'apprentissage statistique en particulier, les paradigmes de calcul massivement distribués représentent la seule alternative praticable.L'algorithmique distribuée emprunte la plupart de ses concepts à l'algorithmique classique, centralisée et séquentielle, dans laquelle le comportement du système est décrit comme une suite d'instructions exécutées l'une après l'autre. L'importance de la communication entre unités de calcul y est généralement négligée et reléguée aux détails d'implémentation. Or, lorsque le nombre d'unités impliquées augmente, le poids des opérations locales s'efface devant les effets émergents propres aux larges réseaux d'unités. Pour conserver les propriétés désirables de stabilité, de prédictibilité et de programmabilité offertes par l'algorithmique centralisée, les paradigmes de calcul distribué doivent dès lors intégrer cette dimension qui relève de la théorie des graphes.Cette thèse propose un cadre algorithmique pour l'apprentissage statistique large échelle, qui prévient deux défaut majeurs des méthodes classiques : la centralisation et la synchronisation. Nous présentons ainsi plusieurs algorithmes basés sur des protocoles Gossip décentralisés et asynchrones, applicables aux problèmes de catégorisation, estimation de densité, réduction de dimension, classification et optimisation convexe. Ces algorithmes produisent des solutions identiques à leurs homologues centralisés, tout en offrant une accélération appréciable sur de larges réseaux pour un coût de communication très réduit. Ces qualités pratiques sont démontrées mathématiquement par une analyse de convergence détaillée. Nous illustrons finalement la pertinence des méthodes proposées sur des tâches d'indexation multimédia et de classification d'images
With the advent of the "data era", the amount of computational resources required by information processing systems has exploded, largely exceeding the technological evolutions of modern processors. Specifically, contemporary machine learning applications necessarily resort to massively distributed computation.Distributed algorithmics borrows most of its concepts from classical centralized and sequential algorithmics, where the system's behavior is defined as a sequence of instructions, executed one after the other. The importance of communication between computation units is generally neglected and pushed back to implementation details. Yet, as the number of units grows, the impact of local operations vanishes behind the emergent effects related to the large network of units. To preserve the desirable properties of centralized algorithmics such as stability, predictability and programmability, distributed computational paradigms must encompass this graph-theoretical dimension.This thesis proposes an algorithmic framework for large scale machine learning, which prevent two major drawbacks of classical methods, namely emph{centralization} and emph{synchronization}. We therefore introduce several new algorithms based on decentralized and asynchronous Gossip protocols, for solving clustering, density estimation, dimension reduction, classification and general convex optimization problems, while offering an appreciable speed-up on large networks with a very low communication cost. These practical advantages are mathematically supported by a theoretical convergence analysis. We finally illustrate the relevance of proposed methods on multimedia indexing applications and real image classification tasks

Estilos ABNT, Harvard, Vancouver, APA, etc.

34

Creus, Tomàs Jordi. "ROSES : Un moteur de requêtes continues pour l'agrégation de flux RSS à large échelle". Phd thesis, Université Pierre et Marie Curie - Paris VI, 2012. http://tel.archives-ouvertes.fr/tel-00771539.

Texto completo da fonte

Resumo:

Les formats RSS et Atom sont moins connus du grand public que le format HTML pour la publication d'informations sur le Web. Néanmoins les flux RSS sont présents sur tous les sites qui veulent publier des flux d'informations évolutives et dynamiques. Ainsi, les sites d'actualités publient des milliers de fils RSS/Atom, souvent organisés dans différentes thématiques (politique, économie, sports, société...). Chaque blog possède son propre flux RSS, et des sites de micro-blogage comme Twitter ou de réseaux sociaux comme Facebook publient les messages d'utilisateurs sous forme de flux RSS. Ces immenses quantités de sources de données continues sont accessibles à travers des agrégateurs de flux comme Google Reader, des lecteurs de messages comme Firefox, Thunderbird, mais également à travers des applications mash-up comme Yahoo! pipes, Netvibes ou Google News. Dans cette thèse, nous présentons ROSES -Really Open Simple and Efficient Syndication-, un modèle de données et un langage de requêtes continues pour des flux RSS/Atom. ROSES permet aux utilisateurs de créer des nouveaux flux personnalisés à partir des flux existants sur le web à travers un simple langage de requêtes déclaratif. ROSES est aussi un système capable de gérer et traiter des milliers de requêtes d'agrégation ROSES en parallèle et un défi principal traité dans cette thèse est le passage à l'échelle par rapport au nombre de requêtes. En particulier, on propose une nouvelle approche d'optimisation multi-requête fondée sur la factorisation des filtres similaires. Nous proposons deux algorithmes de factorisation: (i) STA, une adaptation d'un algorithme d'approximation pour calculer des arbres de Steiner minimaux [CCC+98], et (ii) VCA, un algorithme glouton qui améliore le coût CPU d'optimisation du précédant. Nous avons validé notre approche d'optimisation avec un important nombre de tests sur des données réelles.

Estilos ABNT, Harvard, Vancouver, APA, etc.

35

Creus, Tomas Jordi. "Roses : Un moteur de requêtes continues pour l’aggrégation de flux RSS à large échelle". Paris 6, 2012. http://www.theses.fr/2012PA066658.

Texto completo da fonte

Resumo:

Les flux RSS et Atom sont souvent des inconnus du grand public, néanmoins ils sont présents partout sur le web. Aujourd’hui, tous les sites d’actualités publient des milliers de fils RSS/Atom, normalement organisés par des thématiques (politique, économie, sports, société. . . ). Chaque blog possède son propre fil RSS, en outre, des sites de micro-blogage comme Twitter ou même les réseaux sociaux comme Facebook fournissent un fil RSS pour chaque utilisateur ou trending topic. Cette immense quantité de sources de données continues sont principalement utilisées par des agrégateurs de fils, soit en ligne (Google Reader), soit en local (Firefox, Thunderbird), mais également par des applications mash-up (comme Yahoo! pipes, Netvibes ou Google News). Nous pourrions voir l’ensemble des fils RSS et Atom comme un grand flux de données textuelles structurées, dont le potentiel est toutefois peu exploité encore. Dans cette thèse, nous présentons ROSES –Really Open Simple and Efficient Syndication–, un modèle de données et un langage de requêtes continues pour des flux RSS/Atom. ROSES permet aux utilisateurs de créer des nouveaux flux personnalisés à partir des flux existants sur le web à travers d’un simple, mais complet, langage de requêtes déclaratif et algèbre. ROSES c’est aussi un système capable de gérer et traiter des milliers de requêtes d’agrégation ROSES en parallèle, un des principaux objectifs du moteur de requêtes étant le passage à l’échelle par rapport au nombre de requêtes. En particulier, il implémente une nouvelle approche d’optimisation multirequête basée sur la factorisation des filtres similaires. Nous proposons deux algorithmes de factorisation: (I) STA, une adaptation d’un algorithme d’approximation pour calculer des arbres de Steiner minimaux [CCC+98a], et (ii) VCA, un algorithme glouton qui améliore le coût CPU d’optimisation du précédant. Nous avons validé notre approche d’optimisation avec un important nombre de tests sur des données réelles
RSS and Atom are generally less known than the HTML web format, but they are omnipresent in many modern web applications for publishing highly dynamic web contents. Nowadays, news sites publish thousands of RSS/Atom feeds, often organized into general topics like politics, economy, sports, culture, etc. Weblog and microblogging systems like Twitter use the RSS publication format, and even more general social media like Facebook produce an RSS feed for every user and trending topic. This vast number of continuous data-sources can be accessed by using general-purpose feed aggregator applications like Google Reader, desktop clients like Firefox or Thunderbird and by RSS mash-up applications like Yahoo! pipes, Netvibes or Google News. Today, RSS and Atom feeds represent a huge stream of structured text data which potential is still not fully exploited. In this thesis, we first present ROSES –Really Open Simple and Efficient Syndication–, a data model and continuous query language for RSS/Atom feeds. ROSES allows users to create new personalized feeds from existing real-world feeds through a simple, yet complete, declarative query language and algebra. The ROSES algebra has been implemented in a complete scalable prototype system capable of handling and processing ROSES feed aggregation queries. The query engine has been designed in order to scale in terms of the number of queries. In particular, it implements a new cost-based multi-query optimization approach based on query normalization and shared filter factorization. We propose two different factorization algorithms: (i) STA, an adaption of an existing approximate algorithm for finding minimal directed Steiner trees [CCC+98a], and (ii) VCA, a greedy approximation algorithm based on efficient heuristics outperforming the previous one with respect to optimization cost. Our optimization approach has been validated by extensive experimental evaluation on real world data collections

Estilos ABNT, Harvard, Vancouver, APA, etc.

36

Rihawi, Omar. "Modelling and simulation of distributed large scale situated multi-agent systems". Thesis, Lille 1, 2014. http://www.theses.fr/2014LIL10148/document.

Texto completo da fonte

Resumo:

Les systèmes multi-agents sont constitués d'entités autonomes qui interagissent avec leur environnement pour résoudre un objectif collectif. Si l'on souhaite modéliser des systèmes contenant des millions d'agents, une puissance de calcul et de stockage importante devient nécessaire. Pour atteindre de telles simulations large échelle, distribuer le simulateur sur un réseau de machines est nécessaire, mais il faut prendre en compte quelques aspects. Le premier aspect se concentre sur deux types de répartition de la charge de calcul : la première basée sur l'environnement, la deuxième basée sur les agents. Nous évaluons les performances de ces répartitions en les confrontant à des applications dont les dynamiques de déplacement sont très différentes, ce qui nous permet d'identifier plusieurs critères devant être pris en compte pour garantir des gains de performance lors de la distribution de simulations d'agents situés. Le second aspect de notre travail étudie la synchronisation. En effet, à notre connaissance, tous les simulateurs existants fonctionnent sur la base d'une synchronisation forte entre les machines, ce qui garantit la causalité temporelle et la cohérence des calculs. Dans cette thèse, nous remettons en cause cette hypothèse en étudiant la relaxation de la contrainte de synchronisation. Nous proposons deux politiques de synchronisation : la synchronisation forte classique et une forme de synchronisation reposant sur une fenêtre de temps bornée entre la machine la plus lente et la machine la plus rapide. Des applications de natures différentes sont exécutées avec ces différents mécanismes de synchronisation
This thesis aims to design a distributed large scale MAS simulation. When the number of agents reaches several millions, it is necessary to distribute MAS simulation. However, this can raise some issues: agents allocation, interactions from different machines, time management, etc. When we distribute MAS simulation on different machines, agents must be separated between these machines and should still be able to produce their normal behaviours. Our distribution is able to cover all agents' perceptions during the simulation and allow all agents to interact normally. Moreover, with large-scale simulations the main observations are done on the macroscopic level. In this thesis, we study two main aspects to distribute large-scale simulations. The first aspect is the efficient strategy that can be used to distribute MAS concepts (agents and environment). We propose two efficient distribution approaches: agents distribution and environment distribution. The second aspect is the relaxation of synchronization constraints in order to speed up the execution of large-scale simulations. Relaxing this constraint can induce incoherent interactions, which do not exist in a synchronized context. But, in some applications that can not affect the macroscopic level. Our experiments on different categories of MAS applications show that some applications can be distributed efficiently in one distribution approach more than the other. In addition, we have studied the impact of incoherent iterations on the emerging behaviour of different applications, and we have evidenced situations in which unsynchronized simulations still produced the expected macroscopic behaviour

Estilos ABNT, Harvard, Vancouver, APA, etc.

37

Rawat, Subhandu. "Dynamique cohérente de mouvements turbulents à grande échelle". Thesis, Toulouse, INPT, 2014. http://www.theses.fr/2014INPT0116/document.

Texto completo da fonte

Resumo:

Mon travail de thèse a porté sur la compréhension «systèmes dynamiques de la dynamique à grande échelle dans l’écoulement pleinement développé de cisaillement turbulent. Dans le plan écoulement de Couette, simulation des grandes échelles (LES) est utilisée pour modéliser petits mouvements d’échelle et de ne résoudre mouvements à grande échelle afin de calculer non linéaire ondes progressives (SNT) et orbites périodiques relatives (RPO). Artificiel sur-amortissement a été utilisé pour étancher une gamme croissante de petite échelle motions et prouvent que les motions grande échelle sont auto-entretenue. Les solutions d’onde inférieure branche itinérantes qui se trouvent sur le bassin laminaire turbulent limite sont obtenues pour ces simulation sur-amortie et continue encore dans l’espace de paramètre à des solutions de branche supérieure. Cette approche ne aurait pas été possible si, comme supposé dans certains enquêtes précédentes, les mouvements à grande échelle dans le mur bornées flux de cisaillement sont forcée par un mécanisme fondé sur l’existence de structures actives à plus petite échelle. En flux Poseuille, orbites périodiques relatives à décalage réflexion symétrie sur la limite du bassin laminaire turbulent sont calculés en utilisant DNS. Nous montrons que le RPO trouvé sont connectés à la paire de voyager vague (TW) solution via bifurcation mondiale (noeud-col-période infinie bifurcation). La branche inférieure de cette solution TW évoluer dans un état de l’envergure localisée lorsque le domaine de l’envergure est augmentée. La solution de branche supérieure développe plusieurs stries avec un espacement de l’envergure compatible avec des mouvements à grande échelle en régime turbulent
My thesis work focused on ‘dynamical systems’ understanding of the large-scale dynamics in fully developed turbulent shear flow. In plane Couette flow, large-eddy simulation (L.E.S) is used to model small scale motions and to only resolve large-scale motions in order to compute nonlinear traveling waves (NTW) and relative periodic orbits (RPO). Artificial over-damping has been used to quench an increasing range of small-scale motions and prove that the motions in large-scale are self-sustained. The lower-branch traveling wave solutions that lie on laminar-turbulent basin boundary are obtained for these over-damped simulation and further continued in parameter space to upper branch solutions. This approach would not have been possible if, as conjectured in some previous investigations, large-scale motions in wall bounded shear flows are forced by mechanism based on the existence of active structures at smaller scales. In Poseuille flow, relative periodic orbits with shift-reflection symmetry on the laminar-turbulent basin boundary are computed using DNS. We show that the found RPO are connected to the pair of traveling wave (TW) solution via global bifurcation (saddle-node-infinite period bifurcation). The lower branch of this TW solution evolve into a spanwise localized state when the spanwise domain is increased. The upper branch solution develops multiple streaks with spanwise spacing consistent with large-scale motions in turbulent regime

Estilos ABNT, Harvard, Vancouver, APA, etc.

38

Braun, Johannes [Verfasser], Johannes [Akademischer Betreuer] Buchmann e Max [Akademischer Betreuer] Mühlhäuser. "Maintaining Security and Trust in Large Scale Public Key Infrastructures / Johannes Braun. Betreuer: Johannes Buchmann ; Max Mühlhäuser". Darmstadt : Universitäts- und Landesbibliothek Darmstadt, 2015. http://d-nb.info/1111113351/34.

Texto completo da fonte

Estilos ABNT, Harvard, Vancouver, APA, etc.

39

Babbar, Rohit. "Machine Learning Strategies for Large-scale Taxonomies". Thesis, Grenoble, 2014. http://www.theses.fr/2014GRENM064/document.

Texto completo da fonte

Resumo:

À l'ère de Big Data, le développement de modèles d'apprentissage machine efficaces et évolutifs opérant sur des Tera-Octets de données est une nécessité. Dans cette thèse, nous étudions un cadre d'apprentissage machine pour la classification hiérarchique à large échelle. Cette analyse comprend l'étude des défis comme la complexité d'entraînement des modèles ainsi que leur temps de prédiction. Dans la première partie de la thèse, nous étudions la distribution des lois de puissance sous-jacente à la création des taxonomies à grande échelle. Cette étude permet de dériver des bornes sur la complexité spatiale des classifieurs hiérarchiques. L'exploitation de ce résultat permet alors le développement des modèles efficaces pour les classes distribuées selon une loi de puissance. Nous proposons également une méthode efficace pour la sélection de modèles pour des classifieurs multi-classes de type séparateurs à vaste marge ou de la régression logistique. Dans une deuxième partie, nous étudions le problème de la classification hiérarichique contre la classification plate d'un point de vue théorique. Nous dérivons une borne sur l'erreur de généralisation qui permet de définir les cas où la classification hiérarchique serait plus avantageux que la classification plate. Nous exploitons en outre les bornes développées pour proposer deux méthodes permettant adapter une taxonomie donnée de catégories à une taxonomies de sorties qui permet d'atteindre une meilleure performance de test
In the era of Big Data, we need efficient and scalable machine learning algorithms which can perform automatic classification of Tera-Bytes of data. In this thesis, we study the machine learning challenges for classification in large-scale taxonomies. These challenges include computational complexity of training and prediction and the performance on unseen data. In the first part of the thesis, we study the underlying power-law distribution in large-scale taxonomies. This analysis then motivates the derivation of bounds on space complexity of hierarchical classifiers. Exploiting the study of this distribution further, we then design classification scheme which leads to better accuracy on large-scale power-law distributed categories. We also propose an efficient method for model-selection when training multi-class version of classifiers such as Support Vector Machine and Logistic Regression. Finally, we address another key model selection problem in large scale classification concerning the choice between flat versus hierarchical classification from a learning theoretic aspect. The presented generalization error analysis provides an explanation to empirical findings in many recent studies in large-scale hierarchical classification. We further exploit the developed bounds to propose two methods for adapting the given taxonomy of categories to output taxonomies which yield better test accuracy when used in a top-down setup

Estilos ABNT, Harvard, Vancouver, APA, etc.

40

Madeira, De Campos Velho Pedro Antonio. "Evaluation de précision et vitesse de simulation pour des systèmes de calcul distribué à large échelle". Phd thesis, Université de Grenoble, 2011. http://tel.archives-ouvertes.fr/tel-00625497.

Texto completo da fonte

Resumo:

De nos jours, la grande puissance de calcul et l'importante capacité de stockage fournie par les systèmes de calcul distribué à large échelle sont exploitées par des applications dont les besoins grandissent continuellement. Les plates-formes de ces systèmes sont composées d'un ensemble de ressources reliées entre elles par une infrastructure de communication. Dans ce type de système, comme dans n'importe quel environnement de calcul, il est courant que des solutions innovantes soient étudiées. Leur adoption nécessite une phase d'expérimentation pour que l'on puisse les valider et les comparer aux solutions existantes ou en développement. Néanmoins, de par leur nature distribuée, l'exécution d'expériences dans ces environnements est difficile et coûteuse. Dans ces systèmes, l'ordre d'exécution dépend de l'ordre des événements, lequel peut changer d'une exécution à l'autre. L'absence de reproductibilité des expériences rend complexe la conception, le développement et la validation de nouvelles solutions. De plus, les ressources peu- vent changer d'état ou intégrer le système dynamiquement ; les architectures sont partagées et les interférences entre applications, ou même entre processus d'une même application, peuvent affecter le comportement général du système. Enfin, le temps d'exécution d'application à large échelle sur ces sys- tèmes est souvent long, ce qui empêche en général l'exploration exhaustive des valeurs des éventuels paramètres de cette application. Pour toutes ces raisons, les expérimentations dans ce domaine sont souvent basées sur la simulation. Diverses approches existent actuellement pour simuler le calcul dis- tribué à large-échelle. Parmi celles-ci, une grande partie est dédiée à des architectures particulières, comme les grappes de calcul, les grilles de calcul ou encore les plates-formes de calcul bénévole. Néan- moins, ces simulateurs adressent les mêmes problèmes : modéliser le réseau et gérer les ressources de calcul. De plus, leurs besoins sont les même quelle que soit l'architecture cible : la simulation doit être rapide et passer à l'échelle. Pour respecter ces exigences, la simulation de systèmes distribués à large échelle repose sur des techniques de modélisation pour approximer le comportement du système. Cependant, les estimations obtenues par ces modèles peuvent être fausses. Quand c'est le cas, faire confiance à des résultats obtenus par simulation peut amener à des conclusions aléatoires. En d'autres mots, il est nécessaire de connaître la précision des modèles que l'on utilise pour que les conclusions basées sur des résultats de simulation soient crédibles. Mais malgré l'importance de ce dernier point, il existe très rarement des études sur celui-ci. Durant cette thèse, nous nous sommes intéressés à la problématique de la précision des modèles pour les architectures de calcul distribué à large-échelle. Pour atteindre cet objectif, nous avons mené une évaluation de la précision des modèles existants ainsi que des nouveaux modèles conçus pendant cette thèse. Grâce à cette évaluation, nous avons proposé des améliorations pour atténuer les erreurs dues aux modèles en utilisant SimGrid comme cas d'étude. Nous avons aussi évalué les effets des ces améliorations en terme de passage à l'échelle et de vitesse d'exécution. Une contribution majeure de nos travaux est le développement de modèles plus intuitifs et meilleurs que l'existant, que ce soit en termes de précision, vitesse ou passage à l'échelle. Enfin, nous avons mis en lumière les principaux en- jeux de la modélisation des systèmes distribuées à large-échelle en montrant que le principal problème provient de la négligence de certains phénomènes importants.

Estilos ABNT, Harvard, Vancouver, APA, etc.

41

SAKKA, Mohamed Amin. "Contributions à la modélisation et la conception des systèmes de gestion de provenance à large échelle". Phd thesis, Institut National des Télécommunications, 2012. http://tel.archives-ouvertes.fr/tel-00762641.

Texto completo da fonte

Resumo:

Les avancées dans le monde des réseaux et des services informatiques ont révolutionné les modes d'échange, de partage et de stockage de l'information. Nous migrons de plus en plus vers des échanges numériques ce qui implique un gain en terme de rapidité de transfert, facilité de partage et d'accès ainsi qu'une efficacité d'organisation et de recherche de l'information. Malgré ses avantages, l'information numérique a l'inconvénient d'être volatile et modifiable ce qui introduit des problèmes liés à sa provenance, son intégrité et sa valeur probante. Dans ce contexte, la provenance apparait comme une méta-donnée cléqui peut servir pour juger la qualité de l'information et pour vérifier si elle répond à un ensemble d'exigences métier, techniques et légales. Aujourd'hui, une grande partie des applications et des services qui traitent, échangent et gèrent des documents électroniques sur le web ou dans des environnements Cloud génèrent des données de provenance hétérogènes, décentralisées et non interopérables. L'objectif principal de cette thèse est de proposer des solutions génériques et interopérables pour la modélisation de l'information de provenance et de concevoir des architectures de systèmes de gestion de provenance passant à l'échelle tant au niveau du stockage et que de l'exploitation(interrogation). Dans la première partie de la thèse, nous nous intéressons à la modélisation de la provenance. Afin de pallier à l'hétérogénéité syntaxique et sémantique qui existe entre les différents modèles de provenance, nous proposons une approche globale et cohérente pour la modélisation de la provenance basée sur les technologies du web sémantique. Notre approche repose sur un modèle de domaine minimal assurant un niveau d'interprétation minimal et commun pour n'importe quelle source de provenance. Ce modèle peut ensuite être spécialisé en plusieurs modèles de domaine pour modéliser des concepts et des propriétés métier différentes. Cette spécialisation assure l'interopérabilité sémantique souhaitée et permet par la suite de générer des vues métiers différentes sur les mêmes données de provenance. Dans la deuxième partie de la thèse, nous nous focalisons sur la conception des systèmes de gestion de provenance (ou PMS). Nous proposons tout d'abord une architecture logique de PMS indépendante des choix technologiques d'implémentation et de déploiement. Cette architecture détaille les modules assurant les fonctionnalités requises par notre approche de modélisation et sert comme architecture de référence pour la conception d'un PMS. Par la suite, et afin de préserver l'autonomie des sources de provenance, nous proposons une architecture distribuée de PMS à base de médiateur. Ce médiateur a une vision globale sur l'ensemble des sources et possède des capacités de distribution et de traitement de requêtes. Finalement la troisième partie de la thèse valide nos propositions. La validation de notre approche de modélisation a été réalisée dans un cadre industriel chez Novapost, une entreprise proposant des services SaaS pour l'archivage de documents à valeur probante. Ensuite, l'aspect passage à l' échelle de notre architecture a été testé par l'implémentation de deux prototypes de PMS sur deux technologies de stockage différentes : un système RDF (Sesame) et un SGBD NoSQL (CouchDB). Les tests de montée en charge effectués sur les données de provenance Novapost ont montré les limites de Sesame tant pour le stockage que pour l'interrogation en utilisant le langage de requêtes SPARQL, alors que la version CouchDB associée à un langage de requêtes basé sur map/reduce a démontré sa capacité à suivre la charge de manière linéaire en augmentant le nombre de serveurs

Estilos ABNT, Harvard, Vancouver, APA, etc.

42

Madeira, de Campos Velho Pedro Antonio. "Evaluation de précision et vitesse de simulation pour des systèmes de calcul distribué à large échelle". Thesis, Grenoble, 2011. http://www.theses.fr/2011GRENM027/document.

Texto completo da fonte

Resumo:

De nos jours, la grande puissance de calcul et l'importante capacité de stockage fournie par les systèmes de calcul distribué à large échelle sont exploitées par des applications dont les besoins grandissent continuellement. Les plates-formes de ces systèmes sont composées d'un ensemble de ressources reliées entre elles par une infrastructure de communication. Dans ce type de système, comme dans n'importe quel environnement de calcul, il est courant que des solutions innovantes soient étudiées. Leur adoption nécessite une phase d'expérimentation pour que l'on puisse les valider et les comparer aux solutions existantes ou en développement. Néanmoins, de par leur nature distribuée, l'exécution d'expériences dans ces environnements est difficile et coûteuse. Dans ces systèmes, l'ordre d'exécution dépend de l'ordre des événements, lequel peut changer d'une exécution à l'autre. L'absence de reproductibilité des expériences rend complexe la conception, le développement et la validation de nouvelles solutions. De plus, les ressources peu- vent changer d'état ou intégrer le système dynamiquement ; les architectures sont partagées et les interférences entre applications, ou même entre processus d'une même application, peuvent affecter le comportement général du système. Enfin, le temps d'exécution d'application à large échelle sur ces sys- tèmes est souvent long, ce qui empêche en général l'exploration exhaustive des valeurs des éventuels paramètres de cette application. Pour toutes ces raisons, les expérimentations dans ce domaine sont souvent basées sur la simulation. Diverses approches existent actuellement pour simuler le calcul dis- tribué à large-échelle. Parmi celles-ci, une grande partie est dédiée à des architectures particulières, comme les grappes de calcul, les grilles de calcul ou encore les plates-formes de calcul bénévole. Néan- moins, ces simulateurs adressent les mêmes problèmes : modéliser le réseau et gérer les ressources de calcul. De plus, leurs besoins sont les même quelle que soit l'architecture cible : la simulation doit être rapide et passer à l'échelle. Pour respecter ces exigences, la simulation de systèmes distribués à large échelle repose sur des techniques de modélisation pour approximer le comportement du système. Cependant, les estimations obtenues par ces modèles peuvent être fausses. Quand c'est le cas, faire confiance à des résultats obtenus par simulation peut amener à des conclusions aléatoires. En d'autres mots, il est nécessaire de connaître la précision des modèles que l'on utilise pour que les conclusions basées sur des résultats de simulation soient crédibles. Mais malgré l'importance de ce dernier point, il existe très rarement des études sur celui-ci. Durant cette thèse, nous nous sommes intéressés à la problématique de la précision des modèles pour les architectures de calcul distribué à large-échelle. Pour atteindre cet objectif, nous avons mené une évaluation de la précision des modèles existants ainsi que des nouveaux modèles conçus pendant cette thèse. Grâce à cette évaluation, nous avons proposé des améliorations pour atténuer les erreurs dues aux modèles en utilisant SimGrid comme cas d'étude. Nous avons aussi évalué les effets des ces améliorations en terme de passage à l'échelle et de vitesse d'exécution. Une contribution majeure de nos travaux est le développement de modèles plus intuitifs et meilleurs que l'existant, que ce soit en termes de précision, vitesse ou passage à l'échelle. Enfin, nous avons mis en lumière les principaux en- jeux de la modélisation des systèmes distribuées à large-échelle en montrant que le principal problème provient de la négligence de certains phénomènes importants
Large-Scale Distributed Computing (LSDC) systems are in production today to solve problems that require huge amounts of computational power or storage. Such systems are composed by a set of computational resources sharing a communication infrastructure. In such systems, as in any computing environment, specialists need to conduct experiments to validate alternatives and compare solutions. However, due to the distributed nature of resources, performing experiments in LSDC environments is hard and costly. In such systems, the execution flow depends on the order of events which is likely to change from one execution to another. Consequently, it is hard to reproduce experiments hindering the development process. Moreover, resources are very likely to fail or go off-line. Yet, LSDC archi- tectures are shared and interference among different applications, or even among processes of the same application, affects the overall application behavior. Last, LSDC applications are time consuming, thus conducting many experiments, with several parameters is often unfeasible. Because of all these reasons, experiments in LSDC often rely on simulations. Today we find many simulation approaches for LSDC. Most of them objective specific architectures, such as cluster, grid or volunteer computing. Each simulator claims to be more adapted for a particular research purpose. Nevertheless, those simulators must address the same problems: modeling network and managing computing resources. Moreover, they must satisfy the same requirements providing: fast, accurate, scalable, and repeatable simulations. To match these requirements, LSDC simulation use models to approximate the system behavior, neglecting some aspects to focus on the desired phe- nomena. However, models may be wrong. When this is the case, trusting on models lead to random conclusions. In other words, we need to have evidence that the models are accurate to accept the con- clusions supported by simulated results. Although many simulators exist for LSDC, studies about their accuracy is rarely found. In this thesis, we are particularly interested in analyzing and proposing accurate models that respect the requirements of LSDC research. To follow our goal, we propose an accuracy evaluation study to verify common and new simulation models. Throughout this document, we propose model improvements to mitigate simulation error of LSDC simulation using SimGrid as case study. We also evaluate the effect of these improvements on scalability and speed. As a main contribution, we show that intuitive models have better accuracy, speed and scalability than other state-of-the art models. These better results are achieved by performing a thorough and systematic analysis of problematic situations. This analysis reveals that many small yet common phenomena had been neglected in previous models and had to be accounted for to design sound models

Estilos ABNT, Harvard, Vancouver, APA, etc.

43

Sakka, Mohamed Amin. "Contributions à la modélisation et la conception des systèmes de gestion de provenance à large échelle". Thesis, Evry, Institut national des télécommunications, 2012. http://www.theses.fr/2012TELE0023/document.

Texto completo da fonte

Resumo:

Les avancées dans le monde des réseaux et des services informatiques ont révolutionné les modes d’échange, de partage et de stockage de l’information. Nous migrons de plus en plus vers des échanges numériques ce qui implique un gain en terme de rapidité de transfert, facilité de partage et d’accès ainsi qu’une efficacité d’organisation et de recherche de l’information. Malgré ses avantages, l’information numérique a l’inconvénient d’être volatile et modifiable ce qui introduit des problèmes liés à sa provenance, son intégrité et sa valeur probante. Dans ce contexte, la provenance apparait comme une méta-donnée cléqui peut servir pour juger la qualité de l’information et pour vérifier si elle répond à un ensemble d’exigences métier, techniques et légales. Aujourd’hui, une grande partie des applications et des services qui traitent, échangent et gèrent des documents électroniques sur le web ou dans des environnements Cloud génèrent des données de provenance hétérogènes, décentralisées et non interopérables. L’objectif principal de cette thèse est de proposer des solutions génériques et interopérables pour la modélisation de l’information de provenance et de concevoir des architectures de systèmes de gestion de provenance passant à l'échelle tant au niveau du stockage et que de l’exploitation(interrogation). Dans la première partie de la thèse, nous nous intéressons à la modélisation de la provenance. Afin de pallier à l’hétérogénéité syntaxique et sémantique qui existe entre les différents modèles de provenance, nous proposons une approche globale et cohérente pour la modélisation de la provenance basée sur les technologies du web sémantique. Notre approche repose sur un modèle de domaine minimal assurant un niveau d’interprétation minimal et commun pour n’importe quelle source de provenance. Ce modèle peut ensuite être spécialisé en plusieurs modèles de domaine pour modéliser des concepts et des propriétés métier différentes. Cette spécialisation assure l’interopérabilité sémantique souhaitée et permet par la suite de générer des vues métiers différentes sur les mêmes données de provenance. Dans la deuxième partie de la thèse, nous nous focalisons sur la conception des systèmes de gestion de provenance (ou PMS). Nous proposons tout d’abord une architecture logique de PMS indépendante des choix technologiques d’implémentation et de déploiement. Cette architecture détaille les modules assurant les fonctionnalités requises par notre approche de modélisation et sert comme architecture de référence pour la conception d’un PMS. Par la suite, et afin de préserver l’autonomie des sources de provenance, nous proposons une architecture distribuée de PMS à base de médiateur. Ce médiateur a une vision globale sur l’ensemble des sources et possède des capacités de distribution et de traitement de requêtes. Finalement la troisième partie de la thèse valide nos propositions. La validation de notre approche de modélisation a été réalisée dans un cadre industriel chez Novapost, une entreprise proposant des services SaaS pour l’archivage de documents à valeur probante. Ensuite, l’aspect passage à l’ échelle de notre architecture a été testé par l’implémentation de deux prototypes de PMS sur deux technologies de stockage différentes : un système RDF (Sesame) et un SGBD NoSQL (CouchDB). Les tests de montée en charge effectués sur les données de provenance Novapost ont montré les limites de Sesame tant pour le stockage que pour l’interrogation en utilisant le langage de requêtes SPARQL, alors que la version CouchDB associée à un langage de requêtes basé sur map/reduce a démontré sa capacité à suivre la charge de manière linéaire en augmentant le nombre de serveurs
Provenance is a key metadata for assessing electronic documents trustworthiness. It allows to prove the quality and the reliability of its content. With the maturation of service oriented technologies and Cloud computing, more and more data is exchanged electronically and dematerialization becomes one of the key concepts to cost reduction and efficiency improvement. Although most of the applications exchanging and processing documents on the Web or in the Cloud become provenance aware and provide heterogeneous, decentralized and not interoperable provenance data, most of Provenance Management Systems (PMSs) are either dedicated to a specific application (workflow, database, ...) or a specific data type. Those systems were not conceived to support provenance over distributed and heterogeneous sources. This implies that end-users are faced with different provenance models and different query languages. For these reasons, modeling, collecting and querying provenance across heterogeneous distributed sources is considered today as a challenging task. This is also the case for designing scalable PMSs providing these features. In the fist part of our thesis, we focus on provenance modelling. We present a new provenance modelling approach based on semantic Web technologies. Our approach allows to import provenance data from heterogeneous sources, to enrich it semantically to obtain high level representation of provenance. It provides syntactic interoperability between those sources based on a minimal domain model (MDM), supports the construction of rich domain models what allows high level representations of provenance while keeping the semantic interoperability. Our modelling approch supports also semantic correlation between different provenance sources and allows the use of a high level semantic query language. In the second part of our thesis, we focus on the design, implementation and scalability issues of provenance management systems. Based on our modelling approach, we propose a centralized logical architecture for PMSs. Then, we present a mediator based architecture for PMSs aiming to preserve provenance sources distribution. Within this architecture, the mediator has a global vision on all provenance sources and possesses query processing and distribution capabilities. The validation of our modelling approach was performed in a document archival context within Novapost, a company offering SaaS services for documents archiving. Also, we propose a non-functional validation aiming to test the scalability of our architecture. This validation is based on two implementation of our PMS : he first uses an RDF triple store (Sesame) and the second a NoSQL DBMS coupled with the map-reduce parallel model (CouchDB). The tests we performed show the limits of Sesame in storing and querying large amounts of provenance data. However, the PMS based on CouchDB showed a good performance and a linear scalability

Estilos ABNT, Harvard, Vancouver, APA, etc.

44

Cernay, Charles. "Identifier des légumineuses à graines productives en Europe par synthèses quantitatives de données à large échelle". Thesis, Université Paris-Saclay (ComUE), 2016. http://www.theses.fr/2016SACLA014.

Texto completo da fonte

Resumo:

Plusieurs études ont souligné la nécessité d’augmenter la production des légumineuses à graines en Europe. Jusqu’à présent, il n’existait pas de synthèses quantitatives de données qui comparaient les performances productives (et environnementales) de différentes légumineuses à graines dans cette région. L’objectif de la thèse était d’identifier des espèces de légumineuses à graines caractérisées par des niveaux élevés de production en Europe. Trois sources de données ont été utilisées à large échelle : des données statistiques, des données expérimentales en Europe et dans d’autres régions du monde, et des données sur les propriétés nutritionnelles des légumineuses à graines. Au total, 29 espèces ont été comparées à partir de leurs niveaux de production, et de leurs effets sur les rendements des céréales suivantes. Nous avons estimé la variabilité interannuelle des rendements des légumineuses à graines en Europe et Amérique. Les résultats montrent que les rendements des légumineuses à graines sont significativement plus variables que les rendements des non-légumineuses en Europe. Ces différences sont plus faibles en Amérique. Nous avons construit un jeu de données expérimentales global incluant 173 articles publiés, 41 pays, et 8581 situations de culture. Une première méta-analyse a été conduite à partir de ce jeu de données expérimentales. Les résultats montrent que le soja (Glycine max), le lupin à feuilles étroites (Lupinus angustifolius), et la fèverole (Vicia faba), présentent, en général, des niveaux de production similaires, et parfois supérieurs, comparés à ceux du pois protéagineux (Pisum sativum) en Europe. D’après les résultats de cette méta-analyse, nous avons estimé qu’une substitution de 25% de la surface actuelle de pois protéagineux (Pisum sativum) par de la fèverole (Vicia faba), du lupin à feuilles étroites (Lupinus angustifolius), et du soja (Glycine max), augmenterait la production de protéines de +3%, +4%, et +28%, en Europe, respectivement. Une seconde méta-analyse a été conduite à partir du même jeu de données expérimentales. Les résultats montrent que les rendements des céréales cultivées après des légumineuses à graines sont, en moyenne, +29% significativement plus élevés que les rendements des céréales cultivées après des céréales ; cet effet positif est significatif pour 13 des 16 espèces de légumineuses à graines. L’effet des cultures précédentes de légumineuses à graines décroît en fonction de la dose de fertilisation azotée (N) appliquée sur les céréales suivantes, et devient négligeable quand la dose moyenne de fertilisation azotée est supérieure à 150 kg N ha-1. D’après les résultats de cette méta-analyse, nous avons estimé que la diminution relative attendue de production céréalière, résultant d’une augmentation de la proportion d’une légumineuse à graines dans une monoculture d’une céréale, est partiellement compensée par l’effet positif de la légumineuse à graines sur le rendement de la céréale suivante peu fertilisée en azote. Globalement, la thèse identifie la fèverole (Vicia faba) comme une espèce candidate intéressante en Europe, suivie du pois protéagineux (Pisum sativum), du soja (Glycine max), et des lupins (Lupinus spp.). La lentille (Lens culinaris), le pois chiche (Cicer arietinum), et le haricot commun (Phaseolus vulgaris), présentent des niveaux faibles de production. Cependant, ces espèces sont souvent reconnues pour leurs bénéfices nutritionnels en alimentation humaine. En croisant les regards depuis des expérimentations en Amérique du Nord et Océanie, nous suggérons d’évaluer les niveaux de production de plusieurs gesses (Lathyrus spp.), lupins (Lupinus spp.), et vesces (Vicia spp. excepté Vicia faba), dans de futures expérimentations agronomiques en Europe
Several studies have stressed the importance of increasing grain legume production in Europe. To date, no quantitative data syntheses have been conducted to compare the productive (and environmental) performances of different grain legumes in this region. The objective of the PhD thesis was to identify grain legume species displaying high productivity levels in Europe. Three data sources were used on a large scale: statistical data, experimental data across Europe and other world regions, and food and feed composition data for grain legumes. In total, 29 species were compared on the basis of their productivity levels, and on their effects on the yields of the subsequent cereals. We estimated the interannual variability in grain legume yields across Europe and the Americas. Results show that grain legume yields are significantly more variable than non-legume yields in Europe. These differences are smaller in the Americas. We built a global experimental dataset including 173 published articles, 41 countries, and 8,581 crop observations. A first meta-analysis was conducted using this experimental dataset. Results show that soybean (Glycine max), narrow-leafed lupin (Lupinus angustifolius), and faba bean (Vicia faba), display, in general, similar productivity levels, and sometimes higher, compared with those of pea (Pisum sativum) in Europe. Based on the results of this meta-analysis, we estimated that a replacement of 25% of the area currently under pea (Pisum sativum) with faba bean (Vicia faba), narrow-leafed lupin (Lupinus angustifolius), and soybean (Glycine max), would increase protein production by +3%, +4%, and +28%, in Europe, respectively. A second meta-analysis was conducted using the same experimental dataset. Results show that the yields of cereals cultivated after grain legumes are, on average, +29% significantly higher than the yields of cereals cultivated after cereals; this positive effect is significant for 13 of 16 grain legume species. The effect of preceding grain legume cultivation decreases as a function of the nitrogen (N) fertilization rate applied to subsequent cereals, and becomes negligible when the mean nitrogen fertilization rate exceeds 150 kg N ha-1. Based on the results of this meta-analysis, we estimated that the expected relative decrease in cereal production, resulting from an increase in the proportion of a grain legume in a cereal monoculture, is partially mitigated by the positive effect of the grain legume on the yield of the subsequent cereal under low nitrogen input conditions. Globally, the PhD thesis identifies faba bean (Vicia faba) as an interesting candidate species in Europe, followed by pea (Pisum sativum), soybean (Glycine max), and lupins (Lupinus spp.). Lentil (Lens culinaris), chickpea (Cicer arietinum), and kidney bean (Phaseolus vulgaris), display low productivity levels. However, these species are often promoted for their nutritional benefits for the human diet. Based on comparative insight gained from experiments in North America and Oceania, we suggest assessing the productivity levels of several vetches and lupins (i.e., Lathyrus, Lupinus, and Vicia species excluding Vicia faba), in future field experiments in Europe

Estilos ABNT, Harvard, Vancouver, APA, etc.

45

Gougeaud, Sebastien. "Simulation générique et contribution à l'optimisation de la robustesse des systèmes de données à large échelle". Thesis, Université Paris-Saclay (ComUE), 2017. http://www.theses.fr/2017SACLV011/document.

Texto completo da fonte

Resumo:

La capacité des systèmes de stockage de données ne cesse de croître pour atteindre actuellement l’échelle de l’exaoctet, ce qui a un réel impact sur la robustesse des systèmes de stockage. En effet, plus le nombre de disques contenus dans un système est grand, plus il est probable d’y avoir une défaillance. De même, le temps de la reconstruction d’un disque est proportionnel à sa capacité. La simulation permet le test de nouveaux mécanismes dans des conditions quasi réelles et de prédire leur comportements. Open and Generic data Storage system Simulation tool (OGSSim), l’outil que nous proposons, supporte l’hétérogénéité et la taille importante des systèmes actuels. Sa décomposition modulaire permet d’entreprendre chaque technologie de stockage, schéma de placement ou modèle de calcul comme des briques pouvant être combinées entre elles pour paramétrer au mieux la simulation. La robustesse étant un paramètre critique dans ces systèmes, nous utilisons le declustered RAID pour assurer la distribution de la reconstruction des données d’un disque en cas de défaillance. Nous proposons l’algorithme Symmetric Difference of Source Sets (SD2S) qui utilise le décalage des blocs de données pour la création du schéma de placement. Le pas du décalage est issu du calcul de la proximité des ensembles de provenance logique des blocs d’un disque physique. Pour évaluer l’efficacité de SD2S, nous l’avons comparé à la méthode Crush, exemptée des réplicas. Il en résulte que la création du schéma de placement, aussi bien en mode normal qu’en mode défaillant, est plus rapide avec SD2S, et que le coût en espace mémoire est également réduit (nul en mode normal). En cas de double défaillance, SD2S assure la sauvegarde d’une partie, voire de la totalité, des données
Capacity of data storage systems does not cease to increase to currently reach the exabyte scale. This observation gets a real impact on storage system robustness. In fact, the more the number of disks in a system is, the greater the probability of a failure happening is. Also, the time used for a disk reconstruction is proportional to its size. Simulation is an appropriate technique to test new mechanisms in almost real conditions and predict their behavior. We propose a new software we callOpen and Generic data Storage system Simulation tool (OGSSim). It handles the heterogeneity andthe large size of these modern systems. Its modularity permits the undertaking of each storage technology, placement scheme or computation model as bricks which can be added and combined to optimally configure the simulation.Robustness is a critical issue for these systems. We use the declustered RAID to distribute the data reconstruction in case of a failure. We propose the Symmetric Difference of Source Sets (SD2S) algorithmwhich uses data block shifhting to achieve the placement scheme. The shifting offset comes from the computation of the distance between logical source sets of physical disk blocks. To evaluate the SD2S efficiency, we compared it to Crush method without replicas. It results in a faster placement scheme creation in normal and failure modes with SD2S and in a significant reduced memory space cost (null without failure). Furthermore, SD2S ensures the partial, if not total, reconstruction of data in case of multiple failures

Estilos ABNT, Harvard, Vancouver, APA, etc.

46

Joulin, Pierre-Antoine. "Modélisation à fine échelle des interactions entre parcs éoliens et météorologie locale". Thesis, Toulouse, INPT, 2019. http://www.theses.fr/2019INPT0135.

Texto completo da fonte

Resumo:

Le développement des énergies éoliennes, encouragé par le projet de Programmation Pluriannuelle de l’Énergie, soulève de nouvelles questions. Certains parcs s’orienteront vers des terrains montagneux et offshore. Pour prévoir la production énergétique et tenter de l’optimiser, une meilleure compréhension de l’écoulement du vent au sein des fermes sur ce type de terrains est nécessaire. Par ailleurs, les éoliennes offshore, de plus en plus grandes, seront amenées à interagir plus fortement avec la météorologie locale. Il semble alors important de caractériser ces interactions. Pour répondre à cet enjeu industriel et environnemental, un nouvel outil numérique a été créé au cours de ces travaux de thèse. La première partie de ce manuscrit se concentre sur les notions, les concepts et les modèles théoriques de la Couche Limite Atmosphérique (CLA) ainsi que des éoliennes. L’intérêt se porte notamment sur le modèle météorologique Meso-NH, utilisant la méthode Large Eddy Simulation (LES) et sur des modélisations simplifiées d’éoliennes : l’Actuator Disk (AD) rotatif et non-rotatif puis l’Actuator Line (AL). La deuxième partie se consacre au développement et à la validation de l’outil couplé. En implémentant les méthodes AD et AL au sein de Meso-NH, il devient possible de simuler la présence des éoliennes dans une couche limite atmosphérique réaliste. Une première étape de validation se base sur une expérience en soufflerie, mettant en jeu cinq éoliennes sur une colline, pour analyser le couplage avec l’Actuator Disk non rotatif. Une seconde se focalise sur l’expérience MextNext, concernant une petite éolienne en soufflerie, pour étudier le couplage avec l’Actuator Line. Les résultats obtenus sont très satisfaisants. La troisième partie se concentre sur l’impact potentiel des fermes éoliennes sur la météorologie locale. La capacité de l’outil à reproduire des interactions météorologiques complexes a été démontrée en simulant le cas des photos de Horns Rev 1. La formation nuageuse obtenue par le couplage numérique témoigne du potentiel de l’outil développé. Ensuite, pour tenter de caractériser les interactions des futurs parcs offshore avec la météorologie locale, de très grandes éoliennes plongées dans une fine couche limite atmosphérique ont été simulées. Un cas de temps clair et un cas nuageux ont été examinés. Il conviendra de mener des études complémentaires pour approfondir l’analyse de ces derniers résultats, encore préliminaires. Ainsi, de nouvelles paramétrisations de Meso-NH permettent maintenant de représenter des éoliennes dans une atmosphère réaliste, en élargissant le champ des possibles des simulations CFD pour les parcs éoliens
The development of wind energy, encouraged by the french Multiannual Energy Program, raisesnew questions. Some parks will be located on mountainous and offshore terrains. To forecast the energy production and try to optimize it, a better understanding of the flow within wind farm on thattype of terrain is needed. In addition, modern offshore wind turbines are getting larger and willinteract more strongly with local weather. It seems important to characterize these interactions. To respond to this industrial and environmental challenge, a new digital toolwas created during this thesis work. The first part of this manuscript focuses on the concepts andtheoretical models of the Atmospheric Boundary Layer (ABL) and wind turbines. In particular, theMeso-NH meteoro- logical model, used in the Large-Eddy Simulation (LES) framework, andsimplified models of wind turbines have been investigated : Actuator Disk (AD) with and without rotation and the Actuator Line (AL). The second part is devoted to the development and validation of the coupled tool. By implementing the AD and AL methods within Meso-NH, it becomes possible to simulate the presence of wind turbines in a realistic atmospheric boundary layer. A firstvalidation step is based on a wind tunnel experiment, involving five wind turbines on a hill, toanalyze the coupling with the non-rotating Actuator Disk. A second focuses on the MextNext experiment of a small wind turbine, to study the coupling with the Actuator Line. All the resultsobtained are very satisfactory. The third part focuses on the potential impact of wind farms on localweather. The ability of the tool to reproduce complex meteorological interactions has been demonstrated by simulating the case of the Horns Rev 1 photos. The cloud development obtainedby the coupled system demonstrates the potential of the developed tool. In order to characterizethe impact of future offshore parks on the local meteorology, large wind turbines immersed in a thin atmospheric boundary layer were simulated. A clear weather case and a cloudy one wereexamined. Additional studies will be needed to complement these preliminary results. Thus, newMeso-NH parameterizations make now possible to represent wind turbines in a realistic atmosphere, widening the scope of possible CFD simulations for wind farms

Estilos ABNT, Harvard, Vancouver, APA, etc.

47

Bellassen, Valentin. "Gestion forestière et cycle du carbone : apports de la modélisation à large échelle et de la télédétection". Paris 6, 2010. http://www.theses.fr/2010PA066361.

Texto completo da fonte

Resumo:

Un module de gestion forestière (FMM), inspiré du modèle d’échelle placette FAGACEES, ainsi que des ajouts au coeur du modèle global de végétation ORCHIDEE, ont été développés. Le couplage des deux dans ORCHIDEE-FM permet de simuler les stocks et des flux de carbone des forêts à large échelle, en tenant compte de leur structure en âge et des exportations de biomasse liées à leur gestion. ORCHIDEE-FM a été évalué aux différentes échelles spatio-temporelles pertinentes pour les processus qu’il représente : de l’hétérogénéité des arbres à l’intérieur d’un peuplement moyen aux stocks et flux de carbone à l’échelle continentale, et des flux annuels aux variations de stocks intégrées sur 100 à 200 ans, durées typiques d’une rotation forestière. Trois applications du modèle sont présentées. La reconstitution du puits de carbone forestier européen entre 1950 et 2000 conclus à un rôle non négligeable (13 %) de l’évolution de la structure en âge des forêts dans l’augmentation de ce puits. La simulation de taillis de peuplier à courte révolution permet d’évaluer l’intérêt économique et écologique de ce type de pratique en climat présent et futur. Enfin, l’assimilation de données de hauteur et de biomasse estimées par télédétection laisse entrevoir une diminution de l’erreur sur les flux simulés de l’ordre de 30 % à 50 %.

Estilos ABNT, Harvard, Vancouver, APA, etc.

48

Castel, David. "Inférence du réseau génétique d'Id2 dans les kératinocytes humains par intégration de données génomiques à large échelle". Evry-Val d'Essonne, 2007. http://www.biblio.univ-evry.fr/theses/2007/interne/2007/2007EVRY0026.pdf.

Texto completo da fonte

Resumo:

Dans ce travail nous avons étudié le réseau génétique d'Id2, un régulateur dominant négatif des bHLH, de manière à comprendre son rôle dans le contrôle de l'équilibre entre prolifération et différenciation dans les kératinocytes humains. Nous avons pour cela mis en œuvre une stratégie originale consistant, d'une part à étudier les variations du transcriptome de kératinocytes présentant une surexpression et une extinction d'Id2 de manière à découvrir les gènes qu'elle régule, et d'autre part à cribler les gènes régulateurs de l'expression d'Id2 sur puce à siARN. L'ensemble des résultats, complétés par des mesures phénotypiques, nous ont permis de mettre en évidence le rôle d'Id2 dans l'entrée en différenciation, la régulation de la prolifération, mais aussi dans des fonctions inconnues comme le contrôle de l'anaphase et la réparation des dommages de l'ADN. Enfin, ces résultats nous ont permis plus globalement d'appréhender la topologie du réseau de régulation transcriptionnelle d'Id2
We report in the present study the characterization of the genetic regulatory network of Id2, a dominant negative regulator of bHLH, to further understand its role in the control of the proliferation/differentiation balance in human keratinocytes. To identify Id2 gene targets, we first used gene expression profiling in cells exhibiting Id2 overexpression or knock-down. At the same time we screened an siRNA library using an siRNA microarrays approach to characterize Id2 transcriptionnal regulators. These results, with additional phenotypic observations, show that Id2 exert a key role in the control of keratinocyte commitment into differentiation or proliferation. Furthermore, we unravel new functions of Id2 in anaphase promotion and DNA recombination control. Overal, our results alllowed a first description of Id2 genetic regulatory network topology

Estilos ABNT, Harvard, Vancouver, APA, etc.

49

Emery, Charlotte. "Contribution de la future mission altimétrique à large fauchée SWOT pour la modélisation hydrologique à grande échelle". Thesis, Toulouse 3, 2017. http://www.theses.fr/2017TOU30034/document.

Texto completo da fonte

Resumo:

L'objectif scientifique de ce travail de thèse est d'améliorer l'estimation des flux d'eau à la surface des continents, à l'échelle saisonnière et interannuelle (de quelques années à décennale). En particulier, il s'agit d'étudier l'apport de données satellites, notamment de la future mission SWOT (Surface Water and Ocean Topography, lancement prévu en 2021), pour l'étude de la partie continentale du cycle de l'eau à l'échelle globale, à l'aide du modèle global de surfaces continentales ISBA-TRIP (Intéractions Sol-Biosphère-Atmosphère/Total Runoff and Integrating Pathways). Dans ce travail de thèse, j'explore le potentiel des données d'altimétrie satellitaire, pour corriger certains paramètres du modèle de routage de rivière TRIP et aussi pour corriger ses variables d'état. Pour ce faire, une plateforme d'assimilation de données virtuelles SWOT, mais aussi de données d'altimètres nadirs actuels a été mise en place. Mais avant l'assimilation de ces données de télédétection, il a été nécessaire de faire une analyse de sensibilité du modèle TRIP à ses paramètres, pour déterminer quels paramètres ont le plus d'influence sur les observables SWOT et qui donc pourront être corrigés. L'analyse de sensibilité (ANOVA) a alors été menée sur les principaux paramètres de TRIP. L'analyse de sensibilité a été menée sur le bassin de L'Amazone et les résultats ont été publiés. Les résultats ont montré que les hauteurs d'eau simulées sont sensibles aux paramètres géomorphologiques locaux exclusivement tandis que les débits simulés sont sensibles à l'ensemble des paramètres amont (selon le réseau de routage TRIP) et surtout au paramètre lié au temps de résidence des eaux souterraines. Enfin, les anomalies de hauteurs présentent des sensibilités similaires aux hauteurs d'eau mais avec des variations temporelles plus marquées. Ces résultats nous ont permis de faire les choix algorithmiques dans le cadre de l'assimilation de données. Ensuite, je me suis concentrée sur le développement de la maquette d'assimilation de données consistant en un Filtre de Kalman d'Ensemble (EnKF) et permet de faire soit de l'estimation de paramètres, soit de l'estimation d'état. La maquette en " estimation de paramètres " est testée et validée par une série d'expériences jumelles. On a assimilé des pseudo-observations de hauteurs et d'anomalies d'eau le long des traces du satellite SWOT, afin de corriger les coefficients de Manning du lit de la rivière, avec possibilité d'étendre à d'autres paramètres. Les premiers résultats montrent que la maquette est capable de retrouver la bonne distribution des coefficients de Manning en assimilant les hauteurs d'eau et les anomalies. Pour l'estimation d'état, on réalise des étapes d'assimilation journalières pour corriger le stock d'eau initial (condition initiale du modèle), en assimilant des débits estimés à partir de séries altimétriques de côtes d'eau ENVISAT. A partir de courbe de tarage hauteurs d'eau-débits calibrées sur le bassin de l'Amazone avec le modèle hydrologique MGB-IPH, les côtes d'eau ont été transformées en " débits altimétriques " que l'on assimile alors dans la maquette. Ces expériences d'estimation d'état nous permettent de sortir du cadre idéalisé des expériences jumelles en assimilant des données réelles, mais nous permet aussi de tester l'apport d'un premier jeu de données de débits provenant de mesures satellites, qui préfigure le futur produit de débit SWOT. Les résultats montrent que les erreurs sur le débits sont globalement améliorées : le run libre donne un RMSE de 2,79x103 m3/s (73,6 %) par rapport aux données in situ disponible sur le bassin et le run corrigé un RMSE de 1,98 x 103 m3/s (53,9 %)
Scientific objective of this PhD work is to improve water fluxes estimation on the continental surfaces, at interanual and interseasonal scale (from few years to decennial time period). More specifically, it studies contribution of remotely-sensed measurements to improve hydrology model. Notably, this work focuses on the incoming SWOT mission (Surface Water and Ocean Topography, launch scheduled for 2021) for the study of the continental water cycle at global scale, and using the land surface model ISBA-TRIP. In this PhD work, I explore the potential of satellite data to correct both input parameters of the river routing scheme TRIP and its state variables. To do so, a data assimilation platform has been set to assimilate SWOT virtual observation as well as discharge estimated from real nadir altimetry data. Beforehand, it was necessary to do a sensibility analysis of TRIP model to its parameters. The aim of such study was to highlight what are the most impacting parameters on SWOT-observed variables and therefore select the ones to correct via data assimilation. The sensibility analysis (ANOVA) has been led on TRIP main parameters. The study has been done over the Amazon basin. The results showed that the simulated water levels are sensitive to local geomorphological parmaters exclusively. On the other hand, the simulated discharges are sensitive to upstream parameters (according to the TRIP river routing network) and more particularly to the groundwater time constant. Finally, water anomalies present sensitivities similar to those of the water levels but with more pronounced temporal variations. These results also lead me to do some choices in the implementation of the assimilation scheme and have been published. Therefore, in the second part of my PhD, I focused on developing a data assimilation platform which consists in an Ensemble Kalman Filter (EnKF). It could either correct the model input parameters or directly its state. A series of twin experiments is used to test and validate the parameter estimation module of the platform. SWOT virtual-observations of water heights and anomalies along SWOT tracks are assimilated to correct the river manning coefficient, with the possibility to easily extend to other parameters. First results show that the platform is able to recover the "true" Manning distribution assimilating SWOT-like water heights and anomalies. In the state estimation mode, daily assimilation cycles are realized to correct TRIP river water storage initial state by assimilating ENVISAT-based discharge. Those observations are derived from ENVISAT water elevation measures, using rating curves from the MGB-IPH hydrological model (calibrated over the Amazon using in situ gages discharge). Using such kind of observation allows going beyond idealized twin experiments and also to test contribution of a remotely-sensed discharge product, which could prefigure the SWOT discharge product. The results show that discharge after assimilation are globally improved : the root-mean-square error between the analysis discharge ensemble mean and in situ discharges is reduced by 28 \%, compared to the root-mean-square error between the free run and in situ discharges (RMSE are respectively equal to 2.79 x 103 m3/s and 1.98 x 103 m3/s)

Estilos ABNT, Harvard, Vancouver, APA, etc.

50

Ductor, Sylvain. "Mécanismes de coordination pour l'allocation dynamique de ressources dans des systèmes multi-agents large-échelle et ouverts". Paris 6, 2013. http://www.theses.fr/2013PA066036.

Texto completo da fonte

Resumo:

Les systèmes multi-agents offrent un paradigme adapté à la résolution de problèmes distribués d'optimisation multi-objectives. De plus en plus d'applications doivent faire face à ce type de problèmes, notamment dans les domaines du \textit{cloud computing} ou de l'\textit{ubiquitous computing}. Dans ces domaines, différents agents, pouvant défendre des intérêts différents, sont en concurrence et doivent se coordonner pour déterminer une issue commune. Il s'agit alors d'optimiser l'utilité de chacun des agents tout en respectant les contraintes du problème. Les applications qui nous intéressent % exhibent des propriétés rendant plus complexe le calcul tel qu'sont large-échelle et caractérisées par des variations dynamiques de l'environnement et des objectifs des agents, ainsi qu'une topologie non statique (des composants peuvent apparaître ou disparaître). Ces propriétés rendent la résolution des problèmes sous-jacents plus complexe. Le domaine de l'ingénierie du bien-être a récemment proposé une solide analyse théorique et expérimentale d'une approche adaptée à la résolution de ce type de problèmes : la négociation consensuelle itérée. Ce domaine a notamment étudié les relations existant entre les fonctions de décision des agents, la classe de contrats négociés et l'issue de la négociation à l'échelle sociale. Néanmoins, à notre connaissance, aucune contribution de ce domaine n'a porté sur la formalisation et la conception des mécanismes de coordination. Cette thèse porte sur la conception de mécanismes de coordination opérationnels en se plaçant dans le paradigme de l'ingénierie du bien-être. Nous contribuons tout d'abord à ce domaine en élaborant un modèle formel des mécanismes de coordination puis nous concevons une architecture générique d'agent négociant. En nous appuyant sur ce modèle et cette architecture, nous proposons cinq mécanismes de coordination répondant à des contextes applicatifs différents et offrant des caractéristiques différentes en termes de qualité de convergence et de complexité en calcul et en communication. Les cinq mécanismes proposés sont applicables à des problèmes large-échelle, dynamiques et ouverts. Les premiers se concentrent sur la famille des problèmes d'allocation de ressources et exploitent des propriétés inhérentes à ceux-ci. Le dernier mécanisme, quant à lui, s'applique au cadre plus général des problèmes distribués d'optimisation de contraintes. Enfin, une évaluation expérimentale des deux premiers mécanismes a été menée dans le cadre du problème de tolérance aux fautes par réplication. Les mécanismes ont été comparés à une approche parallèle et à une approche issue du domaine des problèmes d'optimisation distribuée de contraintes. Cette thèse s'inscrit dans le domaine de l'ingénierie du bien-être. Elle vise à le compléter en fournissant un modèle et une architecture de coordination et en l'operationnalisant avec des mécnaismes. Dans un premier temps à élaborer un modèle de mécanismes de de coordination pour compléter Dans cette thèse, nous proposons tout d'abord un modèle de coordination qui s'inscrit dans la lignée des travaux effectués dans le domaine de l'ingénierie du bien-être puis une architecture générique d'agent négociant. % plus généraux, tels que ceux abordés par le modèle de coordination que nous avons proposé
MAS offer a paradigm that is adapted to resolve distributed constraint optimisation problemsNowadays, more application must handle such problems, and notably in domains like cloud computing or ubiquitous computing. In those domains, differents agents, that may have potentially conflicting objectives, must coordinate in order to find a common solution. The aim is to optimise agents utilities while respecting problem constraints. We are interested in large-scale open and dynamic applications. Welfare engineering has recently propose a solid theoretical and experimental analysis for those kind of problems : iterated consensual negociation. This domain studies the relations between the agent rationalities, the coordination mecanism and the social abjective. However, as far as we know, no study of this domain was about formalising and designing coordination mecanisms. This thesis is about designing operational mecanisms in the context of welfare engineering. We firstly contribute to this domain by elaborating a formal model of coordination mecanisms and then we develop an abstract architecture for agent negociation. We propose five mecanisms that are applicable to large scale dynamic and open application. Four of them consider the restricted contect of resource allocation. Finally an experimental validation has been conducted and compared the mecanisms to a parallel and a distributed approach

Estilos ABNT, Harvard, Vancouver, APA, etc.

Oferecemos descontos em todos os planos premium para autores cujas obras estão incluídas em seleções literárias temáticas. Contate-nos para obter um código promocional único!