Dissertations / Theses on the topic 'Découverte basée sur les données'

To see the other types of publications on this topic, follow the link: Découverte basée sur les données.

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Découverte basée sur les données.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Pierret, Jean-Dominique. "Méthodologie et structuration d'un outil de découverte de connaissances basé sur la littérature biomédicale : une application basée sur l'exploitation du MeSH." Toulon, 2006. http://tel.archives-ouvertes.fr/tel-00011704.

Full text
Abstract:
L´information disponible dans les bases de données bibliographiques est une information datée, validée par un processus long qui la rend peu innovante. Dans leur mode d´exploitation, les bases de données bibliographiques sont classiquement interrogées de manière booléenne. Le résultat d´une requête est donc un ensemble d´informations connues qui n´apporte en lui-même aucune nouveauté. Pourtant, en 1985, Don Swanson propose une méthode originale pour extraire de bases de donnés une information innovante. Son raisonnement est basé sur une exploitation systématique de la littérature biomédicale afin de dégager des connexions latentes entre différentes connaissances bien établies. Ses travaux montrent le potentiel insoupçonné des bases bibliographiques dans la révélation et la découverte de connaissances. Cet intérêt ne tient pas tant à la nature de l´information disponible qu´à la méthodologie utilisée. Cette méthodologie générale s´applique de façon privilégiée dans un environnement d´information validée et structurée ce qui est le cas de l´information bibliographique. Nous proposons de tester la robustesse de la théorie de Swanson en présentant les méthodes qu´elle a inspirées et qui conduisent toutes aux mêmes conclusions. Nous exposons ensuite, comment à partir de sources d´information biomédicales publiques, nous avons développé un système de découverte de connaissances basé sur la littérature
The information available in bibliographic databases is dated and validated by a long process and becomes not very innovative. Usually bibliographic databases are consultated in a boolean way. The result of a request represente is a set of known which do not bring any additional novelty. In 1985 Don Swanson proposed an original method to draw out innovative information from bibliographic databases. His reasoning is based on systematic use of the biomedical literature to draw the latent connections between different well established knowledges. He demonstrated unsuspected potential of bibliographic databases in knowledge discovery. The value of his work did not lie in the nature of the available information but consisted in the methodology he used. This general methodology was mainly applied on validated and structured information that is bibliographic information. We propose to test the robustness of Swanson's theory by setting out the methods inspired by this theory. These methods led to the same conclusions as Don Swanson's ones. Then we explain how we developed a knowledge discovery system based on the literature available from public biomedical information sources
APA, Harvard, Vancouver, ISO, and other styles
2

Pierret, Jean-Dominique. "Methodologie et structuration d'un outil de decouverte de connaissances base sur la litterture biomedicale : une application basee sur le MeSH." Phd thesis, Université du Sud Toulon Var, 2006. http://tel.archives-ouvertes.fr/tel-00011704.

Full text
Abstract:
L'information disponible dans les bases de données bibliographiques est une information datée, validée par un processus long qui la rend peu innovante. Dans leur mode d'exploitation, les bases de données bibliographiques sont classiquement interrogées de manière booléenne. Le résultat d'une requête est donc un ensemble d'informations connues qui n'apporte en lui-même aucune nouveauté.
Pourtant, en 1985, Don Swanson propose une méthode originale pour extraire de bases de donnés une information innovante. Son raisonnement est basé sur une exploitation systématique de la littérature biomédicale afin de dégager des connexions latentes entre différentes connaissances bien établies. Ses travaux montrent le potentiel insoupçonné des bases bibliographiques dans la révélation et la découverte de connaissances. Cet intérêt ne tient pas tant à la nature de l'information disponible qu'à la méthodologie utilisée. Cette méthodologie générale s'applique de façon privilégiée dans un environnement d'information validée et structurée ce qui est le cas de l'information bibliographique. Nous proposons de tester la robustesse de la théorie de Swanson en présentant les méthodes qu'elle a inspirées et qui conduisent toutes aux mêmes conclusions. Nous exposons ensuite, comment à partir de sources d'information biomédicales publiques, nous avons développé un système de découverte de connaissances basé sur la littérature.
APA, Harvard, Vancouver, ISO, and other styles
3

Jiao, Yunlong. "Pronostic moléculaire basé sur l'ordre des gènes et découverte de biomarqueurs guidé par des réseaux pour le cancer du sein." Thesis, Paris Sciences et Lettres (ComUE), 2017. http://www.theses.fr/2017PSLEM027/document.

Full text
Abstract:
Le cancer du sein est le deuxième cancer le plus répandu dans le monde et la principale cause de décès due à un cancer chez les femmes. L'amélioration du pronostic du cancer a été l'une des principales préoccupations afin de permettre une meilleure gestion et un meilleur traitement clinique des patients. Avec l'avancement rapide des technologies de profilage génomique durant ces dernières décennies, la disponibilité aisée d'une grande quantité de données génomiques pour la recherche médicale a motivé la tendance actuelle qui consiste à utiliser des outils informatiques tels que l'apprentissage statistique dans le domaine de la science des données afin de découvrir les biomarqueurs moléculaires en lien avec l'amélioration du pronostic. Cette thèse est conçue suivant deux directions d'approches destinées à répondre à deux défis majeurs dans l'analyse de données génomiques pour le pronostic du cancer du sein d'un point de vue méthodologique de l'apprentissage statistique : les approches basées sur le classement pour améliorer le pronostic moléculaire et les approches guidées par un réseau donné pour améliorer la découverte de biomarqueurs. D'autre part, les méthodologies développées et étudiées dans cette thèse, qui concernent respectivement l'apprentissage à partir de données de classements et l'apprentissage sur un graphe, apportent une contribution significative à plusieurs branches de l'apprentissage statistique, concernant au moins les applications à la biologie du cancer et la théorie du choix social
Breast cancer is the second most common cancer worldwide and the leading cause of women's death from cancer. Improving cancer prognosis has been one of the problems of primary interest towards better clinical management and treatment decision making for cancer patients. With the rapid advancement of genomic profiling technologies in the past decades, easy availability of a substantial amount of genomic data for medical research has been motivating the currently popular trend of using computational tools, especially machine learning in the era of data science, to discover molecular biomarkers regarding prognosis improvement. This thesis is conceived following two lines of approaches intended to address two major challenges arising in genomic data analysis for breast cancer prognosis from a methodological standpoint of machine learning: rank-based approaches for improved molecular prognosis and network-guided approaches for enhanced biomarker discovery. Furthermore, the methodologies developed and investigated in this thesis, pertaining respectively to learning with rank data and learning on graphs, have a significant contribution to several branches of machine learning, concerning applications across but not limited to cancer biology and social choice theory
APA, Harvard, Vancouver, ISO, and other styles
4

Ermolaev, Andrei. "Data-driven methods for analysing nonlinear propagation in optical fibres." Electronic Thesis or Diss., Bourgogne Franche-Comté, 2024. http://www.theses.fr/2024UBFCD020.

Full text
Abstract:
Cette thèse vise à appliquer et à développer les nouvelles méthodes d'apprentissage automatique spécialement adaptées à l'analyse et à l'interprétation des impulsions lors de leur propagation en un seul passage dans une fibre optique, et sous diverses conditions. En particulier, nous nous concentrerons sur les approches de découverte de modèles guidées par les données qui impliquent l'utilisation de l'apprentissage automatique pour analyser les données du système physique dans le but de découvrir les modèles interprétables et généralisables et de développer les méthodes qui peuvent substantiellement accomplir et/ou compléter l'analyse théorique conventionnelle. À cette fin, les méthodes d'apprentissage supervisé et non supervisé seront utilisées pour approfondir la compréhension des phénomènes non linéaires ultrarapides dans les systèmes de fibres optiques
This thesis aims to apply machine learning methods specifically tailored to the analysis and interpretation of optical pulses as they propagate in a single pass through an optical fiber, and under a variety of conditions. In particular, we will focus on data-driven model discovery approaches that involve the use of machine learning to analyze physical system data with the aim of discovering interpretable and generalizable models and developing methods that can substantially accomplish and/or complement conventional theoretical analysis. To this end, both supervised and unsupervised learning methods will be used to deepen understanding of ultrafast nonlinear phenomena in fiber optics systems
APA, Harvard, Vancouver, ISO, and other styles
5

Marie, Nicolas. "Recherche exploratoire basée sur des données liées." Thesis, Nice, 2014. http://www.theses.fr/2014NICE4129/document.

Full text
Abstract:
Cette thèse s’intéresse à l’exploitation de la sémantique de données pour la recherche exploratoire. La recherche exploratoire se réfère à des tâches de recherche qui sont très ouvertes, avec de multiples facettes, et itératives. Les données sémantiques et les données liées en particulier, offrent de nouvelles possibilités pour répondre à des requêtes de recherche et des besoins d’information complexes. Dans ce contexte, le nuage de données ouvertes liées (LOD) joue un rôle important en permettant des traitements de données avancés et des interactions innovantes. Nous détaillons un état de l’art de la recherche exploratoire sur les données liées. Puis nous proposons un algorithme de recherche exploratoire à base de données liées basé sur une recherche associative. A partir d’un algorithme de propagation d’activation nous proposons une nouvelle formule de diffusion optimisée pour les graphes typés. Nous proposons ensuite des formalisations supplémentaires de plusieurs modes d’interrogation avancée. Nous présentons également une architecture logicielle innovante basée sur deux choix de conception paradigmatiques. D’abord, les résultats doivent être calculés à la demande. Deuxièmement, les données sont consommées à distance à partir de services SPARQL distribués. Cela nous permet d’atteindre un niveau élevé de flexibilité en termes d’interrogation et de sélection des données. L’application Discovery Hub implémente ces résultats et les présente dans une interface optimisée pour l’exploration. Nous évaluons notre approche grâce à plusieurs campagnes avec des utilisateurs et nous ouvrons le débat sur de nouvelles façons d’évaluer les moteurs de recherche exploratoires
The general topic of the thesis is web search. It focused on how to leverage the data semantics for exploratory search. Exploratory search refers to cognitive consuming search tasks that are open-ended, multi-faceted, and iterative like learning or topic investigation. Semantic data and linked data in particular offer new possibilities to solve complex search queries and information needs including exploratory search ones. In this context the linked open data cloud plays an important role by allowing advanced data processing and innovative interactions model elaboration. First, we detail a state-of-the-art review of linked data based exploratory search approaches and systems. Then we propose a linked data based exploratory search solution which is mainly based on an associative retrieval algorithm. We started from a spreading activation algorithm and proposed new diffusion formula optimized for typed graph. Starting from this formalization we proposed additional formalizations of several advanced querying modes in order to solve complex exploratory search needs. We also propose an innovative software architecture based on two paradigmatic design choices. First the results have to be computed at query-time. Second the data are consumed remotely from distant SPARQL endpoints. This allows us to reach a high level of flexibility in terms of querying and data selection. We specified, designed and evaluated the Discovery Hub web application that retrieves the results and present them in an interface optimized for exploration. We evaluate our approach thanks to several human evaluations and we open the discussion about new ways to evaluate exploratory search engines
APA, Harvard, Vancouver, ISO, and other styles
6

Vigneron, Vincent. "Programmation par contraintes et découverte de motifs sur données séquentielles." Thesis, Angers, 2017. http://www.theses.fr/2017ANGE0028/document.

Full text
Abstract:
Des travaux récents ont montré l’intérêt de la programmation par contraintes pour la fouille de données. Dans cette thèse, nous nous intéressons à la recherche de motifs sur séquences, et en particulier à la caractérisation, à l’aide de motifs, de classes de séquences pré-établies. Nous proposons à cet effet un langage de modélisation à base de contraintes qui suppose une représentation matricielle du jeu de séquences. Un motif s’y définit comme un ensemble de caractères (ou de patrons) et pour chacun une localisation dans différentes séquences. Diverses contraintes peuvent alors s’appliquer : validité des localisations, couverture d’une classe de séquences, ordre sur les localisations des caractères commun aux séquences, etc. Nous formulons deux problèmes de caractérisation NP-complets : la caractérisation par motif totalement ordonné (e.g. sous-séquence exclusive à une classe) ou partiellement ordonné. Nous en donnons deux modélisations CSP qui intègrent des contraintes globales pour la preuve d’exclusivité. Nous introduisons ensuite un algorithme mémétique pour l’extraction de motifs partiellement ordonnés qui s’appuie sur la résolution CSP lors des phases d’initialisation et d’intensification. Cette approche hybride se révèle plus performante que l’approche CSP pure sur des séquences biologiques. La mise en forme matricielle de jeux de séquences basée sur une localisation des caractères peut être de taille rédhibitoire. Nous proposons donc de localiser des patrons plutôt que des caractères. Nous présentons deux méthodes ad-hoc, l’une basée sur un parcours de treillis et l’autre sur la programmation dynamique
Recent works have shown the relevance of constraint programming to tackle data mining tasks. This thesis follows this approach and addresses motif discovery in sequential data. We focus in particular, in the case of classified sequences, on the search for motifs that best fit each individual class. We propose a language of constraints over matrix domains to model such problems. The language assumes a preprocessing of the data set (e.g., by pre-computing the locations of each character in each sequence) and views a motif as the choice of a sub-matrix (i.e., characters, sequences, and locations). We introduce different matrix constraints (compatibility of locations with the database, class covering, location-based character ordering common to sequences, etc.) and address two NP-complete problems: the search for class-specific totally ordered motifs (e.g., exclusive subsequences) or partially ordered motifs. We provide two CSP models that rely on global constraints to prove exclusivity. We then present a memetic algorithm that uses this CSP model during initialisation and intensification. This hybrid approach proves competitive compared to the pure CSP approach as shown by experiments carried out on protein sequences. Lastly, we investigate data set preprocessing based on patterns rather than characters, in order to reduce the size of the resulting matrix domain. To this end, we present and compare two alternative methods, one based on lattice search, the other on dynamic programming
APA, Harvard, Vancouver, ISO, and other styles
7

Tanasescu, Adrian. "Vers un accès sémantique aux données : approche basée sur RDF." Lyon 1, 2007. http://www.theses.fr/2007LYO10069.

Full text
Abstract:
Nous nous intéressons à la recherche dans les documents RDF et nous proposons de mettre les bases d'une approche permettant de fournir, pour une requête de l'utilisateur, des réponses plus complètes et en même temps cohérentes. Cette approche consiste essentiellement en une combinaison sémantique des informations en provenance de plusieurs graphes RDF. L'approche proposée adresse principalement les points suivants : (1) déterminer si les graphes RDF sont en contradiction, tout en utilisant les connaissances ontologiques associées, et (2) construire des réponses cohérentes et plus complètes par la combinaisons de graphes RDF qui ne décrivent pas des assertions contradictoires. Nous présentons aussi une plateforme de stockage et interrogation de documents RDF, nommée SyRQuS, dont le moteur de recherche est intégralement construit sur la base d'une approche. La plateforme, basée sur le Web, permet l'interrogation d'une base de données à l'aide du langage de requête SPARQL
The thesis mainly focuses on information retrival through RDF documents querying. Therefore, we propose an approach able to provide complete and pertinent answers to a user formulated SPARQL query. The approach mainly consists of (1) determining, through a similarity measure, whether two RDF graphs are contradictory, by using the associated ontological knowledge, and (2) building pertinent answers through the combination of statements belonging to non contradicting RDF graphs that partially answer a given query. We also present an RDF storage and querying platform, named SyRQuS, whose query answering plan is entirely based on the former proposed querying approach. SyRQuS is a Web based plateform that mainly provides users with a querying interface where queries can be formulated using SPARQL
APA, Harvard, Vancouver, ISO, and other styles
8

Olmos, Marchant Luis Felipe. "Modélisation de performance des caches basée sur l'analyse de données." Thesis, Université Paris-Saclay (ComUE), 2016. http://www.theses.fr/2016SACLX008/document.

Full text
Abstract:
L’Internet d’aujourd’hui a une charge de trafic de plus en plus forte à cause de la prolifération des sites de vidéo, notamment YouTube. Les serveurs Cache jouent un rôle clé pour faire face à cette demande qui croît vertigineusement. Ces serveurs sont déployés à proximité de l’utilisateur, et ils gardent dynamiquement les contenus les plus populaires via des algorithmes en ligne connus comme « politiques de cache ». Avec cette infrastructure les fournisseurs de contenu peuvent satisfaire la demande de façon efficace, en réduisant l’utilisation des ressources de réseau. Les serveurs Cache sont les briques basiques des Content Delivery Networks (CDNs), que selon Cisco fourniraient plus de 70% du trafic de vidéo en 2019.Donc, d’un point de vue opérationnel, il est très important de pouvoir estimer l’efficacité d’un serveur Cache selon la politique employée et la capacité. De manière plus spécifique, dans cette thèse nous traitons la question suivante : Combien, au minimum, doit-on investir sur un serveur cache pour avoir un niveau de performance donné?Produit d’une modélisation qui ne tient pas compte de la façon dont le catalogue de contenus évolue dans le temps, l’état de l’art de la recherche fournissait des réponses inexactes à la dernière question.Dans nos travaux, nous proposons des nouveaux modèles stochastiques, basés sur les processus ponctuels, qui permettent d’incorporer la dynamique du catalogue dans l’analyse de performance. Dans ce cadre, nous avons développé une analyse asymptotique rigoureuse pour l’estimation de la performance d’un serveur Cache pour la politique « Least Recently Used » (LRU). Nous avons validé les estimations théoriques avec longues traces de trafic Internet en proposant une méthode de maximum de vraisemblance pour l’estimation des paramètres du modèle
The need to distribute massive quantities of multimedia content to multiple users has increased tremendously in the last decade. The current solution to this ever-growing demand are Content Delivery Networks, an application layer architecture that handle nowadays the majority of multimedia traffic. This distribution problem has also motivated the study of new solutions such as the Information Centric Networking paradigm, whose aim is to add content delivery capabilities to the network layer by decoupling data from its location. In both architectures, cache servers play a key role, allowing efficient use of network resources for content delivery. As a consequence, the study of cache performance evaluation techniques has found a new momentum in recent years.In this dissertation, we propose a framework for the performance modeling of a cache ruled by the Least Recently Used (LRU) discipline. Our framework is data-driven since, in addition to the usual mathematical analysis, we address two additional data-related problems: The first is to propose a model that a priori is both simple and representative of the essential features of the measured traffic; the second, is the estimation of the model parameters starting from traffic traces. The contributions of this thesis concerns each of the above tasks.In particular, for our first contribution, we propose a parsimonious traffic model featuring a document catalog evolving in time. We achieve this by allowing each document to be available for a limited (random) period of time. To make a sensible proposal, we apply the "semi-experimental" method to real data. These "semi-experiments" consist in two phases: first, we randomize the traffic trace to break specific dependence structures in the request sequence; secondly, we perform a simulation of an LRU cache with the randomized request sequence as input. For candidate model, we refute an independence hypothesis if the resulting hit probability curve differs significantly from the one obtained from original trace. With the insights obtained, we propose a traffic model based on the so-called Poisson cluster point processes.Our second contribution is a theoretical estimation of the cache hit probability for a generalization of the latter model. For this objective, we use the Palm distribution of the model to set up a probability space whereby a document can be singled out for the analysis. In this setting, we then obtain an integral formula for the average number of misses. Finally, by means of a scaling of system parameters, we obtain for the latter expression an asymptotic expansion for large cache size. This expansion quantifies the error of a widely used heuristic in literature known as the "Che approximation", thus justifying and extending it in the process.Our last contribution concerns the estimation of the model parameters. We tackle this problem for the simpler and widely used Independent Reference Model. By considering its parameter (a popularity distribution) to be a random sample, we implement a Maximum Likelihood method to estimate it. This method allows us to seamlessly handle the censor phenomena occurring in traces. By measuring the cache performance obtained with the resulting model, we show that this method provides a more representative model of data than typical ad-hoc methodologies
APA, Harvard, Vancouver, ISO, and other styles
9

Soulet, Arnaud. "Un cadre générique de découverte de motifs sous contraintes fondées sur des primitives." Phd thesis, Université de Caen, 2006. http://tel.archives-ouvertes.fr/tel-00123185.

Full text
Abstract:
La découverte de motifs est une tâche centrale pour
l'extraction de connaissances dans les bases de données. Cette thèse
traite de l'extraction de motifs locaux sous contraintes. Nous
apportons un éclairage nouveau avec un cadre combinant des primitives
monotones pour définir des contraintes quelconques. La variété de ces
contraintes exprime avec précision l'archétype des motifs recherchés
par l'utilisateur au sein d'une base de données. Nous proposons alors
deux types d'approche d'extraction automatique et générique malgré les
difficultés algorithmiques inhérentes à cette tâche. Leurs efficacités
reposent principalement sur l'usage de conditions nécessaires pour
approximer les variations de la contrainte. D'une part, des méthodes
de relaxations permettent de ré-utiliser les nombreux algorithmes
usuels du domaines. D'autre part, nous réalisons des méthodes
d'extraction directes dédiées aux motifs ensemblistes pour les données
larges ou corrélées en exploitant des classes d'équivalences. Enfin,
l'utilisation de nos méthodes ont permi la découverte de phénomènes
locaux lors d'applications industrielles et médicales.
APA, Harvard, Vancouver, ISO, and other styles
10

Chamekh, Fatma. "L’évolution du web de données basée sur un système multi-agents." Thesis, Lyon, 2016. http://www.theses.fr/2016LYSE3083/document.

Full text
Abstract:
Cette thèse porte sur la modélisation d’un système d’aide à l’évolution du web de données en utilisant un système multi-agents. Plus particulièrement, elle a pour but de guider l’utilisateur dans sa démarche de modification d’une base de connaissances RDF. Elle aborde les problématiques suivantes : intégrer de nouveaux triplets résultant de l'annotation des documents, proposer le changement adéquat dans les deux niveaux, ontologie et données, en se basant sur des mesures de similarités, analyser les effets de changements sur la qualité des données et la gestion des versions en prenant en considération d'éventuels conflits. Cette question de recherche complexe engendre plusieurs problématiques dont les réponses sont dépendantes les unes des autres. Pour cela, nous nous sommes orientées vers le paradigme agent pour décomposer le problème. Il s’agit de répartir les tâches dans des agents. La coopération entre les agents permet de répondre au besoin de dépendance évoqué ci-dessus pour bénéficier de l’aspect dynamique et combler les inconvénients d’un système modulaire classique. Le choix d’un tel écosystème nous a permis de proposer une démarche d’évaluation de la qualité des données en employant un modèle d’argumentation. Il s’agit d’établir un consensus entre les agents pour prendre en considération les trois dimensions intrinsèques : la cohérence, la concision la complétude, la validation syntaxique et sémantique. Nous avons modélisé les métriques d’évaluation de chaque dimension sous forme d’arguments. L’acceptation ou pas d’un argument se décide via les préférences des agents.Chaque modification donne lieu à une nouvelle version de la base de connaissances RDF. Nous avons choisi de garder la dernière version de la base de connaissances. Pour cette raison, nous avons choisi de préserver les URI des ressources. Pour garder la trace des changements, nous annotons chaque ressource modifiée. Néanmoins, une base de connaissances peut être modifiée par plusieurs collaborateurs ce qui peut engendrer des conflits. Ils sont conjointement le résultat d’intégration de plusieurs données et le chevauchement des buts des agents. Pour gérer ces conflits, nous avons défini des règles. Nous avons appliqué notre travail de recherche au domaine de médecine générale
In this thesis, we investigate the evolution of RDF datasets from documents and LOD. We identify the following issues : the integration of new triples, the proposition of changes by taking into account the data quality and the management of differents versions.To handle with the complexity of the web of data evolution, we propose an agent based argumentation framework. We assume that the agent specifications could facilitate the process of RDF dataset evolution. The agent technology is one of the most useful solution to cope with a complex problem. The agents work as a team and are autonomous in the sense that they have the ability to decide themselves which goals they should adopt and how these goals should be acheived. The Agents use argumentation theory to reach a consensus about the best change alternative. Relatively to this goal, we propose an argumentation model based on the metric related to the intrinsic dimensions.To keep a record of all the occured modifications, we are focused on the ressource version. In the case of a collaborative environment, several conflicts could be generated. To manage those conflicts, we define rules.The exploited domain is general medecine
APA, Harvard, Vancouver, ISO, and other styles
11

Lopez-Enriquez, Carlos-Manuel. "HyQoZ - Optimisation de requêtes hybrides basée sur des contrats SLA." Thesis, Grenoble, 2014. http://www.theses.fr/2014GRENM060/document.

Full text
Abstract:
On constate aujourd’hui une explosion de la quantité de données largement distribuées et produites par différents dispositifs (e.g. capteurs, dispositifs informatiques, réseaux, processus d’analyse) à travers de services dits de données. Dans ce contexte, il s’agit d’évaluer des requêtes dites hybrides car ils intègrent des aspects de requêtes classiques, mobiles et continues fournies par des services de données, statiques ou mobiles, en mode push ou pull. L’objectif de ma thèse est de proposer une approche pour l’optimisation de ces requêtes hybrides basée sur des préférences multicritère (i.e. SLA – Service Level Agreement). Le principe consiste à combiner les services de données et calcule pour construire un évaluateur de requêtes adapté au SLA requis par l’utilisateur, tout en considérant les conditions de QoS des services et du réseau
Today we are witnesses of the explosion of data producer massively by largely distributed of data produced by different devices (e.g. sensors, personal computers, laptops, networks) by means of data services. In this context, It is about evaluate queries named hybrid because they entails aspects related with classic queries, mobile and continuous provided by static or nomad data services in mode push or pull. The objective of my thesis is to propose an approach to optimize hybrid queries based in multi-criteria preferences (i.e. SLA – Service Level Agreement). The principle is to combine data services to construct a query evaluator adapted to the preferences expressed in the SLA whereas the state of services and network is considered as QoS measures
APA, Harvard, Vancouver, ISO, and other styles
12

Ahmad, Houda. "Une approche matérialisée basée sur les vues pour l'intégration de documents XML." Phd thesis, Grenoble 1, 2009. http://www.theses.fr/2009GRE10086.

Full text
Abstract:
Les données semi-structurées occupent une place croissante dans l'évolution du Web par le biais du langag, XML. La gestion de telles données ne s'appuie pas sur un schéma prédéfini, comme dans le cas de données structurées, gérées par exemple par le modèle relationnel. Le schéma de chaque document est auto-contenu dans le document même, et des documents similaires peuvent être représentés par des schémas différents. C'est pourquoi les algorithmes et les techniques d'intégration et d'interrogation de telles sources de données sont souvent plus complexes que ceux définis pour l'intégration et l'interrogation de sources de données structurées. L'objectif de notre travail est l'intégration de données XML en utilisant les principes d'Osiris, un prototype de SGBD¬BC, dont le concept central est celui de vue. Dans ce système, une famille d'objets est définie par une hiérarchie de vues, où chaque vue est définie par ses vues mères, ses attributs et contraintes propres. Osiris appartient à la famille des logiques de description, la vue minimale d'une famille d'objets étant assimilée à un concept primitif et ses autres vues à des concepts défmis. Vn objet d'une famille satisfait certaines de ses vues. Pour chaque famille d'objets, Osiris construit, par analyse des contraintes définies dans toutes ses vues, un espace de classement n-dimensionnel. Cet espace sert de support au classement d'objets et aussi à leur indexation. Dans cette thèse nous avons étudié l'apport des principales fonctionnalités d'Osiris - classement, indexation et optimisation sémantique des requêtes - à l'intégration de documents XML. Pour cela nous produisons un schéma cible (XML schema abstrait), qui représente un schéma Osiris; chaque document satisfaisant un schéma source (XML schema concret) est réécrit en termes du schéma cible avant de subir l'extraction des valeurs de ses entités. Les objets correspondant à ces entités sont alors classés et indexés. Le mécanisme d'optimisation sémantique des requêtes d'Osiris peut dès lors être utilisé pour extraire les objets d'intérêt pour une requête. Nous avons réalisé un prototype, nommé OSIX (Osiris-based System for the Integration ofXML sources) et nous l'avons appliqué à l'intégration et l'interrogation de documents XML simulant les données d'un hôpital
Semi-structured data play an increasing role in the development of the Web through the use ofXML. However, the management of semi-structured data poses specific problems because semi-structured data, contrary to classical databases, do not rely on a predefined schema. The schema of a document is contained in the document itself and similar documents may be represented by different schemas. Consequently, the techniques and algorithms used for querying or integrating this data are more complex than those used for structured data. The objective of our work is the integration of XML data by using the principles of Osiris, a prototype of KB-DBMS, in which views are a central concept. Ln this system, a family of objects is defined by a hierarchy of views, where a view is defined by its parent views and its own attributes and constraints. Osiris belongs to the family of Description Logics; the minimal view of a family of objects is assimilated to a primitive concept and its other views to defined concepts. An object of a family satisfies sorne ofits views. For each family of objects, Osiris builds a n-dimensional classification space by analysing the constraints defined in all of its views. This space is used for object classification and indexation. Ln this the sis we study the contribution of the main features of Osiris - classification, indexation and semantic query optimization - to the integration ofXML documents. For this purpose we produce a target schema (an abstract XML schema), who represents an Osiris schema; every document satisfying a source schema (concrete XML schema) is rewritten in terrns of the target schema before undergoing the extraction of the values ofits entities. The objects corresponding to these entities are then classified and indexed. The Osiris mechanism for semantic query optimization can then be used to extract the objects of interest of a query
APA, Harvard, Vancouver, ISO, and other styles
13

Ahmad, Houda. "Une approche matérialisée basée sur les vues pour l'intégration de documents XML." Phd thesis, Université Joseph Fourier (Grenoble), 2009. http://tel.archives-ouvertes.fr/tel-00957148.

Full text
Abstract:
Les données semi-structurées occupent une place croissante dans l'évolution du Web par le biais du langage XML. La gestion de telles données ne s'appuie pas sur un schéma pré-dé fini, comme dans le cas de données structurées, gérées par exemple par le modèle relationnel. Le schéma de chaque document est auto-contenu dans le document même, et des documents similaires peuvent être représentés par des schémas différents. C'est pourquoi les algorithmes et les techniques d'intégration et d'interrogation de telles sources de données sont souvent plus complexes que ceux défi nis pour l'intégration et l'interrogation de sources de données structurées. L'objectif de notre travail est l'intégration de données XML en utilisant les principes d'Osiris, un prototype de SGBD-BC, dont le concept central est celui de vue. Dans ce système, une famille d'objets est défi nie par une hiérarchie de vues, où chaque vue est défi nie par ses vues mères, ses attributs et contraintes propres. Osiris appartient à la famille des logiques de description, la vue minimale d'une famille d'objets étant assimilée à un concept primitif et ses autres vues à des concepts définis. Un objet d'une famille satisfait certaines de ses vues. Pour chaque famille d'objets, Osiris construit, par analyse des contraintes dé finies dans toutes ses vues, un espace de classement n-dimensionnel. Cet espace sert de support au classement d'objets et aussi à leur indexation. Dans cette thèse nous avons étudié l'apport des principales fonctionnalités d'Osiris - classement, indexation et optimisation sémantique des requêtes à l'intégration de documents XML. Pour cela nous produisons un schéma cible (XML schema abstrait), qui représente un schéma Osiris ; chaque document satisfaisant un schéma source (XML schema concret) est réécrit en termes du schéma cible avant de subir l'extraction des valeurs de ses entités. Les objets correspondant à ces entités sont alors classés et indexés. Le mécanisme d'optimisation sémantique des requêtes d'Osiris peut dès lors être utilisé pour extraire les objets d'intérêt pour une requête. Nous avons réalisé un prototype, nommé OSIX (Osiris-based System for the Integration of XML sources) et nous l'avons appliqué à l'intégration et l'interrogation de documents XML simulant les données d'un hôpital.
APA, Harvard, Vancouver, ISO, and other styles
14

Ben, Ellefi Mohamed. "La recommandation des jeux de données basée sur le profilage pour le liage des données RDF." Thesis, Montpellier, 2016. http://www.theses.fr/2016MONTT276/document.

Full text
Abstract:
Avec l’émergence du Web de données, notamment les données ouvertes liées, une abondance de données est devenue disponible sur le web. Cependant, les ensembles de données LOD et leurs sous-graphes inhérents varient fortement par rapport a leur taille, le thème et le domaine, les schémas et leur dynamicité dans le temps au niveau des données. Dans ce contexte, l'identification des jeux de données appropriés, qui répondent a des critères spécifiques, est devenue une tâche majeure, mais difficile a soutenir, surtout pour répondre a des besoins spécifiques tels que la recherche d'entités centriques et la recherche des liens sémantique des données liées. Notamment, en ce qui concerne le problème de liage des données, le besoin d'une méthode efficace pour la recommandation des jeux de données est devenu un défi majeur, surtout avec l'état actuel de la topologie du LOD, dont la concentration des liens est très forte au niveau des graphes populaires multi-domaines tels que DBpedia et YAGO, alors qu'une grande liste d'autre jeux de données considérés comme candidats potentiels pour le liage est encore ignorée. Ce problème est dû a la tradition du web sémantique dans le traitement du problème de "identification des jeux de données candidats pour le liage". Bien que la compréhension de la nature du contenu d'un jeu de données spécifique est une condition cruciale pour les cas d'usage mentionnées, nous adoptons dans cette thèse la notion de "profil de jeu de données"- un ensemble de caractéristiques représentatives pour un jeu de données spécifique, notamment dans le cadre de la comparaison avec d'autres jeux de données. Notre première direction de recherche était de mettre en œuvre une approche de recommandation basée sur le filtrage collaboratif, qui exploite à la fois les prols thématiques des jeux de données, ainsi que les mesures de connectivité traditionnelles, afin d'obtenir un graphe englobant les jeux de données du LOD et leurs thèmes. Cette approche a besoin d'apprendre le comportement de la connectivité des jeux de données dans le LOD graphe. Cependant, les expérimentations ont montré que la topologie actuelle de ce nuage LOD est loin d'être complète pour être considéré comme des données d'apprentissage.Face aux limites de la topologie actuelle du graphe LOD, notre recherche a conduit a rompre avec cette représentation de profil thématique et notamment du concept "apprendre pour classer" pour adopter une nouvelle approche pour l'identification des jeux de données candidats basée sur le chevauchement des profils intensionnels entre les différents jeux de données. Par profil intensionnel, nous entendons la représentation formelle d'un ensemble d'étiquettes extraites du schéma du jeu de données, et qui peut être potentiellement enrichi par les descriptions textuelles correspondantes. Cette représentation fournit l'information contextuelle qui permet de calculer la similarité entre les différents profils d'une manière efficace. Nous identifions le chevauchement de différentes profils à l'aide d'une mesure de similarité semantico-fréquentielle qui se base sur un classement calcule par le tf*idf et la mesure cosinus. Les expériences, menées sur tous les jeux de données lies disponibles sur le LOD, montrent que notre méthode permet d'obtenir une précision moyenne de 53% pour un rappel de 100%.Afin d'assurer des profils intensionnels de haute qualité, nous introduisons Datavore- un outil oriente vers les concepteurs de métadonnées qui recommande des termes de vocabulaire a réutiliser dans le processus de modélisation des données. Datavore fournit également les métadonnées correspondant aux termes recommandés ainsi que des propositions des triples utilisant ces termes. L'outil repose sur l’écosystème des Vocabulaires Ouverts Lies (LOV) pour l'acquisition des vocabulaires existants et leurs métadonnées
With the emergence of the Web of Data, most notably Linked Open Data (LOD), an abundance of data has become available on the web. However, LOD datasets and their inherent subgraphs vary heavily with respect to their size, topic and domain coverage, the schemas and their data dynamicity (respectively schemas and metadata) over the time. To this extent, identifying suitable datasets, which meet specific criteria, has become an increasingly important, yet challenging task to supportissues such as entity retrieval or semantic search and data linking. Particularlywith respect to the interlinking issue, the current topology of the LOD cloud underlines the need for practical and efficient means to recommend suitable datasets: currently, only well-known reference graphs such as DBpedia (the most obvious target), YAGO or Freebase show a high amount of in-links, while there exists a long tail of potentially suitable yet under-recognized datasets. This problem is due to the semantic web tradition in dealing with "finding candidate datasets to link to", where data publishers are used to identify target datasets for interlinking.While an understanding of the nature of the content of specific datasets is a crucial prerequisite for the mentioned issues, we adopt in this dissertation the notion of "dataset profile" - a set of features that describe a dataset and allow the comparison of different datasets with regard to their represented characteristics. Our first research direction was to implement a collaborative filtering-like dataset recommendation approach, which exploits both existing dataset topic proles, as well as traditional dataset connectivity measures, in order to link LOD datasets into a global dataset-topic-graph. This approach relies on the LOD graph in order to learn the connectivity behaviour between LOD datasets. However, experiments have shown that the current topology of the LOD cloud group is far from being complete to be considered as a ground truth and consequently as learning data.Facing the limits the current topology of LOD (as learning data), our research has led to break away from the topic proles representation of "learn to rank" approach and to adopt a new approach for candidate datasets identication where the recommendation is based on the intensional profiles overlap between differentdatasets. By intensional profile, we understand the formal representation of a set of schema concept labels that best describe a dataset and can be potentially enriched by retrieving the corresponding textual descriptions. This representation provides richer contextual and semantic information and allows to compute efficiently and inexpensively similarities between proles. We identify schema overlap by the help of a semantico-frequential concept similarity measure and a ranking criterion based on the tf*idf cosine similarity. The experiments, conducted over all available linked datasets on the LOD cloud, show that our method achieves an average precision of up to 53% for a recall of 100%. Furthermore, our method returns the mappings between the schema concepts across datasets, a particularly useful input for the data linking step.In order to ensure a high quality representative datasets schema profiles, we introduce Datavore| a tool oriented towards metadata designers that provides rankedlists of vocabulary terms to reuse in data modeling process, together with additional metadata and cross-terms relations. The tool relies on the Linked Open Vocabulary (LOV) ecosystem for acquiring vocabularies and metadata and is made available for the community
APA, Harvard, Vancouver, ISO, and other styles
15

Calmant, Stéphane. "Etude du comportement rhéologique de la lithosphère océanique basée sur les données spaciales." Toulouse 3, 1987. http://www.theses.fr/1987TOU30169.

Full text
Abstract:
La rheologie a grande echelle de la lithosphere oceanique est etudiee a partir des variations d'epaisseur de la couche elastique equivalente interne, mises en evidence par la reaction de la lithosphere au poids de volcans. Les donnees altimetriques de hauteurs du geoide seasat offrent une contrainte sur la geometrie et la profondeur des contrastes de densite lithospheriques pour l'ensemble du domaine marin: determination de la deflexion de la lithosphere. Les estimations obtenues ont permis de quantifier l'epaississement elastique de la lithosphere avec l'age, de discuter le modele de rajeunissement et de mettre en evidence une anomalie regionale, le pacifique central sud
APA, Harvard, Vancouver, ISO, and other styles
16

Alili, Hiba. "Intégration de données basée sur la qualité pour l'enrichissement des sources de données locales dans le Service Lake." Thesis, Paris Sciences et Lettres (ComUE), 2019. http://www.theses.fr/2019PSLED019.

Full text
Abstract:
De nos jours, d’énormes volumes de données sont créés en continu et les utilisateurs s’attendent à ce que ceux-ci soient collectés, stockés et traités quasiment en temps réel. Ainsi, les lacs de données sont devenus une solution attractive par rapport aux entrepôts de données classiques coûteux et fastidieux (nécessitant une démarche ETL), pour les entreprises qui souhaitent stocker leurs données. Malgré leurs volumes, les données stockées dans les lacs de données des entreprises sont souvent incomplètes voire non mises à jour vis-à-vis des besoins (requêtes) des utilisateurs.Les sources de données locales ont donc besoin d’être enrichies. Par ailleurs, la diversité et l’expansion du nombre de sources d’information disponibles sur le web a rendu possible l’extraction des données en temps réel. Ainsi, afin de permettre d’accéder et de récupérer l’information de manière simple et interopérable, les sources de données sont de plus en plus intégrées dans les services Web. Il s’agit plus précisément des services de données, y compris les services DaaS du Cloud Computing. L’enrichissement manuel des sources locales implique plusieurs tâches fastidieuses telles que l’identification des services pertinents, l’extraction et l’intégration de données hétérogènes, la définition des mappings service-source, etc. Dans un tel contexte, nous proposons une nouvelle approche d’intégration de données centrée utilisateur. Le but principal est d’enrichir les sources de données locales avec des données extraites à partir du web via les services de données. Cela permettrait de satisfaire les requêtes des utilisateurs tout en respectant leurs préférences en terme de coût d’exécution et de temps de réponse et en garantissant la qualité des résultats obtenus
In the Big Data era, companies are moving away from traditional data-warehouse solutions whereby expensive and timeconsumingETL (Extract, Transform, Load) processes are used, towards data lakes in order to manage their increasinglygrowing data. Yet the stored knowledge in companies’ databases, even though in the constructed data lakes, can never becomplete and up-to-date, because of the continuous production of data. Local data sources often need to be augmentedand enriched with information coming from external data sources. Unfortunately, the data enrichment process is one of themanual labors undertaken by experts who enrich data by adding information based on their expertise or select relevantdata sources to complete missing information. Such work can be tedious, expensive and time-consuming, making itvery promising for automation. We present in this work an active user-centric data integration approach to automaticallyenrich local data sources, in which the missing information is leveraged on the fly from web sources using data services.Accordingly, our approach enables users to query for information about concepts that are not defined in the data sourceschema. In doing so, we take into consideration a set of user preferences such as the cost threshold and the responsetime necessary to compute the desired answers, while ensuring a good quality of the obtained results
APA, Harvard, Vancouver, ISO, and other styles
17

Simon, Franck. "Découverte causale sur des jeux de données classiques et temporels. Application à des modèles biologiques." Electronic Thesis or Diss., Sorbonne université, 2023. http://www.theses.fr/2023SORUS528.

Full text
Abstract:
Cette thèse porte sur le domaine de la découverte causale, c’est-à-dire la construction de graphes causaux à partir de données observées, et en particulier, la découverte causale temporelle et la reconstruction de larges réseaux de régulation de gènes. Après un bref historique, ce mémoire introduit les principaux concepts, hypothèses et théorèmes aux fondements des graphes causaux ainsi que les deux grandes approches : à base de scores et à base de contraintes. La méthode MIIC (Multivariate Information-based Inductive Causation), développée au sein de notre laboratoire est ensuite décrite avec ses dernières améliorations : Interpretable MIIC. Les problématiques et solutions mises en œuvre pour construire une version temporelle (tMIIC) sont exposées ainsi que les benchmarks traduisant les avantages de tMIIC sur d’autres méthodes de l’état de l’art. L’application à des séquences d’images prises au microscope d’un environnement tumoral reconstitué sur des micro-puces permet d’illustrer les capacités de tMIIC à retrouver, uniquement à partir des données, des relations connues et nouvelles. Enfin, cette thèse introduit l’utilisation d’un a priori de conséquence pour appliquer la découverte causale à la reconstruction de réseaux de régulation de gènes. En posant l’hypothèse que tous les gènes, hormis les facteurs de transcription, sont des conséquences, il devient possible de reconstruire des graphes avec des milliers de gènes. La capacité à identifier des facteurs de transcription clés de novo est illustrée par une application à des données de séquençage d’ARN en cellules uniques avec identification de deux facteurs de transcription susceptibles d’être impliqués dans le processus biologique d’intérêt
This thesis focuses on the field of causal discovery : the construction of causal graphs from observational data, and in particular, temporal causal discovery and the reconstruction of large gene regulatory networks. After a brief history, this thesis introduces the main concepts, hypotheses and theorems underlying causal graphs as well as the two main approaches: score-based and constraint-based methods. The MIIC (Multivariate Information-based Inductive Causation) method, developed in our laboratory, is then described with its latest improvements: Interpretable MIIC. The issues and solutions implemented to construct a temporal version (tMIIC) are presented as well as benchmarks reflecting the advantages of tMIIC compared to other state-of-the-art methods. The application to sequences of images taken with a microscope of a tumor environment reconstituted on microchips illustrates the capabilities of tMIIC to recover, solely from data, known and new relationships. Finally, this thesis introduces the use of a consequence a priori to apply causal discovery to the reconstruction of gene regulatory networks. By assuming that all genes, except transcription factors, are only consequence genes, it becomes possible to reconstruct graphs with thousands of genes. The ability to identify key transcription factors de novo is illustrated by an application to single cell RNA sequencing data with the discovery of two transcription factors likely to be involved in the biological process of interest
APA, Harvard, Vancouver, ISO, and other styles
18

Verney, Philippe. "Interprétation géologique de données sismiques par une méthode supervisée basée sur la vision cognitive." Phd thesis, École Nationale Supérieure des Mines de Paris, 2009. http://pastel.archives-ouvertes.fr/pastel-00005861.

Full text
Abstract:
L'objectif de ce travail est de réaliser une nouvelle plateforme d'interprétation sismique 3D semi-automatique basée sur la connaissance géologique employée aujourd'hui par les experts du domaine. A l'heure actuelle, la majeure partie des solutions sont basées sur les traitements d'image et l'utilisation de quantités d'attributs sismiques. Elles fournissent un résultat interprétable par un expert qui réalise alors une correspondance informelle entre la nouvelle image obtenue et des objets géologiques. Nous désirons explorer une nouvelle méthodologie mettant en avant la formalisation de la connaissance utilisée dans l'interprétation sismique comme la vision cognitive le permet et le conseille. Ainsi, nous caractérisons le résultat des traitements d'images opérés sur le bloc sismique grâce à des concepts et à relations visuelles provenant d'une ontologie dédiée. Ces caractéristiques nous permettent alors de formaliser l'interprétation d'objets géologiques à partir de ces instances et ainsi de proposer de manière automatique des solutions d'interprétation d'un bloc sismique, que l'expert pourra choisir de valider. Dans ce travail, nous avons à coeur de nous concentrer sur l'identification de deux premiers objets géologiques à identifier dans une image sismique : les horizons et les failles. Une ontologie de ce domaine d'étude est proposée afin de servir de base pour la création de la plateforme.
APA, Harvard, Vancouver, ISO, and other styles
19

Nguyen, Thi Dieu Thu. "Une approche basée sur LD pour l'interrogation de données relationnelles dans le Web sémantique." Nice, 2008. http://www.theses.fr/2008NICE4007.

Full text
Abstract:
Le web sémantique est un nouveau paradigme web qui fournit un cadre commun pour des données devant être partagées et réutilisées à travers des applications, en franchissant les frontières entre les entreprises et les communautés. Le problème majeur que l'on rencontre à présent, est la manière de relier les informations provenant de différentes sources, celles-ci utilisant souvent une syntaxe et une sémantique différentes. Puisqu'aujourd'hui, la plupart des informations sont gardées dans des bases de données relationnelles, l'intégration de source de données relationnelle dans le web sémantique est donc très attendue. L'objectif de cette thèse est de fournir des méthodes et des techniques pour résoudre ce problème d'intégration des bases de données. Nous proposons une approche combinant des représentations de schémas à base d'ontologie et des logiques de descriptions. Les schémas de base de données sont conçus en utilisant la méthodologie ORM. La stabilité et la flexibilité de ORM facilite la maintenance et l'évolution des systèmes d'intégration. Un nouveau langage d'ontologie web et ses fondements logiques sont proposées afin de capturer la sémantique des sources de données relationnelles, tout en assurant le raisonnement décidable et automatique sur les informations provenant des sources. Une traduction automatisée des modèles ORM en ontologies est introduite pour permettre d'extraire la sémantique des données rapidement et sans faillibilité. Ce mécanisme prévoit la coexistence d'autre sources d'informations, tel que l'hypertexte, intégrées à l'environnement web sémantique. Cette thèse constitue une avancée dans un certain nombre de domaine, notamment dans l'intégration de données, l'ingénierie des ontologies, les logiques de descriptions, et la modélisation conceptuelle. Ce travail pourra fournir les fondations pour d'autres investigations pour intégrer les données provenant de sources relationnelles vers le web sémantique
The Semantic Web is a new Web paradigm that provides a common framework for data to be shared and reused across applications, enterprises and community boundaries. The biggest problem we face right now is a way to ``link'' information coming from different sources that are often heterogeneous syntactically as well as semantically. Today much information is stored in relational databases. Thus data integration from relational sources into the Semantic Web is in high demand. The objective of this thesis is to provide methods and techniques to address this problem. It proposes an approach based on a combination of ontology-based schema representation and description logics. Database schemas in the approach are designed using ORM methodology. The stability and flexibility of ORM facilitate the maintenance and evolution of integration systems. A new web ontology language and its logic foundation are proposed in order to capture the semantics of relational data sources while still assuring a decidable and automated reasoning over information from the sources. An automatic translation of ORM models into ontologies is introduced to allow capturing the data semantics without laboriousness and fallibility. This mechanism foresees the coexistence of others sources, such as hypertext, integrated into the Semantic Web environment. This thesis constitutes the advances in many fields, namely data integration, ontology engineering, description logics, and conceptual modeling. It is hoped to provide a foundation for further investigations of data integration from relational sources into the Semantic Web
APA, Harvard, Vancouver, ISO, and other styles
20

Qiu, Han. "Une architecture de protection des données efficace basée sur la fragmentation et le cryptage." Electronic Thesis or Diss., Paris, ENST, 2017. http://www.theses.fr/2017ENST0049.

Full text
Abstract:
Une architecture logicielle de protection de données entièrement revisité basé sur le chiffrement sélectif est présentée. Tout d’abord, ce nouveau schéma est agnostique en terme de format de données (multimedia ou textuel). Deuxièmement, son implémentation repose sur une architecture parallèle utilisant un GPGPU de puissance moyenne permettant aux performances d’être comparable aux algorithmes de chiffrement utilisant l’architecture NI proposée par Intel particulièrement adaptée. Le format bitmap, en tant que format multimédia non compressé, est abordé comme un premier cas d’étude puis sera utilisé comme format pivot pour traiter tout autre format. La transformée en cosinus discrète (DCT) est la première transformation considérée pour fragmenter les données, les protéger et les stocker séparément sur des serveurs locaux et sur un cloud public. Ce travail a contribué à largement améliorer les précédents résultats publiés pour la protection sélective d’image bitmap en proposant une nouvelle architecture et en fournissant des expérimentations pratiques. L’unité de traitement graphique à usage général (GPGPU) est exploitée pour optimiser l’efficacité du calcul par rapport aux algorithmes traditionnels de chiffrement (tel que AES). Puis, un chiffrement sélectif agnostique basé sur la transformée en ondelettes discrètes sans perte (DWT) est présenté. Cette conception, avec des expérimentations pratiques sur différentes configurations matérielles, offre à la fois un fort niveau de protection et de bonnes performances en même temps que des possibilités de dispersion de stockage flexibles. Notre solution agnostique de protection de données combinant fragmentation, chiffrement et dispersion est applicable à une large gamme d’applications par un utilisateur final. Enfin, un ensemble complet d’analyses de sécurité est déployé pour s’assurer du bon niveau de protection fourni même pour les fragments les moins bien protégés
In this thesis, a completely revisited data protection scheme based on selective encryption is presented. First, this new scheme is agnostic in term of data format, second it has a parallel architecture using GPGPU allowing performance to be at least comparable to full encryption algorithms. Bitmap, as a special uncompressed multimedia format, is addressed as a first use case. Discrete Cosine Transform (DCT) is the first transformation for splitting fragments, getting data protection, and storing data separately on local device and cloud servers. This work has largely improved the previous published ones for bitmap protection by providing new designs and practical experimentations. General purpose graphic processing unit (GPGPU) is exploited as an accelerator to guarantee the efficiency of the calculation compared with traditional full encryption algorithms. Then, an agnostic selective encryption based on lossless Discrete Wavelet Transform (DWT) is presented. This design, with practical experimentations on different hardware configurations, provides strong level of protection and good performance at the same time plus flexible storage dispersion schemes. Therefore, our agnostic data protection and transmission solution combining fragmentation, encryption, and dispersion is made available for a wide range of end-user applications. Also a complete set of security analysis are deployed to test the level of provided protection
APA, Harvard, Vancouver, ISO, and other styles
21

Al-Najdi, Atheer. "Une approche basée sur les motifs fermés pour résoudre le problème de clustering par consensus." Thesis, Université Côte d'Azur (ComUE), 2016. http://www.theses.fr/2016AZUR4111/document.

Full text
Abstract:
Le clustering est le processus de partitionnement d’un ensemble de données en groupes, de sorte que les instances du même groupe sont plus semblables les unes aux autres qu’avec celles de tout autre groupe. De nombreux algorithmes de clustering ont été proposés, mais aucun d’entre eux ne s’avère fournir une partitiondes données pertinente dans toutes les situations. Le clustering par consensus vise à améliorer le processus de regroupement en combinant différentes partitions obtenues à partir de divers algorithmes afin d’obtenir une solution de consensus de meilleure qualité. Dans ce travail, une nouvelle méthode de clustering par consensus, appelée MultiCons, est proposée. Cette méthode utilise la technique d’extraction des itemsets fréquents fermés dans le but de découvrir les similitudes entre les différentes solutions de clustering dits de base. Les similitudes identifiées sont représentées sous une forme de motifs de clustering, chacun définissant un accord entre un ensemble de clusters de bases sur le regroupement d’un ensemble d’instances. En traitant ces motifs par groupes, en fonction du nombre de clusters de base qui définissent le motif, la méthode MultiCons génère une solution de consensus pour chaque groupe, générant par conséquence plusieurs consensus candidats. Ces différentes solutions sont ensuite représentées dans une structure arborescente appelée arbre de consensus, ouConsTree. Cette représentation graphique facilite la compréhension du processus de construction des multiples consensus, ainsi que les relations entre les instances et les structures d’instances dans l’espace de données
Clustering is the process of partitioning a dataset into groups, so that the instances in the same group are more similar to each other than to instances in any other group. Many clustering algorithms were proposed, but none of them proved to provide good quality partition in all situations. Consensus clustering aims to enhance the clustering process by combining different partitions obtained from different algorithms to yield a better quality consensus solution. In this work, a new consensus clustering method, called MultiCons, is proposed. It uses the frequent closed itemset mining technique in order to discover the similarities between the different base clustering solutions. The identified similarities are presented in a form of clustering patterns, that each defines the agreement between a set of base clusters in grouping a set of instances. By dividing these patterns into groups based on the number of base clusters that define the pattern, MultiCons generates a consensussolution from each group, resulting in having multiple consensus candidates. These different solutions are presented in a tree-like structure, called ConsTree, that facilitates understanding the process of building the multiple consensuses, and also the relationships between the data instances and their structuring in the data space. Five consensus functions are proposed in this work in order to build a consensus solution from the clustering patterns. Approach 1 is to just merge any intersecting clustering patterns. Approach 2 can either merge or split intersecting patterns based on a proposed measure, called intersection ratio
APA, Harvard, Vancouver, ISO, and other styles
22

Bouker, Slim. "Contribution à l'extraction des règles d'association basée sur des préférences." Thesis, Clermont-Ferrand 2, 2015. http://www.theses.fr/2015CLF22585/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
23

Ta, Minh Thuy. "Techniques d'optimisation non convexe basée sur la programmation DC et DCA et méthodes évolutives pour la classification non supervisée." Thesis, Université de Lorraine, 2014. http://www.theses.fr/2014LORR0099/document.

Full text
Abstract:
Nous nous intéressons particulièrement, dans cette thèse, à quatre problèmes en apprentissage et fouille de données : clustering pour les données évolutives, clustering pour les données massives, clustering avec pondération de variables et enfin le clustering sans connaissance a priori du nombre de clusters avec initialisation optimale des centres de clusters. Les méthodes que nous décrivons se basent sur des approches d’optimisation déterministe, à savoir la programmation DC (Difference of Convex functions) et DCA (Difference of Convex Algorithms), pour la résolution de problèmes de clustering cités précédemment, ainsi que des approches évolutionnaires élitistes. Nous adaptons l’algorithme de clustering DCA–MSSC pour le traitement de données évolutives par fenêtres, en appréhendant les données évolutives avec deux modèles : fenêtres fixes et fenêtres glissantes. Pour le problème du clustering de données massives, nous utilisons l’algorithme DCA en deux phases. Dans la première phase, les données massives sont divisées en plusieurs sous-ensembles, sur lesquelles nous appliquons l’algorithme DCA–MSSC pour effectuer un clustering. Dans la deuxième phase, nous proposons un algorithme DCA-Weight pour effectuer un clustering pondéré sur l’ensemble des centres obtenues à la première phase. Concernant le clustering avec pondération de variables, nous proposons également deux approches: clustering dur avec pondération de variables et clustering floue avec pondération de variables. Nous testons notre approche sur un problème de segmentation d’image. Le dernier problème abordé dans cette thèse est le clustering sans connaissance a priori du nombre des clusters. Nous proposons pour cela une approche évolutionnaire élitiste. Le principe consiste à utiliser plusieurs algorithmes évolutionnaires (EAs) en même temps, de les faire concourir afin d’obtenir la meilleure combinaison de centres initiaux pour le clustering et par la même occasion le nombre optimal de clusters. Les différents tests réalisés sur plusieurs ensembles de données de grande taille sont très prometteurs et montrent l’efficacité des approches proposées
This thesis focus on four problems in data mining and machine learning: clustering data streams, clustering massive data sets, weighted hard and fuzzy clustering and finally the clustering without a prior knowledge of the clusters number. Our methods are based on deterministic optimization approaches, namely the DC (Difference of Convex functions) programming and DCA (Difference of Convex Algorithm) for solving some classes of clustering problems cited before. Our methods are also, based on elitist evolutionary approaches. We adapt the clustering algorithm DCA–MSSC to deal with data streams using two windows models: sub–windows and sliding windows. For the problem of clustering massive data sets, we propose to use the DCA algorithm with two phases. In the first phase, massive data is divided into several subsets, on which the algorithm DCA–MSSC performs clustering. In the second phase, we propose a DCA–Weight algorithm to perform a weighted clustering on the obtained centers in the first phase. For the weighted clustering, we also propose two approaches: weighted hard clustering and weighted fuzzy clustering. We test our approach on image segmentation application. The final issue addressed in this thesis is the clustering without a prior knowledge of the clusters number. We propose an elitist evolutionary approach, where we apply several evolutionary algorithms (EAs) at the same time, to find the optimal combination of initial clusters seed and in the same time the optimal clusters number. The various tests performed on several sets of large data are very promising and demonstrate the effectiveness of the proposed approaches
APA, Harvard, Vancouver, ISO, and other styles
24

Couchot, Alain. "Analyse statique de la terminaison des règles actives basée sur la notion de chemin maximal." Paris 12, 2001. http://www.theses.fr/2001PA120042.

Full text
Abstract:
Les règles actives sont destinées à doter les bases de données d'un comportement réactif. Une règle active se compose de trois éléments principaux: l'événement, la condition, l'action. Il est souhaitable de garantir a priori la terminaison d'un ensemble de règles actives. Le but de cette thèse est d'augmenter le nombre de situations de terminaison détectées par l'analyse statique. Nous cernons tout d'abord un certain nombre de limitations des méthodes d'analyse statique de la terminaison des règles actives proposées par le passé. Nous développons ensuite un algorithme d'analyse statique de la terminaison basé sur la notion de chemin maximal d'un noeud. La notion de chemin maximal est destinée à remplacer la notion de cycle, employée par les algorithmes de terminaison antérieurs. Nous présentons un certain nombre d'applications et d'extensions de notre algorithme de terminaison. Ces extensions et applications concernent les règles non incluses dans un cycle, les conditions composites, les événements composites, les priorités entre règles, ainsi que la conception modulaire de règles actives. Nous présentons également présenté une extension significative de la méthode RTG, permettant d'inclure dans une formule de déclenchement des atomes dépendants de la base de données
The active rules are intended to enrich the databases with a reactive behaviour. An active rule is composed of three main components: the event, the condition, the action. It is desired to guarantee a priori the termination of a set of active rules. The aim of this thesis is to increase the number of termination situations detected by the static analysis. We first determine some restrictions of the previous static analysis methods. We develop then an algorithm for static analysis of termination based on the notion of maximal path of a node. The notion of maximal path is intended to replace the notion of cycle, used by the previous termination algorithms. We present some applications and extensions of our termination algorithm. These extensions and applications concern the active rules flot included in a cycle, the composite conditions, the composite events, the priorities between ailes, and the modular design of rules. .
APA, Harvard, Vancouver, ISO, and other styles
25

Chaari, Anis. "Nouvelle approche d'identification dans les bases de données biométriques basée sur une classification non supervisée." Phd thesis, Université d'Evry-Val d'Essonne, 2009. http://tel.archives-ouvertes.fr/tel-00549395.

Full text
Abstract:
Les travaux effectués dans le cadre de cette thèse portent sur l'identification automatique de visages dans des bases de données d'images numériques. L'objectif est de simplifier le déroulement de l'identification biométrique qui consiste à la recherche de l'identité requête parmi l'ensemble des individus de la base de données préenregistrée, appelée aussi galerie. En effet, le schéma d'identification classique est complexe et très coûteux notamment dans le cas de grandes bases de données biométriques. Le processus original que nous proposons ici a pour objectif de réduire la complexité et d'améliorer les performances en terme de temps de calcul et de taux d'identification. Dans ce cadre biométrique, nous avons proposé une étape de classification non supervisée ou clustering des visages pour partitionner la base d'images en plusieurs sous ensembles cohérents et bien discriminés. Pour ce faire, l'algorithme de clustering vise à extraire, pour chaque visage, un ensemble de descripteurs, appelé signature, qui lui soit spécifique. Trois techniques de représentation faciales ont été développées dans le but d'extraire des informations différentes et complémentaires décrivant le visage humain : deux méthodes factorielles d'analyse multidimensionnelle et de projection des données (méthodes dites « Eigenfaces » et « Fisherfaces ») ainsi qu'une méthode d'extraction des moments géométriques de Zernike. Sur la base des différentes classes de signatures extraites pour chaque visage plusieurs méthodes de clustering sont mises en compétition afin de dégager la classification optimale qui conduit à une meilleure réduction de la galerie. Les méthodes retenues sont, soit de type « centres mobiles » telles que les K-moyennes et les centres mobiles de Forgy, ou de type « agglomérative » telle que la méthode de BIRCH. Sur la base de la dépendance des partitions générées, ces différentes stratégies classificatoires sont ensuite combinées suivant une architecture parallèle de manière à optimiser la réduction de l'espace de recherche à un sous ensemble de la base de données. Les clusters retenus in fine étant ceux pour lesquels la probabilité d'appartenance de l'identité requête est quasi certaine.
APA, Harvard, Vancouver, ISO, and other styles
26

Aoun-Allah, Mohamed. "Le forage distribué des données : une approche basée sur l'agrégation et le raffinement de modèles." Thesis, Université Laval, 2006. http://www.theses.ulaval.ca/2006/23393/23393.pdf.

Full text
Abstract:
Avec l’informatisation accrue de toutes les sphères d’activités de la société, nous assistons de nos jours à une explosion de la quantité de données électroniques existantes. C’est pourquoi, nous devons avoir recours à des outils automatiques qui sont à même d’analyser automatiquement les données et de ne nous fournir que l’information pertinente et résumée par rapport à ce qui est recherché. Les techniques de forage de données sont généralement utilisées à cette fin. Cependant, ces dernières nécessitent généralement un temps de calcul considérable afin d’analyser un large volume de données. Par ailleurs, si les données sont géographiquement distribuées, les regrouper sur un même site pour y créer un modèle (un classificateur par exemple) peut s’avérer très coûteux. Pour résoudre ce problème, nous proposons de construire plusieurs modèles, et plus précisément plusieurs classificateurs, soit un classificateur par site. Ensuite, les règles constituant ces classificateurs sont regroupées puis filtrées en se basant sur certaines mesures statistiques et une validation effectuée à partir de très petits échantillons provenant de chacun des sites. Le modèle résultant, appelé méta-classificateur, est, d’une part, un outil de prédiction pour toute nouvelle instance et, d’autre part, une vue abstraite de tout l’ensemble de données. Nous basons notre approche de filtrage de règles de classification sur une mesure de confiance associée à chaque règle qui est calculée statistiquement et validée en utilisant les échantillons recueillis. Nous avons considéré plusieurs techniques de validation tel qu’il sera présenté dans cette thèse.
With the pervasive use of computers in all spheres of activity in our society, we are faced nowadays with the explosion of electronic data. This is why we need automatic tools that are able to automatically analyze the data in order to provide us with relevant and summarized information with respect to some query. For this task, data mining techniques are generally used. However, these techniques require considerable computing time in order to analyze a huge volume of data. Moreover, if the data is geographically distributed, gathering it on the same site in order to create a model (a classifier for instance) could be time consuming. To solve this problem, we propose to build several models, that is one classifier by site. Then, rules constituting these classifiers are aggregated and filtered based on some statistical measures, and a validation process is carried out on samples from each site. The resulting model, called a metaclassifier is, on one hand, a prediction tool for any new (unseen) instance and, on the other hand, an abstract view of the whole data set. We base our rule filtering approach on a confidence measure associated with each rule, which is computed statistically and then validated using the data samples (one from each site). We considered several validation techniques such as will be discussed in this thesis.
APA, Harvard, Vancouver, ISO, and other styles
27

Boudoin, Pierre. "L'interaction 3D adaptative : une approche basée sur les méthodes de traitement de données multi-capteurs." Phd thesis, Université d'Evry-Val d'Essonne, 2010. http://tel.archives-ouvertes.fr/tel-00553369.

Full text
Abstract:
La réalité virtuelle est un domaine touchant à plusieurs disciplines. Par le biais de l'interaction 3D l'Homme peut accomplir des tâches dans un environnement virtuel en utilisant des techniques d'interaction 3D. Ces techniques sont souvent mono-tâches et s'appuient sur l'utilisation de matériel de réalité virtuelle bien spécifique. Le passage d'une tâche de l'interaction 3D à une autre est le plus souvent à la charge de l'utilisateur, ou bien du programmeur. Cependant de nombreux problèmes sont présents dans ces systèmes, dits de réalité virtuelle. En effet, des problèmes matériels le plus souvent dû aux technologies utilisées sont présents et peuvent induire un comportement erratique du système. De plus, il peut arriver que les techniques d'interaction 3D ne soient pas adaptées à l'application de réalité virtuelle, ou que celles-ci soient trop complexes à utiliser pour le novice. Tous ces problèmes nuisent à l'immersion de l'être humain dans l'environnement virtuel ainsi qu'aux performances de l'interaction 3D et donc à l'accomplissement de la tâche dans l'application de réalité virtuelle. L'objectif de ce travail est de proposer un système d'interaction 3D adaptative. Par interaction 3D adaptative, on cherche à définir une interaction 3D qui soit continue tant au niveau des données qu'au basculement d'une tâche à l'autre. Nous avons donc modélisé et conçu un ensemble de composants pour accomplir cet objectif. Nous avons modélisé une technique d'interaction 3D pouvant être utilisé de manière continue même lors du basculement d'une tâche. Nous avons également conçu un système qui permet d'automatiser le basculement d'une tâche de l'interaction 3D vers une autre en estimant la tâche que souhaite accomplir l'utilisateur. Enfin, un dernier composant a pour rôle d'améliorer la précision et de garantir la continuité du tracking.
APA, Harvard, Vancouver, ISO, and other styles
28

Marteau, Hubert. "Une méthode d'analyse de données textuelles pour les sciences sociales basée sur l'évolution des textes." Tours, 2005. http://www.theses.fr/2005TOUR4028.

Full text
Abstract:
Le but est d'apporter aux sociologues un outil informatique permettant l'analyse d'entretiens ouverts semi-directifs. Le traitement est en deux étapes : une indexation des entretiens suivi d'une classification. Les méthodes d'indexation habituelles reposent sur une analyse statistiques plus adaptées à des textes de contenu et de structure (textes littéraires, scientifiques,. . . ) marqués qu'à des entretiens limités à l'usage de peu de mots (1000 mots pour des textes de discussion). Partant de l'hypothèse que l'appartenance sociologique induit fortement la forme du discours, nous évaluons la structure et l'évolution des textes en proposant de nouvelles représentations des textes (image, signal) qui conduisent à l'extraction de valeurs indexant le texte, mesures statiques ou liées à l'évolution du texte. La classification choisie est arborée (NJ). Elle repose sur ces caractéristiques par sa faible complexité et son respects des distances, elle fournit une aide à la classification
This PhD Thesis aims at bringing to sociologists a data-processing tool wich allows them to analyse of semi-directing open talks. The proposed tool performs in two steps : an indexation of the talks followed by a classification. Usually, indexing methods rely on a general stastistical analysis. Such methods are suited for texts having contents and structure ( literary texts, scientific texts,. . . ). These texts have more vocabulary and structure than talks (limitation to 1000 words for suche texts). On the basis of the assumption that the sociological membership strongly induces the form of the speech, we propose various methods to evaluate the structure and the evolution of the texts. The methods attempt to find new representations of texts (image, signal) and to extract values from these new representations. Selected classification is a classification by trees (NJ). It has a low complexity and it respects distances, then this method is a good solution to provide a help to classification
APA, Harvard, Vancouver, ISO, and other styles
29

Lo, Céline. "Fermeture de la turbulence au second-ordre proche paroi basée sur l'analyse de données DNS." Paris 6, 2011. http://www.theses.fr/2011PA066632.

Full text
Abstract:
Cette étude a pour objectif le développement et la validation d'un modèle de turbulence au second-ordre bas-Reynolds indépendant des paramètres géométriques liés aux parois (normales et distances). Ce modèle a été développé sur la base du modèle proposé par Gerolymos et Vallet en 2001. Cette nouvelle fermeture comprend une nouvelle modélisation de la diffusion de pression, du terme de redistribution et du tenseur de dissipation. En particulier, la partie lente du terme de redistribution et la partie anisotrope du tenseur de dissipation de l'équation de transport des tensions de Reynolds sont découplées, contrairement au modèle de Gerolymos et Vallet. La validation de ce modèle a été réalisée sur plusieurs configurations : écoulement dans un canal plan 1-D quasi-incompressible et compressible, écoulement subsonique sur une plaque plane 2-D, intéraction onde de choc/couche limite turbulente en écoulement 2-D supersonique avec décollement, écoulement subsonique 2-D dans un diffuseur asymétrique plan avec large zone de recirculation, écoulement 3-D dans un canal coudé en S. Les résultats obtenus sont satisfaisants et améliorent ceux du modèle de Gerolymos et Vallet, notamment concernant la prédiction du décollement et du recollement de la couche limite et du coefficient de pression. Une étude détaillée des termes de l'équation de transport des tensions de Reynolds par des calculs a priori a été minutieusement effectuée. Cette analyse a été possible grâce à la base de données de simulation numérique directe d'un écoulement quasi-incompressible dans un canal plan 1-D développée au cours de la thèse de Dorothée Sénéchal en 2009. Celle-ci donne accès à toutes les corrélations triples de vitesse intervenant dans le calcul de la corrélation pression-vitesse de l'équation de transport des tensions de Reynolds ainsi qu'à la décomposition en partie lente et rapide, homogène et inhomogène, proposée par Chou, de toutes les corrélations faisant intervenir la fluctuation de pression. Afin de fournir une représentation commune à tous les modèles pour le terme de redistribution, une base de représentation pôlynomiale incluant les termes inhomogènes a été développée. Nous avons mis en évidence que la prédiction de l'équation de transport du taux de dissipation de l'énergie cinétique turbulente ne pouvait pas influencer la prédiction proche paroi des tensions de Reynolds. Une des conclusions de cette étude est que la modélisation d'une équation de transport pour le tenseur de dissipation doit être envisagée pour prédire correctement le comportement proche paroi de la turbulence. Finalement, des suggestions sont données pour améliorer le modèle
APA, Harvard, Vancouver, ISO, and other styles
30

Zendjebil, Iman mayssa. "Localisation 3D basée sur une approche de suppléance multi-capteurs pour la réalité augmentée mobile en milieu extérieur." Thesis, Evry-Val d'Essonne, 2010. http://www.theses.fr/2010EVRY0024/document.

Full text
Abstract:
La démocratisation des terminaux mobiles telle que les téléphones cellulaires, les PDAs et les tablettes PC a rendu possible le déploiement de la réalité augmentée dans des environnements en extérieur à grande échelle. Cependant, afin de mettre en œuvre de tels systèmes, différentes problématiques doivent êtres traitées. Parmi elle, la localisation représente l’une des plus importantes. En effet, l’estimation de la position et de l’orientation (appelée pose) du point de vue (de la caméra ou de l’utilisateur) permet de recaler les objets virtuels sur les parties observées de la scène réelle. Dans nos travaux de thèse, nous présentons un système de localisation original destiné à des environnements à grande échelle qui utilise une approche basée vision sans marqueur pour l’estimation de la pose de la caméra. Cette approche se base sur des points caractéristiques naturels extraits des images. Etant donné que ce type d’approche est sensible aux variations de luminosité, aux occultations et aux mouvements brusques de la caméra, qui sont susceptibles de survenir dans l’environnement extérieur, nous utilisons deux autres types de capteurs afin d’assister le processus de vision. Dans nos travaux, nous voulons démontrer la faisabilité d’un schéma de suppléance dans des environnements extérieurs à large échelle. Le but est de fournir un système palliatif à la vision en cas de défaillance permettant également de réinitialiser le système de vision en cas de besoin. Le système de localisation vise à être autonome et adaptable aux différentes situations rencontrées
The democratization of mobile devices such as smartphones, PDAs or tablet-PCs makes it possible to use Augmented Reality systems in large scale environments. However, in order to implement such systems, many issues must be adressed. Among them, 3D localization is one of the most important. Indeed, the estimation of the position and orientation (also called pose) of the viewpoint (of the camera or the user) allows to register the virtual objects over the visible part of the real world. In this paper, we present an original localization system for large scale environments which uses a markerless vision-based approach to estimate the camera pose. It relies on natural feature points extracted from images. Since this type of method is sensitive to brightness changes, occlusions and sudden motion which are likely to occur in outdoor environment, we use two more sensors to assist the vision process. In our work, we would like to demonstrate the feasibility of an assistance scheme in large scale outdoor environment. The intent is to provide a fallback system for the vision in case of failure as well as to reinitialize the vision system when needed. The complete localization system aims to be autonomous and adaptable to different situations. We present here an overview of our system, its performance and some results obtained from experiments performed in an outdoor environment under real conditions
APA, Harvard, Vancouver, ISO, and other styles
31

Ta, Minh Thuy. "Techniques d'optimisation non convexe basée sur la programmation DC et DCA et méthodes évolutives pour la classification non supervisée." Electronic Thesis or Diss., Université de Lorraine, 2014. http://www.theses.fr/2014LORR0099.

Full text
Abstract:
Nous nous intéressons particulièrement, dans cette thèse, à quatre problèmes en apprentissage et fouille de données : clustering pour les données évolutives, clustering pour les données massives, clustering avec pondération de variables et enfin le clustering sans connaissance a priori du nombre de clusters avec initialisation optimale des centres de clusters. Les méthodes que nous décrivons se basent sur des approches d’optimisation déterministe, à savoir la programmation DC (Difference of Convex functions) et DCA (Difference of Convex Algorithms), pour la résolution de problèmes de clustering cités précédemment, ainsi que des approches évolutionnaires élitistes. Nous adaptons l’algorithme de clustering DCA–MSSC pour le traitement de données évolutives par fenêtres, en appréhendant les données évolutives avec deux modèles : fenêtres fixes et fenêtres glissantes. Pour le problème du clustering de données massives, nous utilisons l’algorithme DCA en deux phases. Dans la première phase, les données massives sont divisées en plusieurs sous-ensembles, sur lesquelles nous appliquons l’algorithme DCA–MSSC pour effectuer un clustering. Dans la deuxième phase, nous proposons un algorithme DCA-Weight pour effectuer un clustering pondéré sur l’ensemble des centres obtenues à la première phase. Concernant le clustering avec pondération de variables, nous proposons également deux approches: clustering dur avec pondération de variables et clustering floue avec pondération de variables. Nous testons notre approche sur un problème de segmentation d’image. Le dernier problème abordé dans cette thèse est le clustering sans connaissance a priori du nombre des clusters. Nous proposons pour cela une approche évolutionnaire élitiste. Le principe consiste à utiliser plusieurs algorithmes évolutionnaires (EAs) en même temps, de les faire concourir afin d’obtenir la meilleure combinaison de centres initiaux pour le clustering et par la même occasion le nombre optimal de clusters. Les différents tests réalisés sur plusieurs ensembles de données de grande taille sont très prometteurs et montrent l’efficacité des approches proposées
This thesis focus on four problems in data mining and machine learning: clustering data streams, clustering massive data sets, weighted hard and fuzzy clustering and finally the clustering without a prior knowledge of the clusters number. Our methods are based on deterministic optimization approaches, namely the DC (Difference of Convex functions) programming and DCA (Difference of Convex Algorithm) for solving some classes of clustering problems cited before. Our methods are also, based on elitist evolutionary approaches. We adapt the clustering algorithm DCA–MSSC to deal with data streams using two windows models: sub–windows and sliding windows. For the problem of clustering massive data sets, we propose to use the DCA algorithm with two phases. In the first phase, massive data is divided into several subsets, on which the algorithm DCA–MSSC performs clustering. In the second phase, we propose a DCA–Weight algorithm to perform a weighted clustering on the obtained centers in the first phase. For the weighted clustering, we also propose two approaches: weighted hard clustering and weighted fuzzy clustering. We test our approach on image segmentation application. The final issue addressed in this thesis is the clustering without a prior knowledge of the clusters number. We propose an elitist evolutionary approach, where we apply several evolutionary algorithms (EAs) at the same time, to find the optimal combination of initial clusters seed and in the same time the optimal clusters number. The various tests performed on several sets of large data are very promising and demonstrate the effectiveness of the proposed approaches
APA, Harvard, Vancouver, ISO, and other styles
32

Maiz, Nora. "Intégration de données par médiation basée sur les ontologies pour l'analyse en ligne (OLAP) à la demande." Thesis, Lyon 2, 2010. http://www.theses.fr/2010LYO20050.

Full text
Abstract:
Les systèmes d’aide à la décision existants sont modélisés selon un modèle multidimensionneldédié à l’analyse. Leurs principales limitations sont leur structure statique, leur volume et lefait qu’ils ne prennent pas en compte ni l’évolution des sources de données ni celle desbesoins d’analyse. Dans cette thèse, nous proposons une architecture dynamique pourl’analyse en ligne à la demande qui est différente d’un entreposage physique de données dansune base cible avec un modèle figé. Les données dans notre architecture peuvent continuer àévoluer et dans leur contenu et dans leur structure selon l’activité ou l’environnement qu’ellesdécrivent. Le recueil de données et leur structuration sous forme de contextes d’analyse se faitdonc au moment où l’on souhaite effectuer les diverses analyses envisagées. L’accès auxsources de données ne se fera alors qu’à ce moment.Pour pouvoir mettre en oeuvre cette architecture, nous envisageons une solution selon deuxgrands axes :– La construction d’un système d’intégration de données fondé sur une approche parmédiation. Afin de rendre la recherche de données pertinente, il fallait décrire defaçon plus proche de la réalité les sources de données. Pour cela, nous avons optépour l’utilisation des ontologies comme modèle de description des sources ainsique de leurs relations.– La mise en place d’un dispositif de création de contextes d’analyse à la demandesous forme de cubes de données. Ce dispositif est basé également sur l’utilisationde l’ontologie du domaine décisionnel et d’un entrepôt de cubes de données
Current decisional systems are modelled according to a multidimensional model which, isdedicated to on-line analysis. Their principal limitations lie in their structure, their volume andthat they do not take into account data sources and analysis needs evolution. In this thesis, wepropose a dynamic architecture for on-line analysis on-the-fly which is different fromwarehousing data in a target base with a fixed model.In our architecture, data can continue to evolve in their sources according to the activity thatthey describe. Collecting and structuring data in analysis contexts is when we want to makeanalysis.To implement this architecture, we consider a solution composed of two main parts:- The construction of a data integration system by mediation based on ontologies.- The implementation of a dispositive to building analysis contexts on-the-fly which isbased on ontologies to describe the decisional domain
APA, Harvard, Vancouver, ISO, and other styles
33

Shahzad, Atif. "Une Approche Hybride de Simulation-Optimisation Basée sur la fouille de Données pour les problèmes d'ordonnancement." Phd thesis, Université de Nantes, 2011. http://tel.archives-ouvertes.fr/tel-00647353.

Full text
Abstract:
Une approche hybride basée sur la fouille de données pour découvrir de nouvelles règles de priorité pour le problème l'ordonnancement job-shop est présentée. Cette approche est basée sur la recherche de connaissances supposées être intégrés dans les solutions efficaces fournies par un module d'optimisation préalablement mis en oeuvre et utilisant la recherche tabou. L'objectif est de découvrir les principes directeurs de l'ordonnancement à l'aide de la fouille de données et donc d'obtenir un ensemble de règles capables d'obtenir des solutions efficaces pour un problème d'ordonnancement. Une structure basée sur fouille de données est présentée et mise en œuvre pour un problème de job shop avec comme objectifs le retard maximum et le retard moyen. Les résultats obtenus sont très prometteurs.
APA, Harvard, Vancouver, ISO, and other styles
34

Merino, Laso Pedro. "Détection de dysfonctionements et d'actes malveillants basée sur des modèles de qualité de données multi-capteurs." Thesis, Ecole nationale supérieure Mines-Télécom Atlantique Bretagne Pays de la Loire, 2017. http://www.theses.fr/2017IMTA0056/document.

Full text
Abstract:
Les systèmes navals représentent une infrastructure stratégique pour le commerce international et les activités militaires. Ces systèmes sont de plus en plus informatisés afin de réaliser une navigation optimale et sécurisée. Pour atteindre cet objectif, une grande variété de systèmes embarqués génèrent différentes informations sur la navigation et l'état des composants, ce qui permet le contrôle et le monitoring à distance. Du fait de leur importance et de leur informatisation, les systèmes navals sont devenus une cible privilégiée des pirates informatiques. Par ailleurs, la mer est un environnement rude et incertain qui peut produire des dysfonctionnements. En conséquence, la prise de décisions basée sur des fausses informations à cause des anomalies, peut être à l'origine de répercussions potentiellement catastrophiques.Du fait des caractéristiques particulières de ces systèmes, les méthodologies classiques de détection d'anomalies ne peuvent pas être appliquées tel que conçues originalement. Dans cette thèse nous proposons les mesures de qualité comme une potentielle alternative. Une méthodologie adaptée aux systèmes cyber-physiques a été définie pour évaluer la qualité des flux de données générés par les composants de ces systèmes. À partir de ces mesures, une nouvelle approche pour l'analyse de scénarios fonctionnels a été développée. Des niveaux d'acceptation bornent les états de normalité et détectent des mesures aberrantes. Les anomalies examinées par composant permettent de catégoriser les détections et de les associer aux catégories définies par le modèle proposé. L'application des travaux à 13 scénarios créés pour une plate-forme composée par deux cuves et à 11 scénarios pour deux drones aériens a servi à démontrer la pertinence et l'intérêt de ces travaux
Naval systems represent a strategic infrastructure for international commerce and military activity. Their protection is thus an issue of major importance. Naval systems are increasingly computerized in order to perform an optimal and secure navigation. To attain this objective, on board vessel sensor systems provide navigation information to be monitored and controlled from distant computers. Because of their importance and computerization, naval systems have become a target for hackers. Maritime vessels also work in a harsh and uncertain operational environments that produce failures. Navigation decision-making based on wrongly understood anomalies can be potentially catastrophic.Due to the particular characteristics of naval systems, the existing detection methodologies can't be applied. We propose quality evaluation and analysis as an alternative. The novelty of quality applications on cyber-physical systems shows the need for a general methodology, which is conceived and examined in this dissertation, to evaluate the quality of generated data streams. Identified quality elements allow introducing an original approach to detect malicious acts and failures. It consists of two processing stages: first an evaluation of quality; followed by the determination of agreement limits, compliant with normal states to identify and categorize anomalies. The study cases of 13 scenarios for a simulator training platform of fuel tanks and 11 scenarios for two aerial drones illustrate the interest and relevance of the obtained results
APA, Harvard, Vancouver, ISO, and other styles
35

Shahzad, Muhammad Atif. "Une approche hybride de simulation-optimisation basée sur la fouille de données pour les problèmes d'ordonnancement." Nantes, 2011. http://archive.bu.univ-nantes.fr/pollux/show.action?id=53c8638a-977a-4b85-8c12-6dc88d92f372.

Full text
Abstract:
Une approche hybride basée sur la fouille de données pour découvrir de nouvelles règles de priorité pour le problème d'ordonnancement job-shop est présentée. Cette approche est basée sur la recherche de connaissances supposées être intégrés dans les solutions efficaces fournies par un module d'optimisation préalablement mis en oeuvre et utilisant la recherche tabou. L'objectif est de découvrir les principes directeurs de l’ordonnancement à l'aide de la fouille de données et donc d'obtenir un ensemble de règles capables d’obtenir des solutions efficaces pour un problème d'ordonnancement. Une structure basée sur fouille de données est présentée et mise en oeuvre pour un problème de job shop avec comme objectifs le retard maximum et le retard moyen. Les résultats obtenus sont très prometteurs
A data mining based approach to discover previously unknown priority dispatching rules for job shop scheduling problem is presented. This approach is based upon seeking the knowledge that is assumed to be embedded in the efficient solutions provided by the optimization module built using tabu search. The objective is to discover the scheduling concepts using data mining and hence to obtain a set of rules capable of approximating the efficient solutions for a job shop scheduling problem (JSSP). A data mining based scheduling framework is presented and implemented for a job shop problem with maximum lateness and mean tardiness as the scheduling objectives. The results obtained are very promising
APA, Harvard, Vancouver, ISO, and other styles
36

Sidibe, Ibrahima dit Bouran. "Analyse non-paramétrique des politiques de maintenance basée sur des données des durées de vie hétérogènes." Thesis, Université de Lorraine, 2014. http://www.theses.fr/2014LORR0081/document.

Full text
Abstract:
Dans la littérature, plusieurs travaux ont été développés autour de la modélisation, l’analyse et la mise en place de politiques de maintenance pour les équipements sujets à des défaillances aléatoires. Ces travaux occultent souvent les réalités industrielles par des hypothèses telles que la connaissance a priori des distributions paramétriques des durées de vie et l’homogénéité des conditions d’exploitation des équipements. Ces hypothèses sont restrictives et constituent une source de biais parce qu’elles conditionnent l’analyse statistique des politiques de maintenance. Dans ce présent travail de thèse, de telles hypothèses sont relaxées pour permettre la prise en compte et la mise en valeurs des informations dérivant directement des données de durées vie issues de l’exploitation de l’équipement et ce sans passer par un modèle paramétrique intermédiaire. L’objectif de ce travail de thèse consiste alors en le développement de modèles statistiques et d’outils efficaces pour l’analyse des politiques de maintenance basées sur les données de durées de vie hétérogènes. Nous proposons en effet une démarche complète d’analyse de stratégies de maintenance en partant des données de durées de vie jusqu’à l’obtention des politiques optimales de maintenance en passant par une phase d’estimation des lois de probabilité. Les politiques de maintenance considérées sont appliques à des équipements usagés évoluant dans des environnements d’exploitation distingués par leur niveau de sévérité. Dans ce contexte, un modèle mathématique est proposé permettant d’évaluer et d’analyser théoriquement les coûts unitaires d’une stratégie de maintenance particulière dite de type âge. Cette analyse a permis d’établir les conditions nécessaires et suffisantes garantissant un âge optimal de remplacement préventif de l’équipement. Les coûts unitaires de maintenance sont complètement estimés par la méthode du Noyau de Parzen. Cette méthode d’estimation est non-paramétrique et définie par une fonction noyau et un paramètre de lissage. Il est également montré, dans nos travaux de recherche, que cet estimateur garantit une faible propagation des erreurs induites par le paramètre de lissage. Les résultats obtenus par la méthode du Noyau de Parzen sont proches des valeurs théoriques avec un faible coefficient de variation. Des extensions de la première politique de maintenance sont également proposées et étudiées. Ce travail de thèse s’achève par la proposition d’une approche permettant de mesurer et d’analyser le risque induit par le report d’une maintenance préventive. Ce risque est analysé à travers une fonction risque proposée
In the reliability literature, several researches works have been developed to deal with modeling, analysis and implementation of maintenance policies for equipments subject to random failures. The majority of these works are based on common assumptions among which the distribution function of the equipment lifetimes is assumed to be known. Furthermore, the equipment is assumed to experience only one operating environment. Such assumptions are indeed restrictive and may introduce a bias in the statistical analysis of the distribution function of the equipment lifetimes which in turn impacts optimization of maintenance policies. In the present research work, these two particular assumptions are relaxed. This relaxation allows to take into account of information related to conditions where the equipment is being operating and to focus on the statistical analysis of maintenance policies without using an intermediate parametric lifetimes distribution. The objective of this thesis consists then on the development of efficient statistical models and tools for managing the maintenance of equipments whose lifetimes distribution is unknown and defined through the heterogeneous lifetimes data. Indeed, this thesis proposes a framework for maintenance strategies determination, from lifetimes data acquisition toward the computation of optimal maintenance policies. The maintenance policies considered are assumed to be performed on used equipments. These later are conduct to experience their missions within different environments each of which is characterized by a degree of severity. In this context, a first mathematical model is proposed to evaluate costs induced by maintenance strategies. The analysis of these costs helps to establish the necessary and sufficient conditions to ensure the existence of an optimal age to perform the preventive maintenance. The maintenance costs are fully estimated by using the Kernel method. This estimation method is non-parametric and defined by two parameters, namely the kernel function and the smoothing parameter. The variability of maintenance costs estimator is deeply analyzed according to the smoothing parameter of Kernel method. From these analyses, it is shown that Kernel estimator method ensures a weak propagation of the errors due to the computation of smoothing parameter. In addition, several simulations are made to estimate the optimal replacement age. These simulations figure out that the numerical results from the Kernel method are close to the theoretical values with a weak coefficient of variation. Two probabilistic extensions of the first mathematical model are proposed and theoretically discussed. To deal with the problem of delayed preventive maintenance, an approach is proposed and discussed. The proposed approach allows evaluating the risk that could induce the delay taken to perform a preventive maintenance at the required optimal date. This approach is based on risk analysis conduct on the basis of a proposed risk function
APA, Harvard, Vancouver, ISO, and other styles
37

Sidibe, Ibrahima dit Bouran. "Analyse non-paramétrique des politiques de maintenance basée sur des données des durées de vie hétérogènes." Electronic Thesis or Diss., Université de Lorraine, 2014. http://www.theses.fr/2014LORR0081.

Full text
Abstract:
Dans la littérature, plusieurs travaux ont été développés autour de la modélisation, l’analyse et la mise en place de politiques de maintenance pour les équipements sujets à des défaillances aléatoires. Ces travaux occultent souvent les réalités industrielles par des hypothèses telles que la connaissance a priori des distributions paramétriques des durées de vie et l’homogénéité des conditions d’exploitation des équipements. Ces hypothèses sont restrictives et constituent une source de biais parce qu’elles conditionnent l’analyse statistique des politiques de maintenance. Dans ce présent travail de thèse, de telles hypothèses sont relaxées pour permettre la prise en compte et la mise en valeurs des informations dérivant directement des données de durées vie issues de l’exploitation de l’équipement et ce sans passer par un modèle paramétrique intermédiaire. L’objectif de ce travail de thèse consiste alors en le développement de modèles statistiques et d’outils efficaces pour l’analyse des politiques de maintenance basées sur les données de durées de vie hétérogènes. Nous proposons en effet une démarche complète d’analyse de stratégies de maintenance en partant des données de durées de vie jusqu’à l’obtention des politiques optimales de maintenance en passant par une phase d’estimation des lois de probabilité. Les politiques de maintenance considérées sont appliques à des équipements usagés évoluant dans des environnements d’exploitation distingués par leur niveau de sévérité. Dans ce contexte, un modèle mathématique est proposé permettant d’évaluer et d’analyser théoriquement les coûts unitaires d’une stratégie de maintenance particulière dite de type âge. Cette analyse a permis d’établir les conditions nécessaires et suffisantes garantissant un âge optimal de remplacement préventif de l’équipement. Les coûts unitaires de maintenance sont complètement estimés par la méthode du Noyau de Parzen. Cette méthode d’estimation est non-paramétrique et définie par une fonction noyau et un paramètre de lissage. Il est également montré, dans nos travaux de recherche, que cet estimateur garantit une faible propagation des erreurs induites par le paramètre de lissage. Les résultats obtenus par la méthode du Noyau de Parzen sont proches des valeurs théoriques avec un faible coefficient de variation. Des extensions de la première politique de maintenance sont également proposées et étudiées. Ce travail de thèse s’achève par la proposition d’une approche permettant de mesurer et d’analyser le risque induit par le report d’une maintenance préventive. Ce risque est analysé à travers une fonction risque proposée
In the reliability literature, several researches works have been developed to deal with modeling, analysis and implementation of maintenance policies for equipments subject to random failures. The majority of these works are based on common assumptions among which the distribution function of the equipment lifetimes is assumed to be known. Furthermore, the equipment is assumed to experience only one operating environment. Such assumptions are indeed restrictive and may introduce a bias in the statistical analysis of the distribution function of the equipment lifetimes which in turn impacts optimization of maintenance policies. In the present research work, these two particular assumptions are relaxed. This relaxation allows to take into account of information related to conditions where the equipment is being operating and to focus on the statistical analysis of maintenance policies without using an intermediate parametric lifetimes distribution. The objective of this thesis consists then on the development of efficient statistical models and tools for managing the maintenance of equipments whose lifetimes distribution is unknown and defined through the heterogeneous lifetimes data. Indeed, this thesis proposes a framework for maintenance strategies determination, from lifetimes data acquisition toward the computation of optimal maintenance policies. The maintenance policies considered are assumed to be performed on used equipments. These later are conduct to experience their missions within different environments each of which is characterized by a degree of severity. In this context, a first mathematical model is proposed to evaluate costs induced by maintenance strategies. The analysis of these costs helps to establish the necessary and sufficient conditions to ensure the existence of an optimal age to perform the preventive maintenance. The maintenance costs are fully estimated by using the Kernel method. This estimation method is non-parametric and defined by two parameters, namely the kernel function and the smoothing parameter. The variability of maintenance costs estimator is deeply analyzed according to the smoothing parameter of Kernel method. From these analyses, it is shown that Kernel estimator method ensures a weak propagation of the errors due to the computation of smoothing parameter. In addition, several simulations are made to estimate the optimal replacement age. These simulations figure out that the numerical results from the Kernel method are close to the theoretical values with a weak coefficient of variation. Two probabilistic extensions of the first mathematical model are proposed and theoretically discussed. To deal with the problem of delayed preventive maintenance, an approach is proposed and discussed. The proposed approach allows evaluating the risk that could induce the delay taken to perform a preventive maintenance at the required optimal date. This approach is based on risk analysis conduct on the basis of a proposed risk function
APA, Harvard, Vancouver, ISO, and other styles
38

Thonet, Thibaut. "Modèles thématiques pour la découverte non supervisée de points de vue sur le Web." Thesis, Toulouse 3, 2017. http://www.theses.fr/2017TOU30167/document.

Full text
Abstract:
Les plateformes en ligne telles que les blogs et les réseaux sociaux permettent aux internautes de s'exprimer sur des sujets d'une grande variété (produits commerciaux, politique, services, etc.). Cet important volume de données d'opinions peut être exploré et exploité grâce à des techniques de fouille de texte connues sous le nom de fouille d'opinions ou analyse de sentiments. Contrairement à la majorité des travaux actuels en fouille d'opinions, qui se focalisent sur les opinions simplement positives ou négatives (ou un intermédiaire entre ces deux extrêmes), nous nous intéressons dans cette thèse aux points de vue. La fouille de point de vue généralise l'opinion au delà de son acception usuelle liée à la polarité (positive ou négative) et permet l'étude d'opinions exprimées plus subtilement, telles que les opinions politiques. Nous proposons dans cette thèse des approches non supervisées - ne nécessitant aucune annotation préalable - basées sur des modèles thématiques probabilistes afin de découvrir simultanément les thèmes et les points de vue exprimés dans des corpus de textes d'opinion. Dans notre première contribution, nous avons exploré l'idée de différencier mots d'opinions (spécifiques à la fois à un point de vue et à un thème) et mots thématiques (dépendants du thème mais neutres vis-à-vis des différents points de vue) en nous basant sur les parties de discours, inspirée par des pratiques similaires dans la littérature de fouille d'opinions classique - restreinte aux opinions positives et négatives. Notre seconde contribution se focalise quant à elle sur les points de vue exprimés sur les réseaux sociaux. Notre objectif est ici d'analyser dans quelle mesure l'utilisation des interactions entre utilisateurs, en outre de leur contenu textuel généré, est bénéfique à l'identification de leurs points de vue. Nos différentes contributions ont été évaluées et comparées à l'état de l'art sur des collections de documents réels
The advent of online platforms such as weblogs and social networking sites provided Internet users with an unprecedented means to express their opinions on a wide range of topics, including policy and commercial products. This large volume of opinionated data can be explored and exploited through text mining techniques known as opinion mining or sentiment analysis. Contrarily to traditional opinion mining work which mostly focuses on positive and negative opinions (or an intermediate in-between), we study a more challenging type of opinions: viewpoints. Viewpoint mining reaches beyond polarity-based opinions (positive/negative) and enables the analysis of more subtle opinions such as political opinions. In this thesis, we proposed unsupervised approaches – i.e., approaches which do not require any labeled data – based on probabilistic topic models to jointly discover topics and viewpoints expressed in opinionated data. In our first contribution, we explored the idea of separating opinion words (specific to both viewpoints and topics) from topical, neutral words based on parts of speech, inspired by similar practices in the litterature of non viewpoint-related opinion mining. Our second contribution tackles viewpoints expressed by social network users. We aimed to study to what extent social interactions between users – in addition to text content – can be beneficial to identify users' viewpoints. Our different contributions were evaluated and benchmarked against state-of-the-art baselines on real-world datasets
APA, Harvard, Vancouver, ISO, and other styles
39

Auclair, Beaudry Jean-Sébastien. "Modelage de contexte simplifié pour la compression basée sur la transformée en cosinus discrète." Mémoire, Université de Sherbrooke, 2009. http://savoirs.usherbrooke.ca/handle/11143/1511.

Full text
Abstract:
Le manque grandissant de médecins spécialistes à l'extérieur des grands centres influe négativement sur' la qualité des soins reçus par les patients. Une solution possible à ce problème est la supervision des médecins généralistes en région par des spécialistes disponibles dans les grands centres. Cette supervision à distance nécessite le développement de technologies répondant aux besoins précis de celle-ci. Dans le cadre de ce projet de recherche, la transmission de l'image est considérée. En vue de développer un codec vidéo adéquat pour l'application dans le futur, le codec intra-image est étudié. Plus précisément, le but recherché est de simplifier et de rendre parallélisable le codec AGU 1 [PONOMARENKO et coll., 2005] sans en réduire les performances en deça des performances de JPEG2000 [SxoDRAS et coll., 2001]. Ces améliorations facilitent la réalisation matérielle du codec en réduisant la latence si critique aux applications de télésupervision. Pour accomplir ces objectifs, le modelage du contexte du codec AGU doit être modifié. La méthodologie proposée passe par l'implémentation du codec AGU, l'étude de la source de données et la modification du modelage de contexte. La modification en question est le remplacement de l'utilisation d'une méthode adaptative basée sur un arbre de conditions par un réseau de neurones. Au terme de cette recherche, le réseau de neurones utilisé comme modeleur de contexte s'avère être un succès. Une structure à neuf entrées et aucune couche cachée est utilisée et permet de rendre presque triviale l'opération de modelage du contexte en gardant des performances supérieures à JPEG2000 en moyenne. La performance est inférieure à JPEG2000 pour une seule image de test sur cinq. Dans le futur, il est possible d'étudier comment améliorer davantage ce codec intra-image à travers l'utilisation d'un meilleur réseau de neurones ou d'une transformée différente. Il est également souhaitable d'étudier comment faire évoluer le codec en un codec inter-image.
APA, Harvard, Vancouver, ISO, and other styles
40

Jaillet, Simon. "Catégorisation automatique de documents textuels : D'une représentation basée sur les concepts aux motifs séquentiels." Montpellier 2, 2005. http://www.theses.fr/2005MON20030.

Full text
APA, Harvard, Vancouver, ISO, and other styles
41

Nguyen, Thu Thi Dieu. "Une approche basée sur la logique de description pour l'intégration de données relationnelles dans le web sémantique." Phd thesis, Université de Nice Sophia-Antipolis, 2008. http://tel.archives-ouvertes.fr/tel-00507482.

Full text
Abstract:
Le web sémantique est un nouveau paradigme web qui fournit un cadre commun pour des données devant être partagées et réutilisées à travers des applications, en franchissant les frontières entre les entreprises et les communautés. Le problème majeur que l'on rencontre à présent, est la manière de relier les informations provenant de différentes sources, celles-ci utilisant souvent une syntaxe et une sémantique différentes. Puisqu'aujourd'hui, la plupart des informations sont gardées dans des bases de données relationnelles, l'intégration de source de données relationnelle dans le web sémantique est donc très attendue.
L'objectif de cette thèse est de fournir des méthodes et des techniques pour résoudre ce problème d'intégration des bases de données. Nous proposons une approche combinant des représentations de schémas à base d'ontologie et des logiques de descriptions. Les schémas de base de données sont conçus en utilisant la méthodologie ORM. La stabilité et la flexibilité de ORM facilite la maintenance et l'évolution des systèmes d'intégration. Un nouveau langage d'ontologie web et ses fondements logiques sont proposées afin de capturer la sémantique des sources de données relationnelles, tout en assurant le raisonnement décidable et automatique sur les informations provenant des sources. Une traduction automatisée des modèles ORM en ontologies est introduite pour permettre d'extraire la sémantique des données rapidement et sans faillibilité. Ce mécanisme prévoit la coexistence d'autre sources d'informations, tel que l'hypertexte, intégrées à l'environnement web sémantique.
Cette thèse constitue une avancée dans un certain nombre de domaine, notamment dans l'intégration de données, l'ingénierie des ontologies, les logiques de descriptions, et la modélisation conceptuelle. Ce travail pourra fournir les fondations pour d'autres investigations pour intégrer les données provenant de sources relationnelles vers le web sémantique.
APA, Harvard, Vancouver, ISO, and other styles
42

Christine, Heritier-Pingeon. "Une aide à la conception de systèmes de production basée sur la simulation et l'analyse de données." Phd thesis, INSA de Lyon, 1991. http://tel.archives-ouvertes.fr/tel-00840151.

Full text
Abstract:
Les formes nouvelles de la concurrence imposent aux systèmes de production une flexibilité de plus en plus grande. Dans le cas de systèmes automatisés, les décisions prises lors de la conception vont fortement conditionner les possibilités du futur système ainsi que ses capacités d'adaptation aux changements, donc son degré de flexibilité. Le travail contenu dans ce mémoire s'attache précisément à l'étude de méthodes et d'outils d'aide à la décision pour la conception de systèmes de production. Le lecteur est d'abord introduit au domaine puis aux outils et méthodes utilisés. Le modèle d'atelier qui sert de support à la démarche est alors présenté : il est suivi d'une réflexion sur la construction des campagnes de simulations conduites à partir de ce modèle, réflexion concrétisée par la définition d'un module de génération automatique de plans de simulations associés au modèle d'atelier choisi. L'analyse des données utilisées comme méthode d'acquisition des connaissances sur le comportement des systèmes de production est ensuite envisagée : une méthode d'analyse est proposée et expérimentée. Ce travail a été développé avec le souci constant d'explorer les possibilités de l'analyse de données dans le domaine et d'évaluer ces possibilités sur la base de nombreuses expériences.
APA, Harvard, Vancouver, ISO, and other styles
43

Xu, Hao. "Estimation statistique d'atlas probabiliste avec les données multimodales et son application à la segmentation basée sur l'atlas." Phd thesis, Ecole Polytechnique X, 2014. http://pastel.archives-ouvertes.fr/pastel-00969176.

Full text
Abstract:
Les atlases d'anatomie informatisé jouent un rôle important dans l'analyse d'images médicales. Cependant un atlas se réfère généralement à une image standard ou une moyenne d'image aussi appelé template, qui probablement représente bien d'une population observée, il ne suffit pas pour caractériser la population observée en détail. Un template doit être apprises conjointement avec la variabilité géométrique des formes représentées dans les observations. Ces deux quantités seront par la suite former l'atlas de la population correspondante. La variabilité géométrique est modélisée comme des déformations du template de sorte qu'il s'adapte aux observations. Dans la première partie du travail, nous fournissons un nouveau modèle statistique générative basée sur des templates déformables denses qui représente plusieurs types de tissus observés dans les images médicales. Notre atlas contient à la fois une estimation des templates probabiliste de chaque tissu (appelée classes) et la métrique de déformation. Nous utilisons un algorithme stochastique pour l'estimation de l'atlas probabilistes donné un ensemble de données. Cet atlas est ensuite utilisé pour la méthode de segmentation basée sur l'atlas pour segmenter les nouvelles images. Expériences sont montrées sur les images T1 du cerveau. Les analyses traditionnelles d'imagerie de résonance magnétique fonctionnelle utilisent peu d'informations anatomies. Le recalage des images vers un template est basé sur l'anatomie individuelle et ne tient pas compte des informations fonctionnelles, donc les activations détectées ne se limitent pas à la matière grise. Dans la deuxième partie du travail, on propose un modèle statistique pour estimer un atlas probabiliste de l'IRM fonctionnelle et T1 qui résume à la fois des informations anatomies et fonctionnelles et la variabilité géométrique de la population. Le recalage et la segmentation sont effectuées conjointement pendant l'estimation de l'atlas et l'activité fonctionnelle est limitée à la matière grise, augmenter la précision de l'atlas. Inférer l'abondance des protéines de l'intensité de peptides est l'étape clé dans la protéomique quantitative. La conclusion est nécessairement plus précis quand de nombreux peptides sont pris en compte pour une protéine donnée. Pourtant, l'information apportée par les peptides partagées par différentes protéines est souvent jeté. Dans la troisième partie du travail, nous proposons un système statistique basée sur une modèle hiérarchique à inclure cette information. Notre méthodologie, basée sur une analyse simultanée de tous les peptides quantifiés, gère les erreurs biologiques et techniques ainsi que l'effet des peptides. En outre, nous proposons une mise en œuvre pratique adapté à l'analyse de grandes bases de données. Par rapport à une méthode basée sur l'analyse d'une protéine à la fois (ce qui ne comprend pas les peptides partagés), notre méthodologie s'est révélée être beaucoup plus fiable pour estimer l'abondance de protéines et de tester les changements d'abondance.
APA, Harvard, Vancouver, ISO, and other styles
44

Heritier-Pingeon, Christine. "Une aide à la conception de systèmes de production basée sur la simulation et l'analyse de données." Lyon, INSA, 1991. http://tel.archives-ouvertes.fr/docs/00/84/01/51/PDF/1991_Heritier-Pingeon_Christine.pdf.

Full text
Abstract:
Les formes nouvelles de la concurrence imposent aux systèmes de production une flexibilité de plus en plus grande. Dans le cas de systèmes automatisés, les décisions prises lors de la conception vont fortement conditionner les possibilités du futur système ainsi que ses capacités d'adaptation aux changements, donc son degré de flexibilité. Le travail contenu dans ce mémoire s'attache précisément à l'étude de méthodes et d'outils d'aide à la décision pour la conception de systèmes de production. Le lecteur est d'abord introduit au domaine puis aux outils et méthodes utilisés. Le modèle d'atelier qui sert de support à la démarche est alors présenté : il est suivi d'une réflexion sur la construction des campagnes de simulations conduites à partir de ce modèle, réflexion concrétisée par la définition d'un module de génération automatique de plans de simulations associés au modèle d'atelier choisi. L'analyse des données utilisées comme méthode d'acquisition des connaissances sur le comportement des systèmes de production est ensuite envisagée : une méthode d'analyse est proposée et expérimentée. Ce travail a été développé avec le souci constant d'explorer les possibilités de l'analyse de données dans le domaine et d'évaluer ces possibilités sur la base de nombreuses expériences
New forms of competition are leading manufacturing systems to more and more flexibility. In the case of highly automated systems, decisions taken in the design phase will have a great influence on the possibilities of the future system and also on its ease of adaptation to changes, and thus on its degree of flexibility. This work is a study of methods and tools for decision support in the design of manufacturing systems. The reader is first introduced to the scope and then to the tools and methods employed. The workshop 's model which is used as a support for the approach is then presented and the construction of a simulation plan considered These considerations are then put into a concrete form by defining an automated generation module for simulation plans which are associated to the chosen workshop model. Data analysis which is used as a knowledge acquisition method is considered a method of analysis is proposed and tested. This work was developed to explore data analysis possibilities in this field and to evaluate these possibilities on the base of numerous experiments
APA, Harvard, Vancouver, ISO, and other styles
45

Vo, Nguyen Dang Khoa. "Compression vidéo basée sur l'exploitation d'un décodeur intelligent." Thesis, Nice, 2015. http://www.theses.fr/2015NICE4136/document.

Full text
Abstract:
Cette thèse de doctorat étudie le nouveau concept de décodeur intelligent (SDec) dans lequel le décodeur est doté de la possibilité de simuler l’encodeur et est capable de mener la compétition R-D de la même manière qu’au niveau de l’encodeur. Cette technique vise à réduire la signalisation des modes et des paramètres de codage en compétition. Le schéma général de codage SDec ainsi que plusieurs applications pratiques sont proposées, suivis d’une approche en amont qui exploite l’apprentissage automatique pour le codage vidéo. Le schéma de codage SDec exploite un décodeur complexe capable de reproduire le choix de l’encodeur calculé sur des blocs de référence causaux, éliminant ainsi la nécessité de signaler les modes de codage et les paramètres associés. Plusieurs applications pratiques du schéma SDec sont testées, en utilisant différents modes de codage lors de la compétition sur les blocs de référence. Malgré un choix encore simple et limité des blocs de référence, les gains intéressants sont observés. La recherche en amont présente une méthode innovante qui permet d’exploiter davantage la capacité de traitement d’un décodeur. Les techniques d’apprentissage automatique sont exploitées pour but de réduire la signalisation. Les applications pratiques sont données, utilisant un classificateur basé sur les machines à vecteurs de support pour prédire les modes de codage d’un bloc. La classification des blocs utilise des descripteurs causaux qui sont formés à partir de différents types d’histogrammes. Des gains significatifs en débit sont obtenus, confirmant ainsi le potentiel de l’approche
This Ph.D. thesis studies the novel concept of Smart Decoder (SDec) where the decoder is given the ability to simulate the encoder and is able to conduct the R-D competition similarly as in the encoder. The proposed technique aims to reduce the signaling of competing coding modes and parameters. The general SDec coding scheme and several practical applications are proposed, followed by a long-term approach exploiting machine learning concept in video coding. The SDec coding scheme exploits a complex decoder able to reproduce the choice of the encoder based on causal references, eliminating thus the need to signal coding modes and associated parameters. Several practical applications of the general outline of the SDec scheme are tested, using different coding modes during the competition on the reference blocs. Despite the choice for the SDec reference block being still simple and limited, interesting gains are observed. The long-term research presents an innovative method that further makes use of the processing capacity of the decoder. Machine learning techniques are exploited in video coding with the purpose of reducing the signaling overhead. Practical applications are given, using a classifier based on support vector machine to predict coding modes of a block. The block classification uses causal descriptors which consist of different types of histograms. Significant bit rate savings are obtained, which confirms the potential of the approach
APA, Harvard, Vancouver, ISO, and other styles
46

Sellami, Akrem. "Interprétation sémantique d'images hyperspectrales basée sur la réduction adaptative de dimensionnalité." Thesis, Ecole nationale supérieure Mines-Télécom Atlantique Bretagne Pays de la Loire, 2017. http://www.theses.fr/2017IMTA0037/document.

Full text
Abstract:
L'imagerie hyperspectrale permet d'acquérir des informations spectrales riches d'une scène dans plusieurs centaines, voire milliers de bandes spectrales étroites et contiguës. Cependant, avec le nombre élevé de bandes spectrales, la forte corrélation inter-bandes spectrales et la redondance de l'information spectro-spatiale, l'interprétation de ces données hyperspectrales massives est l'un des défis majeurs pour la communauté scientifique de la télédétection. Dans ce contexte, le grand défi posé est la réduction du nombre de bandes spectrales inutiles, c'est-à-dire de réduire la redondance et la forte corrélation de bandes spectrales tout en préservant l'information pertinente. Par conséquent, des approches de projection visent à transformer les données hyperspectrales dans un sous-espace réduit en combinant toutes les bandes spectrales originales. En outre, des approches de sélection de bandes tentent à chercher un sous-ensemble de bandes spectrales pertinentes. Dans cette thèse, nous nous intéressons d'abord à la classification d'imagerie hyperspectrale en essayant d'intégrer l'information spectro-spatiale dans la réduction de dimensions pour améliorer la performance de la classification et s'affranchir de la perte de l'information spatiale dans les approches de projection. De ce fait, nous proposons un modèle hybride permettant de préserver l'information spectro-spatiale en exploitant les tenseurs dans l'approche de projection préservant la localité (TLPP) et d'utiliser l'approche de sélection non supervisée de bandes spectrales discriminantes à base de contraintes (CBS). Pour modéliser l'incertitude et l'imperfection entachant ces approches de réduction et les classifieurs, nous proposons une approche évidentielle basée sur la théorie de Dempster-Shafer (DST). Dans un second temps, nous essayons d'étendre le modèle hybride en exploitant des connaissances sémantiques extraites à travers les caractéristiques obtenues par l'approche proposée auparavant TLPP pour enrichir la sélection non supervisée CBS. En effet, l'approche proposée permet de sélectionner des bandes spectrales pertinentes qui sont à la fois informatives, discriminantes, distinctives et peu redondantes. En outre, cette approche sélectionne les bandes discriminantes et distinctives en utilisant la technique de CBS en injectant la sémantique extraite par les techniques d'extraction de connaissances afin de sélectionner d'une manière automatique et adaptative le sous-ensemble optimal de bandes spectrales pertinentes. La performance de notre approche est évaluée en utilisant plusieurs jeux des données hyperspectrales réelles
Hyperspectral imagery allows to acquire a rich spectral information of a scene in several hundred or even thousands of narrow and contiguous spectral bands. However, with the high number of spectral bands, the strong inter-bands spectral correlation and the redundancy of spectro-spatial information, the interpretation of these massive hyperspectral data is one of the major challenges for the remote sensing scientific community. In this context, the major challenge is to reduce the number of unnecessary spectral bands, that is, to reduce the redundancy and high correlation of spectral bands while preserving the relevant information. Therefore, projection approaches aim to transform the hyperspectral data into a reduced subspace by combining all original spectral bands. In addition, band selection approaches attempt to find a subset of relevant spectral bands. In this thesis, firstly we focus on hyperspectral images classification attempting to integrate the spectro-spatial information into dimension reduction in order to improve the classification performance and to overcome the loss of spatial information in projection approaches.Therefore, we propose a hybrid model to preserve the spectro-spatial information exploiting the tensor model in the locality preserving projection approach (TLPP) and to use the constraint band selection (CBS) as unsupervised approach to select the discriminant spectral bands. To model the uncertainty and imperfection of these reduction approaches and classifiers, we propose an evidential approach based on the Dempster-Shafer Theory (DST). In the second step, we try to extend the hybrid model by exploiting the semantic knowledge extracted through the features obtained by the previously proposed approach TLPP to enrich the CBS technique. Indeed, the proposed approach makes it possible to select a relevant spectral bands which are at the same time informative, discriminant, distinctive and not very redundant. In fact, this approach selects the discriminant and distinctive spectral bands using the CBS technique injecting the extracted rules obtained with knowledge extraction techniques to automatically and adaptively select the optimal subset of relevant spectral bands. The performance of our approach is evaluated using several real hyperspectral data
APA, Harvard, Vancouver, ISO, and other styles
47

Teguiak, Henry Valery. "Construction d'ontologies à partir de textes : une approche basée sur les transformations de modèles." Chasseneuil-du-Poitou, Ecole nationale supérieure de mécanique et d'aérotechnique, 2012. http://tel.archives-ouvertes.fr/docs/00/78/62/60/PDF/ISAE-ENSMA_2012-12-12_Thesis_TEGUIAK.pdf.

Full text
Abstract:
Depuis son émergence au début des années 1990, la notion d'ontologie s'est rapidement diffusée dans un grand nombre de domaines de recherche. Compte tenu du caractère prometteur de cette notion, de nombreux travaux portent sur l'utilisation des ontologies dans des domaines aussi divers que la recherche d'information, le commerce électronique, le web sémantique, l'intégration de données, etc. L'efficacité de tous ces travaux présuppose l'existence d'une ontologie de domaine susceptible d'être utilisée. Or, la conception d'une telle ontologie s'avère particulièrement difficile si l'on souhaite qu'elle fasse l'objet de consensus. S'il existe des outils utilisés pour éditer une ontologie supposée déjà conçue, et s'il existe également plusieurs plate-formes de traitement automatique de la langue permettant d'analyser automatiquement les corpus et de les annoter tant du point de vue syntaxique que statistique, il est difficile de trouver une procédure globalement acceptée, ni a fortiori un ensemble d'outils supports permettant de concevoir une ontologie de domaine de façon progressive, explicite et traçable à partir d'un ensemble de ressources informationnelles relevant de ce domaine. L'objectif du projet ANR DaFOE4App (Differential and Formal Ontologies Editor for Application), dans lequel s'inscrit notre travail, était de favoriser l'émergence d'un tel ensemble d'outils. Contrairement à d'autres outils de construction d'ontologies, la plate-forme DaFOE, présentée dans cette thèse, ne propose pas un processus de construction figé ni en nombre d'étapes, ni sur la représentation des étapes. En effet, dans cette thèse nous généralisons le processus de construction d'ontologies pour un nombre quelconque d'étapes. L'intérêt d'une telle généralisation étant, par exemple, d'offrir la possibilité de raffiner le processus de construction en insérant ou modifiant des étapes. On peut également souhaiter supprimer certaines étapes à fin de simplifier le processus de construction. L'objectif de cette généralisation est de minimiser l'impact de l'ajout, suppression ou modification d'une étape dans le processus global de construction d'ontologies, tout en préservant la cohérence globale du processus de construction. Pour y parvenir, notre approche consiste à utiliser l'Ingénierie Dirigée par les Modèles pour caractériser chaque étape au sein d'un modèle et ensuite ramener le problème du passage d'une étape à l'autre à un problème de mapping de modèles. Les mappings établis entre les modèles sont ensuite utilisés pour semi-automatiser le processus de construction d'ontologies. Ce processus de construction se faisant dans un contexte persistant de base de données, nous proposons dans cette thèse, d'une part, pour les bases de données dites à base de modèles (BDBM) du fait qu'elles permettent de stocker à la fois les données et les modèles décrivant ces données, une extension pour la prise en compte des mappings, et, d'autre part, nous proposons le langage de requête MQL (Mapping Query Language) qui, en masquant la complexité de l'architecture de la BDBM facilite son exploitation. L'originalité du langage MQL se trouve dans sa capacité, au travers de requêtes syntaxiquement compactes, à explorer transitivement tout ou partie du graphe de mappings lors d'une recherche d'informations
Since its emergence in the early 1990s, the notion of ontology has been quickly distributed in many areas of research. Given the promise of this concept, many studies focus on the use of ontologies in many areas like information retrieval, electronic commerce, semantic Web, data integration, etc. . The effectiveness of all this work is based on the assumption of the existence of a domain ontology that is already built an that can be used. However, the design of such ontology is particularly difficult if you want it to be built in a consensual way. If there are tools for editing ontologies that are supposed to be already designed, and if there are also several platforms for natural language processing able to automatically analyze corpus of texts and annotate them syntactically and statistically, it is difficult to find a globally accepted procedure useful to develop a domain ontology in a progressive, explicit and traceable manner using a set of information resources within this area. The goal of ANR DaFOE4App (Differential and Formal Ontology Editor for Application) project, within which our work belongs to, was to promote the emergence of such a set of tools. Unlike other tools for ontologies development, the platform DaFOE presented in this thesis does not propose a methodology based on a fixed number of steps with a fixed representation of theses steps. Indeed, in this thesis we generalize the process of ontologies development for any number of steps. The interest of such a generalization is, for example, to offer the possibility to refine the development process by inserting or modifying steps. We may also wish to remove some steps in order to simplify the development process. The aim of this generalization is for instance, for the overall process of ontologies development, to minimize the impact of adding, deleting, or modifying a step while maintaining the overall consistency of the development process. To achieve this, our approach is to use Model Driven Engineering to characterize each step through a model and then reduce the problem of switching from one step to another to a problem of models transformation. Established mappings between models are then used to semi-automate the process of ontologies development. As all this process is stored in a database, we propose in this thesis, for Model Based Database (MBDB) because they can store both data and models describing these data, an extension for handling mappings. We also propose the query language named MQL (Mapping Query Language) in order to hide the complexity of the MBDB structure. The originality of the MQL language lies in its ability, through queries syntactically compact, to explore the graph of mappings using the transitivity property of mappings when retrieving informations
APA, Harvard, Vancouver, ISO, and other styles
48

Izza, Saïd. "Intégration des systèmes d'information industriels : une approche flexible basée sur les services sémantiques." Phd thesis, Ecole Nationale Supérieure des Mines de Saint-Etienne, 2006. http://tel.archives-ouvertes.fr/tel-00780240.

Full text
Abstract:
Nos travaux proposent une approche flexible d'intégration des applications industrielles qui s'intitule ODSOI (Ontology-Driven Service-Oriented Integration). Elle se focalise principalement sur trois sous-problématiques complémentaires qui sont respectivement la problématique de construction d'une architecture de services, la problématique d'enrichissement sémantique des services, et la problématique de construction de l'architecture d'intégration permettant d'offrir des mécanismes d'intégration basés sur la sémantique. Notre approche repose sur trois principes majeurs qui sont l'ouverture, l'unification et l'urbanisation. Le principe d'ouverture impose de s'inscrire dans le cadre d'utilisation de standards industriels. Le principe d'unification permet d'uniformiser les composants du système d'information. Et en dernier lieu, le principe d'urbanisation permet de mieux structurer l'architecture des services, l'architecture sémantique et aussi l'architecture d'intégration. Nous basant sur les trois architectures de notre approche, nous proposons alors une implémentation d'un prototype ainsi que diverses expérimentations que nous avons réalisées sur le terrain.
APA, Harvard, Vancouver, ISO, and other styles
49

Wang, Zhiqiang. "Aide à la décision en usinage basée sur des règles métier et apprentissages non supervisés." Thesis, Nantes, 2020. http://www.theses.fr/2020NANT4038.

Full text
Abstract:
Dans le contexte général de l'industrie 4.0, une entreprise de fabrication moderne dispose de nombreuses données numériques qui pourraient être utilisées pour rendre les machines-outils plus intelligentes et faciliter la prise de décision en matière de gestion opérationnelle. Cette thèse vise à proposer un système d'aide à la décision pour les machines-outils intelligentes et connectées par l'exploration des données. L'une des premières étapes de l'approche d'exploration de données est la sélection précise de données pertinentes. Pour ce faire, les données brutes doivent être classées dans différents groupes de contexte. Cette thèse propose un algorithme d'apprentissage automatique non-supervisé, par mélanges gaussiens (GMM), pour la classification contextuelle. Basé sur les informations contextuelles, différents incidents d'usinage peuvent être détectés en temps réel. Il s'agit notamment de broutement, de bris d'outil et de sur-vibration. Cette thèse présente un ensemble de règles métiers pour la détection du broutement, de bris d’outil et de sur-vibration. Le contexte opérationnel a été décrypté lorsque des incidents se produisent, sur la base de la classification contextuelle qui explique les types d'usinage et d'engagement des outils. Ensuite, les nouveaux indicateurs clés de performance (KPIs) pertinents et appropriés peuvent être proposés sur la base de ces informations contextuelles combinés avec les incidents détectés afin de soutenir la prise de décision pour la gestion opérationnelle. Cette thèse propose de nouveaux opérateurs d'agrégation et de nouveaux KPIs pertinents pour les différents besoins des départements
In the general context of Industry 4.0, large volumes of manufacturing data are available on instrumented machine-tools. They are interesting to exploit not only to improve machine-tool performances but also to support the decision making for the operational management. This thesis aims at proposing a decision-aid system for intelligent and connected machine-tools through Data mining. The first step in a data mining approach is the selection of relevant data. Raw data must, therefore, be classified into different groups of contexts. This thesis proposes a contextual classification procedure in machining based on unsupervised machine learning by Gaussian mixture model. Based on this contextual classification information, different machining incidents can be detected in real-time. They include chatter, tool breakage and excessive vibration. This thesis introduces a set of business rules for incidents detection. The operational context has been deciphering when incidents occur, based on the contextual classification that explains the types of machining and tool engagement. Then, the nouveaux relevant and appropriate Key Performance Indicators (KPIs) can be proposed based on these contextual information and the incidents detected to support decision making for the operational management
APA, Harvard, Vancouver, ISO, and other styles
50

Georgescu, Vera. "Classification de données multivariées multitypes basée sur des modèles de mélange : application à l'étude d'assemblages d'espèces en écologie." Phd thesis, Université d'Avignon, 2010. http://tel.archives-ouvertes.fr/tel-00624382.

Full text
Abstract:
En écologie des populations, les distributions spatiales d'espèces sont étudiées afin d'inférer l'existence de processus sous-jacents, tels que les interactions intra- et interspécifiques et les réponses des espèces à l'hétérogénéité de l'environnement. Nous proposons d'analyser les données spatiales multi-spécifiques sous l'angle des assemblages d'espèces, que nous considérons en termes d'abondances absolues et non de diversité des espèces. Les assemblages d'espèces sont une des signatures des interactions spatiales locales des espèces entre elles et avec leur environnement. L'étude des assemblages d'espèces peut permettre de détecter plusieurs types d'équilibres spatialisés et de les associer à l'effet de variables environnementales. Les assemblages d'espèces sont définis ici par classification non spatiale des observations multivariées d'abondances d'espèces. Les méthodes de classification basées sur les modèles de mélange ont été choisies afin d'avoir une mesure de l'incertitude de la classification et de modéliser un assemblage par une loi de probabilité multivariée. Dans ce cadre, nous proposons : 1. une méthode d'analyse exploratoire de données spatiales multivariées d'abondances d'espèces, qui permet de détecter des assemblages d'espèces par classification, de les cartographier et d'analyser leur structure spatiale. Des lois usuelles, telle que la Gaussienne multivariée, sont utilisées pour modéliser les assemblages, 2. un modèle hiérarchique pour les assemblages d'abondances lorsque les lois usuelles ne suffisent pas. Ce modèle peut facilement s'adapter à des données contenant des variables de types différents, qui sont fréquemment rencontrées en écologie, 3. une méthode de classification de données contenant des variables de types différents basée sur des mélanges de lois à structure hiérarchique (définies en 2.). Deux applications en écologie ont guidé et illustré ce travail : l'étude à petite échelle des assemblages de deux espèces de pucerons sur des feuilles de clémentinier et l'étude à large échelle des assemblages d'une plante hôte, le plantain lancéolé, et de son pathogène, l'oïdium, sur les îles Aland en Finlande
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography