Tesi: "Interrogation de Données de Processus"

1

Kolmayer, Elisabeth. "Contribution à l'analyse des processus cognitifs mis en jeu dans l'interrogation d'une base de données documentaires". Paris 5, 1997. http://www.theses.fr/1997PA05H051.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Une interrogation documentaire confronte la représentation du domaine interroge propre à l'opérateur à celle du système documentaire. C'est cette confrontation qu'aborde ce travail. Pour analyser la représentation du domaine interroge chez l'opérateur, on recense les divers modes d'organisation des connaissances mis en évidence par la psychologie cognitive. On s'appuie pour cela sur les recherches liées aux catégorisations et sur celles liées aux expertises. Une approche expérimentale menée auprès de professionnels en milieu hospitalier étudié le rôle de deux facteurs d'expertise (le niveau de formation et l'expérience professionnelle) sur ces modes d'organisation. La représentation du domaine dans des systèmes documentaires est analysée à travers l'indexation par vedettes matière et par descripteurs. On repère les points de convergence et les différences entre les structurations utilisées dans les thesauri et les répertoires d'autorité matières d'une part, les organisations de connaissances mises enjeu par les usagers d'autre part. Mais dans les interrogations menées sur des systèmes réels, les expertises liées au domaine interroge sont écrasées par les expertises documentaires. Ceci conduit à s'interroger sur la représentation à donner de la situation d'interrogation. La considérer comme la recherche du meilleur appariement entre termes de requête et termes d'indexation ne correspond pas à la conduite des usagers. Il s'agit plutôt, pour eux, d'élaborer une représentation du but de l'interrogation compatible avec les contraintes documentaires. On envisage alors une interrogation documentaire comme un problème de conception auquel s'appliquent les concepts de plans -déclaratifs et procéduraux- et de contraintes. Une approche expérimentale en teste la pertinence dans l'analyse d'interrogations menées par des professionnels et des novices de la documentation, pour un outil documentaire donne : un catalogue informatise de bibliothèque. Quelques conséquences ergonomiques sont abordées
During the information retrieval process, two topic representations have to interact; one comes from the end-user, the other from the information system. We focus on this interaction. Cognitive psychology gives some tools to analyse the user's domain representation, as research on categorizations and about expert and novice knowledge has shown. An experimental approach with nurses and nursing auxiliaries analyses the effects of two expertise factors: experience and training level. We examine the domain representation in information system through indexing (indexing with descriptors and subject headings). We point out agreement and differences between knowledge organization such as in thesauri, in subject headings indexes and in the user's mind. But by interacting with an actual retrieval device, topic expertise plays a very small role; the important factor is the expertise of the own device. We focus then on the modelling of the information retrieval situation; the problem to face, for the end-user, is not to find the + best match ; between query and index terms, but to develop a representation of his information need convenient with the information system constraints. An information retrieval task is then concieved as a design problem to which the concepts of plans declarative and procedural- can be applied. An experiment tests the efficiency of such a modelling, analysing the seeking process of end-users and librarians interacting with an online catalog. Some ergonomic consequences are considered

2

Wable, Thierry. "Processus interactifs dans le dialogue Homme/Machine analyse des images identitaires, de la tâche et des dysfonctionnements lors d'une interrogation de base de données bibliographiques". Rouen, 1998. http://www.theses.fr/1998ROUEL288.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Cette étude linguistique s'inscrit dans le cadre des recherches sur l'interaction entre l'homme et la machine, par le biais du langage. Notre travail repose sur l'analyse d'un corpus de dialogues, recueilli au cours d'une simulation expérimentale, entre un utilisateur et une machine lors de l'interrogation d'une base de données bibliographiques. L'humain interroge une interface qui doit l'aider à retrouver l'information qu'il désire : c'est là la tâche générale de la machine. La notion de tâche est composée dans sa réalisation concrète de multiples sous tâches qui sous tendent la tâche générale et en sont les moteurs. Mais le locuteur s'éloigne parfois de ce premier but communicationnel et se lance alors dans un sous-dialogue qui est susceptible d'engendrer des dysfonctionnements. Nous avons dressé l'inventaire et proposé un classement de ces dysfonctionnements, ainsi que leurs procédés de réparation ou d'évitement. Nous montrons de la sorte que les dysfonctionnements peuvent intervenir en tant qu'instance permettant la reconstruction de la tâche générale du système, donc qu'ils peuvent aider à la réussite de l'interaction. Nous définissons aussi les spécificités de ce dialogue et nous montrons comment s'élaborent la construction du sens, les images identitaires (notamment la construction et la représentation de l'interlocuteur) et la gestion des formes discursives. Les résultats de ce travail doivent permettre de mieux comprendre les processus interactifs du DHM afin d'améliorer l'interface, d'affiner ses tâches. Cette amélioration passe donc par une meilleure prise en compte des dysfonctionnements présents dans toute pratique communicative
This linguistic study is a contribution to research on man / machine interaction in the language field. Our work relies on the analysis of experimental simulated dialogues involving a user and a manachine during a bibliographic data base inquiry. The human being asks an interface designed to help him to get the desired information ; that is the general task of the machine. This task is in practice a set of subtasks contributing to the main task and acting as a driving force. But the speaker occasionally escapes from this initial communication target and moves to a subdialogue which may generate dysfunctions. We have produced a survey and a catalogue of these dysfunctions together with processes for correction and avoidance. In this way we demonstrate that the dysfunctions can act as a contributor to the main task of the system, hence they can make the interaction successful. We also define the specific characters of this dialogue and explain how sense, identifying images (especially the construction and the representation of the interlocutor) and discursive forms management all contribute to the main objective. The results of this contribution should allow a better understanding of the interactive processes of the man / machine dialogue in order to improve the interface and optimize its tasks. This improvement requires a more efficient way to take into account current oroblems in all communication processes

3

Kobeissi, Meriana. "A conversational AI Framework for Cognitive Process Analysis". Electronic Thesis or Diss., Institut polytechnique de Paris, 2023. http://www.theses.fr/2023IPPAS025.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les processus métier (BP) sont les piliers fondamentaux des organisations, englobant toute une gamme d'activités structurées visant à atteindre des objectifs organisationnels distincts. Ces processus, caractérisés par une multitude de tâches, d'interactions et de flux de travail, offrent une méthodologie structurée pour superviser les opérations cruciales dans divers secteurs. Une découverte essentielle pour les organisations a été la reconnaissance de la valeur profonde inhérente aux données produites pendant ces processus. L'analyse des processus, une discipline spécialisée, explore ces journaux de données, facilitant une compréhension plus profonde et l'amélioration des BP. Cette analyse peut être catégorisée en deux perspectives : le niveau d'instance, qui se concentre sur les exécutions individuelles de processus, et le niveau de processus, qui examine le processus global.Cependant, l'application de l'analyse des processus pose des défis aux utilisateurs, impliquant la nécessité d'accéder aux données, de naviguer dans les API de bas niveau et d'utiliser des méthodes dépendantes d'outils. L'application dans le monde réel rencontre souvent des complexités et des obstacles centrés sur l'utilisateur.Plus précisément, l'analyse de niveau d'instance exige des utilisateurs qu'ils accèdent aux données d'exécution de processus stockées, une tâche qui peut être complexe pour les professionnels de l'entreprise en raison de l'exigence de maîtriser des langages de requête complexes tels que SQL et CYPHER. En revanche, l'analyse de niveau de processus des données de processus implique l'utilisation de méthodes et d'algorithmes qui exploitent les données d'exécution de processus extraites des systèmes d'information. Ces méthodologies sont regroupées sous le terme de techniques d'exploration de processus. L'application de l'exploration de processus confronte les analystes à la tâche complexe de sélection de méthodes, qui consiste à trier des descriptions de méthodes non structurées. De plus, l'application des méthodes d'exploration de processus dépend d'outils spécifiques et nécessite un certain niveau d'expertise technique.Pour relever ces défis, cette thèse présente des solutions basées sur l'IA, mettant l'accent sur l'intégration de capacités cognitives dans l'analyse des processus pour faciliter les tâches d'analyse tant au niveau de l'instance qu'au niveau du processus pour tous les utilisateurs. Les objectifs principaux sont doubles : premièrement, améliorer l'accessibilité des données d'exécution de processus en créant une interface capable de construire automatiquement la requête de base correspondante à partir du langage naturel. Ceci est complété par la proposition d'une technique de stockage adaptée et d'un langage de requête autour desquels l'interface doit être conçue. À cet égard, nous introduisons un méta-modèle graphique basé sur le graphe de propriétés étiquetées (LPG) pour le stockage efficace des données. Deuxièmement, pour rationaliser la découverte et l'accessibilité des techniques d'exploration de processus, nous présentons une architecture orientée services.Pour valider notre méta-modèle graphique, nous avons utilisé deux ensembles de données de processus accessibles au public disponibles à la fois au format CSV et OCEL. Ces ensembles de données ont été essentiels pour évaluer les performances de notre pipeline de requêtes en langage naturel. Nous avons recueilli des requêtes en langage naturel auprès d'utilisateurs externes et en avons généré d'autres à l'aide d'outils de paraphrase. Notre cadre orienté services a été évalué à l'aide de requêtes en langage naturel spécialement conçues pour les descriptions de services d'exploration de processus. De plus, nous avons mené une étude de cas avec des participants externes pour évaluer l'expérience utilisateur et recueillir des commentaires. Nous fournissons publiquement les résultats de l'évaluation pour garantir la reproductibilité dans le domaine étudié
Business processes (BP) are the foundational pillars of organizations, encapsulating a range of structured activities aimed at fulfilling distinct organizational objectives. These processes, characterized by a plethora of tasks, interactions, and workflows, offer a structured methodology for overseeing crucial operations across diverse sectors. A pivotal insight for organizations has been the discernment of the profound value inherent in the data produced during these processes. Process analysis, a specialized discipline, ventures into these data logs, facilitating a deeper comprehension and enhancement of BPs. This analysis can be categorized into two perspectives: instance-level, which focuses on individual process executions, and process-level, which examines the overarching process.However, applying process analysis in practice poses challenges for users, involving the need to access data, navigate low-level APIs, and employ tool-dependent methods. Real-world application often encounters complexities and user-centric obstacles.Specifically, instance-level analysis demands users to access stored process execution data, a task that can be intricate for business professionals due to the requirement of mastering complex query languages like SQL and CYPHER. Conversely, process-level analysis of process data involves the utilization of methods and algorithms that harness process execution data extracted from information systems. These methodologies collectively fall under the umbrella of process mining techniques. The application of process mining confronts analysts with the intricate task of method selection, which involves sifting through unstructured method descriptions. Additionally, the application of process mining methods depends on specific tools and necessitates a certain level of technical expertise.To address these challenges, this thesis introduces AI-driven solutions, with a focus on integrating cognitive capabilities into process analysis to facilitate analysis tasks at both the instance level and the process level for all users. The primary objectives are twofold: Firstly, to enhance the accessibility of process execution data by creating an interface capable of automatically constructing the corresponding database query from natural language. This is complemented by proposing a suitable storage technique and query language that the interface should be designed around. In this regard, we introduce a graph metamodel based on Labeled Property Graph (LPG) for efficient data storage. Secondly, to streamline the discovery and accessibility of process mining techniques, we present a service-oriented architecture. This architecture comprises three core components: an LPG meta-model detailing process mining methods, a service-oriented REST API design tailored for these methods, and a component adept at matching user requirements expressed in natural language with appropriate services.For the validation of our graph metamodel, we utilized two publicly accessible process datasets available in both CSV and OCEL formats. These datasets were instrumental in evaluating the performance of our NL querying pipeline. We gathered NL queries from external users and produced additional ones through paraphrasing tools. Our service-oriented framework underwent an assessment using NL queries specifically designed for process mining service descriptions. Additionally, we carried out a use case study with external participants to evaluate user experience and to gather feedback. We publically provide the evaluation results to ensure reproducibility in the studied area

4

Peng, Botao. "Parrallel data series indexing and similarity search on modern hardware". Electronic Thesis or Diss., Université Paris Cité, 2020. http://www.theses.fr/2020UNIP5193.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

La recherche de similarité de séries de données est une opération essentielle pour plusieurs applications dans de nombreux domaines. Cependant, les techniques de pointe ne parviennent pas à fournir les performances temporelles requises, que ce soit pour réaliser une exploration interactive des séries de données, ou simplement une analyse de grandes collections de données. Au cours de ma thèse, nous présentons les premières solutions d'indexation de séries de données conçues pour tirer parti intrinsèquement du matériel moderne, afin d'accélérer les temps de traitement de la recherche de similarité pour les données sur disque et en mémoire. En particulier, nous développons de nouveaux algorithmes utilisant les architectures SIMD (multi-core, multi-socket et Single Instruction Multiple Data), ainsi que des algorithmes adaptés pour l’utilisation des unités de traitement graphique (GPU). Nos expériences réalisées sur un panel de données synthétiques et réelles démontrent que nos approches sont d’ordres de grandeur plus rapides que les solutions de pointe utilisant les données enregistrées sur disque et en mémoire. Plus précisément, notre solution sur disque peut répondre à des requêtes de recherche de similitude exacte sur des ensembles de données de 100 Go en 15 secondes, et pour notre solution en mémoire en moins de 36 millisecondes, ce qui permet pour la première fois une exploration interactive de données en temps réel sur des grandes collections de séries de données
Data series similarity search is a core operation for several data series analysis applications across many different domains. However, the state-of-the-art techniques fail to deliver the time performance required for interactive exploration, or analysis of large data series collections. In this Ph.D. work, we present the first data series indexing solutions that are designed to inherently take advantage of modern hardware, in order to accelerate similarity search processing times for both on-disk and in-memory data. In particular, we develop novel algorithms for multi-core, multi-socket, and Single Instruction Multiple Data (SIMD) architectures, as well as algorithms for Graphics Processing Units (GPUs). Our experiments on a variety of synthetic and real data demonstrate that our approaches are up to orders of magnitude faster than the state-of-the-art solutions for both disk-resident and in-memory data. More specifically, our on-disk solution can answer exact similarity search queries on 100GB datasets in ∼ 15 seconds, and our in-memory solution in as low as 36 milliseconds, which enables for the first time real-time, interactive data exploration on very large data series collections

5

Ykhlef, Mourad. "Interrogation des données semistructurées". Bordeaux 1, 1999. http://www.theses.fr/1999BOR1A640.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Nous proposons dans cette these deux langages de requetes du type calcul (graph-fixpoint et graph-while) pour interroger des donnees semistructurees modelisees par des graphes etiquetes (db-graphes). Ces deux langages expriment respectivement des requetes dans les classes fixpoint et while. Nous montrons ainsi qu'ils sont plus puissants que les langages existants. Nous proposons aussi une extension du modele de representation des donnees semistructurees en considerant une structure plus generale qui est celle des graphes imbriques. Ceci permet de mieux rendre compte de la nature hierarchique des donnees semistructurees et de leur origine. Aussi, nous exploitons cette structure pour integrer les formulaires presents sur le web. Le langage de requetes imbrique ngraph est considere pour interroger des donnees provenant de plusieurs sources qui sont integrees via le web.

6

Ykhlef, Mourad. "Interrogation des données semistructurées". Bordeaux 1, 1999. http://www.theses.fr/1999BOR10670.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Nous proposons dans cette these deux langages de requetes du type calcul (graph-fixpoint et graph-while) pour interroger des donnees semistructurees modelisees par des graphes etiquetes (db-graphes). Ces deux langages expriment respectivement des requetes dans les classes fixpoint et while. Nous montrons ainsi qu'ils sont plus puissants que les langages existants. Nous proposons aussi une extension du modele de representation des donnees semistructurees en considerant une structure plus generale qui est celle des graphes imbriques. Ceci permet de mieux rendre compte de la nature hierarchique des donnees semistructurees et de leur origine. Aussi, nous exploitons cette structure pour integrer les formulaires presents sur le web. Le langage de requetes imbrique ngraph est considere pour interroger des donnees provenant de plusieurs sources qui sont integrees via le web.

7

Amann, Bernd. "Interrogation d'hypertextes". Paris, CNAM, 1994. http://www.theses.fr/1994CNAM0188.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Cette thèse traite de l'intégration entre deux technologies: (1) la technologie des systèmes hypertextes fournissant des interfaces fortement interactives, l'organisation flexible des informations, et des outils élaborés pour la navigation dans des réseaux de données et (2) la technologie des systèmes de gestion de bases de données (sgbd) permettant la gestion, le partage et l'interrogation de gros volumes de données structurées et persistantes. Notre travail a tout d'abord porté sur les problèmes d'interrogation des réseaux hypertextes. La première étape consistait à définir gram, un modèle de données avec un langage d'interrogation qui est basé sur une algèbre de chemins. Dans une deuxième étape, nous avons spécifié des mécanismes de navigation dans un réseau hypertexte utilisant un langage de requêtes pour la description des chemins. Enfin, nous avons évalué le modèle gram et ces mécanismes de navigation par un prototype résultant d'un couplage entre le logiciel hypertexte multicard et le sgbd orienté-objet o#2

8

Souihli, Asma. "Interrogation des bases de données XML probabilistes". Thesis, Paris, ENST, 2012. http://www.theses.fr/2012ENST0046/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

XML probabiliste est un modèle probabiliste pour les bases de données incertaines semi-structurées, avec des applications telles que l'intégration incertaine de données, l'extraction d'informations ou le contrôle probabiliste de versions. Nous explorons dans cette thèse une solution efficace pour l'évaluation des requêtes tree-pattern avec jointures sur ces documents, ou, plus précisément, pour l'approximation de la probabilité d'une requête booléenne sur un document probabiliste. L'approche repose sur, d'une part, la production de la provenance probabiliste de la requête posée, et, d'autre part, la recherche d'une stratégie optimale pour estimer la probabilité de cette provenance. Cette deuxième partie s'inspire des approches des optimiseurs de requêtes: l'exploration de différents plans d'évaluation pour différentes parties de la formule et l'estimation du coût de chaque plan, suivant un modèle de coût établi pour les algorithmes de calcul utilisés. Nous démontrons l'efficacité de cette approche sur des jeux de données utilisés dans des travaux précédents sur l'interrogation des bases de données XML probabilistes, ainsi que sur des données synthétiques
Probabilistic XML is a probabilistic model for uncertain tree-structured data, with applications to data integration, information extraction, or uncertain version control. We explore in this dissertation efficient algorithms for evaluating tree-pattern queries with joins over probabilistic XML or, more specifically, for approximating the probability of each item of a query result. The approach relies on, first, extracting the query lineage over the probabilistic XML document, and, second, looking for an optimal strategy to approximate the probability of the propositional lineage formula. ProApproX is the probabilistic query manager for probabilistic XML presented in this thesis. The system allows users to query uncertain tree-structured data in the form of probabilistic XML documents. It integrates a query engine that searches for an optimal strategy to evaluate the probability of the query lineage. ProApproX relies on a query-optimizer--like approach: exploring different evaluation plans for different parts of the formula and predicting the cost of each plan, using a cost model for the various evaluation algorithms. We demonstrate the efficiency of this approach on datasets used in a number of most popular previous probabilistic XML querying works, as well as on synthetic data. An early version of the system was demonstrated at the ACM SIGMOD 2011 conference. First steps towards the new query solution were discussed in an EDBT/ICDT PhD Workshop paper (2011). A fully redesigned version that implements the techniques and studies shared in the present thesis, is published as a demonstration at CIKM 2012. Our contributions are also part of an IEEE ICDE

9

Souihli, Asma. "Interrogation des bases de données XML probabilistes". Electronic Thesis or Diss., Paris, ENST, 2012. http://www.theses.fr/2012ENST0046.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

XML probabiliste est un modèle probabiliste pour les bases de données incertaines semi-structurées, avec des applications telles que l'intégration incertaine de données, l'extraction d'informations ou le contrôle probabiliste de versions. Nous explorons dans cette thèse une solution efficace pour l'évaluation des requêtes tree-pattern avec jointures sur ces documents, ou, plus précisément, pour l'approximation de la probabilité d'une requête booléenne sur un document probabiliste. L'approche repose sur, d'une part, la production de la provenance probabiliste de la requête posée, et, d'autre part, la recherche d'une stratégie optimale pour estimer la probabilité de cette provenance. Cette deuxième partie s'inspire des approches des optimiseurs de requêtes: l'exploration de différents plans d'évaluation pour différentes parties de la formule et l'estimation du coût de chaque plan, suivant un modèle de coût établi pour les algorithmes de calcul utilisés. Nous démontrons l'efficacité de cette approche sur des jeux de données utilisés dans des travaux précédents sur l'interrogation des bases de données XML probabilistes, ainsi que sur des données synthétiques
Probabilistic XML is a probabilistic model for uncertain tree-structured data, with applications to data integration, information extraction, or uncertain version control. We explore in this dissertation efficient algorithms for evaluating tree-pattern queries with joins over probabilistic XML or, more specifically, for approximating the probability of each item of a query result. The approach relies on, first, extracting the query lineage over the probabilistic XML document, and, second, looking for an optimal strategy to approximate the probability of the propositional lineage formula. ProApproX is the probabilistic query manager for probabilistic XML presented in this thesis. The system allows users to query uncertain tree-structured data in the form of probabilistic XML documents. It integrates a query engine that searches for an optimal strategy to evaluate the probability of the query lineage. ProApproX relies on a query-optimizer--like approach: exploring different evaluation plans for different parts of the formula and predicting the cost of each plan, using a cost model for the various evaluation algorithms. We demonstrate the efficiency of this approach on datasets used in a number of most popular previous probabilistic XML querying works, as well as on synthetic data. An early version of the system was demonstrated at the ACM SIGMOD 2011 conference. First steps towards the new query solution were discussed in an EDBT/ICDT PhD Workshop paper (2011). A fully redesigned version that implements the techniques and studies shared in the present thesis, is published as a demonstration at CIKM 2012. Our contributions are also part of an IEEE ICDE

10

Gabsi, Nesrine. "Extension et interrogation de résumés de flux de données". Phd thesis, Télécom ParisTech, 2011. http://pastel.archives-ouvertes.fr/pastel-00613122.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Au cours de ces dernières années, un nouvel environnement s'est développé dans lequel les données doivent être collectées et traitées instantanément dès leur arrivée. La gestion de cette volumétrie nécessite la mise en place d'un nouveau modèle et de nouvelles techniques de traitements de l'information. Il s'agit du traitement des flux de données. Ces derniers ont la particularité d'être continus, évolutifs, volumineux et ne peuvent être stockés, dans leur intégralité, en tant que données persistantes. Plusieurs travaux de recherche se sont intéressés à cette problématique ce qui a engendré l'apparition des systèmes de gestion de flux de données (SGFD). Ces systèmes permettent d'exprimer des requêtes continues qui s'évaluent au fur et à mesure sur un flux ou sur des fenêtres (sous ensembles finis du flux). Toutefois, dans certaines applications, de nouveaux besoins peuvent apparaître après le passage des données. Dans ce cas, le système ne peut répondre aux requêtes posées car toutes les données n'appelant aucun traitement sont définitivement perdues. Il est ainsi nécessaire de conserver un résumé du flux de données. De nombreux algorithmes de résumé ont été développés. Le choix d'une méthode de résumé particulière dépend de la nature des données à traiter et de la problématique à résoudre. Dans ce manuscrit, nous nous intéressons en premier lieu à l'élaboration d'un résumé généraliste permettant de créer un compromis entre la vitesse de construction du résumé et la qualité du résumé conservé. Nous présentons une nouvelle approche de résumé qui se veut performance face à des requêtes portant sur des données du passé lointain. Nous nous focalisons par la suite sur l'exploitation et l'accès aux évènements du flux conservés dans ces résumés. Notre objectif consiste à intégrer les structures de résumés généralistes dans l'architecture des SGFD existantes de façon à étendre le champ de requêtes possibles. A cet effet, l'évaluation des requêtes qui font appel aux données du passé lointain d'un flux (i.e. données expirées de la mémoire du SGFD) serait possible au même titre que les requêtes posées sur le passé proche d'un flux de données. Nous présentons deux approches permettant d'atteindre cet objectif. Ces approches se différencient par le rôle que détient le module de résumé lors de l'évaluation d'une requêtes.

11

Gabsi, Nesrine. "Extension et interrogation de résumé de flux de données". Paris, Télécom ParisTech, 2011. http://pastel.archives-ouvertes.fr/pastel-00613122.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Au cours de ces dernières années, un nouvel environnement s'est développé dans lequel les données doivent être collectées et traitées instantanément dès leur arrivée. La gestion de cette volumétrie nécessite la mise en place d'un nouveau modèle et de nouvelles techniques de traitements de l'information. Il s'agit du traitement des flux de données. Ces derniers ont la particularité d'être continus, évolutifs, volumineux et ne peuvent être stockés, dans leur intégralité, en tant que données persistantes. Plusieurs travaux de recherche se sont intéressés à cette problématique ce qui a engendré l'apparition des systèmes de gestion de flux de données (SGFD). Ces systèmes permettent d'exprimer des requêtes continues qui s'évaluent au fur et à mesure sur un flux ou sur des fenêtres (sous ensembles finis du flux). Toutefois, dans certaines applications, de nouveaux besoins peuvent apparaître après le passage des données. Dans ce cas, le système ne peut répondre aux requêtes posées car toutes les données n'appelant aucun traitement sont définitivement perdues. Il est ainsi nécessaire de conserver un résumé du flux de données. De nombreux algorithmes de résumé ont été développés. Le choix d'une méthode de résumé particulière dépend de la nature des données à traiter et de la problématique à résoudre. Dans ce manuscrit, nous nous intéressons en premier lieu à l'élaboration d'un résumé généraliste permettant de créer un compromis entre la vitesse de construction du résumé et la qualité du résumé conservé. Nous présentons une nouvelle approche de résumé qui se veut performance face à des requêtes portant sur des données du passé lointain. Nous nous focalisons par la suite sur l'exploitation et l'accès aux évènements du flux conservés dans ces résumés. Notre objectif consiste à intégrer les structures de résumés généralistes dans l'architecture des SGFD existantes de façon à étendre le champ de requêtes possibles. A cet effet, l'évaluation des requêtes qui font appel aux données du passé lointain d'un flux (i. E. Données expirées de la mémoire du SGFD) serait possible au même titre que les requêtes posées sur le passé proche d'un flux de données. Nous présentons deux approches permettant d'atteindre cet objectif. Ces approches se différencient par le rôle que détient le module de résumé lors de l'évaluation d'une requêtes
In the last few years, a new environment, in which data have to be collected and processed instantly when arriving, has emerged. To handle the large volume of data associated with this environment, new data processing model and techniques have to be set up ; they are referred as data stream management. Data streams are usually continuous, voluminous, and cannot be registered integrally as persistent data. Many research works have handled this issue. Therefore, new systems called DSMS (Data Stream Management Systems) appeared. The DSMS evaluates continuous queries on a stream or a window (finite subset of streams). These queries have to be specified before the stream's arrival. Nevertheless, in case of some applications, some data could be required after their expiration from the DSMS in-memory. In this case, the system cannot treat the queries as such data are definitely lost. To handle this issue, it is essential to keep a ummary of data stream. Many summaries algorithms have been developed. The selection of a summarizing method depends on the kind of data and the associated issue. In this thesis, we are first interested with the elaboration of a generic summary structure while coming to a compromise between the summary elaboration time and the quality of the summary. We introduce a new summary approach which is more efficient for querying very old data. Then, we focus on the uerying methods for these summaries. Our objective is to integrate the structure of generic summaries in the architecture of the existing DSMS. By this way, we extend the range of the possible queries. Thus, the processing of the queries on old stream data (expired data) becomes possible as well as queries on new stream data. To this end, we introduced two approaches. The difference between them is the role played by summary module when the query is evaluated

12

Ould, Yahia Sabiha. "Interrogation multi-critères d'une base de données spatio-temporelles". Troyes, 2005. http://www.theses.fr/2005TROY0006.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les travaux décrits dans cette thèse s'inscrivent dans le cadre du projet interrégional intitulé CAractérisation Symbolique de SItuations de ConduitE (CASSICE) qui regroupe plusieurs équipes de chercheurs. L'objectif du projet CASSICE est l'automatisation et l'alimentation d'une base de données de situations de conduite. Cela comprend notamment la reconnaissance des manoeuvres. Ces manoeuvres réalisées par le conducteur sont détectées à partir des données issues de capteurs installés sur un véhicule expérimental en situation de conduite réelle. Il s'agit dans cette thèse de proposer une interface permettant à un expert psychologue une analyse des comportements du conducteur mis en évidence par la base de données. Le projet CASSICE permet l'accès à une base de données à représentation continue, numériques ou symboliques, associées à des images. Le langage d'interrogation doit être le plus proche possible des critères de recherche employés par les experts psychologues. Ces fonctionnalités sont proposées dans le système CIBAM (Construction et Interrogation d'une BAse de données Multimédia) qui utilise une méthode d'indexation et d'interrogation multi-critères d'une base de données représentant une situation dynamique
The study of the human behavior in driving situations is of primary importance for the improvement of drivers security. This study is complex because of the numerous situations in which the driver may be involved. The objective of the CASSICE project (Symbolic Characterization of Driving Situations) is to elaborate a tool in order to simplify the analysis task of the driver's behavior. In this paper, we will mainly take an interest in the indexation and querying of a multimedia database including the numerical data and the video sequences relating to a type of driving situations. We will put the emphasis on the queries to this database. They are often complex because they are formulated according to criteria depending on time, space and they use terms of the natural language

13

Lemoine, Frédéric. "Intégration, interrogation et analyse de données de génomique comparative". Paris 11, 2008. http://www.theses.fr/2008PA112180.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Nos travaux s’inscrivent dans le projet ANR « Microbiogenomics ». Ce projet a pour but la construction d'un entrepôt de données de génomes bactériens. Cet entrepôt doit rassembler de nombreuses données actuellement dispersées, dans le but d'améliorer l'annotation des génomes bactériens. Au sein de ce projet, nos travaux comportent plusieurs volets. La première problématique porte principalement sur l'extraction et le traitement de données biologiques. Nous nous sommes intéressés plus particulièrement à la conservation de l’ordre des gènes des génomes procaryotes au cours de l’évolution. Pour cela, nous avons mis au point une chaîne de traitements visant à détecter les régions dont l’ordre est conservé. Nous avons ensuite étudié l’évolution relative des protéines codées par les gènes dont l’ordre est conservé par rapport aux autres protéines. Ces données ont été mises à disposition à travers l’outil de visualisation SynteView (http://www. Synteview. U-psud. Fr). Pour élargir l'analyse de ces données de conservation de l'ordre des gènes, il est nécessaire de les croiser avec d'autres types de données comme par exemple de voie métabolique. Ces données, souvent dispersées et hétérogènes sont difficiles à interroger. C’est pourquoi dans un second temps, nous nous sommes concentrés sur la conception et l'interrogation de l'entrepôt. Nous avons conçu une architecture et des algorithmes dans le but d’interroger l’entrepôt, en gardant les points de vue donnés par les sources. Ces algorithmes ont été implémentés dans GenoQuery (http://www. Lri. Fr/~lemoine/GenoQuery), un module de requête prototype adapté à l'interrogation d'un entrepôt de données génomiques
Our work takes place within the « Microbiogenomics » project. Microbiogenomics aims at building a genomic prokaryotic data warehouse. This data warehouse gathers numerous data currently dispersed, in order to improve functional annotation of bacterial genomes. Within this project, our work contains several facets. The first one focuses mainly on the analyses of biological data. We are particularly interested in the conservation of gene order during the evolution of prokaryotic genomes. To do so, we designed a computational pipeline aiming at detecting the areas whose gene order is conserved. We then studied the relative evolution of the proteins coded by genes that are located in conserved areas, in comparison with the other proteins. This data were made available through the SynteView synteny visualization tool (http://www. Synteview. U-psud. Fr). Moreover, to broaden the analysis of these data, we need to cross them with other kinds of data, such as pathway data. These data, often dispersed and heterogeneous, are difficult to query. That is why, in a second step, we were interested in querying the Microbiogenomics data warehouse. We designed an architecture and some algorithms to query the data warehouse, while keeping the different points of view given by the sources. These algorithms were implemented in GenoQuery (http://www. Lri. Fr/~lemoine/GenoQuery), a prototype querying module adapted to a genomic data warehouse

14

Thomopoulos, Rallou. "Représentation et interrogation élargie de données imprécises et faiblement structurées". Paris, Institut national d'agronomie de Paris Grignon, 2003. http://www.theses.fr/2003INAP0018.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Ce travail de thèse se situe dans le cadre d'un projet appliqué à la microbiologie prévisionnelle, s'appuyant sur une base de données et sur son système d'interrogation. Les données du projet sont faiblement structurées, elles peuvent être imprécises et ne permettent pas de répondre à toute requête de façon exacte, de sorte qu'un système d'interrogation souple de la base de données est nécessaire. Nous nous appuyons sur le modèle des graphes conceptuels pour prendre en compte les données faiblement structurées et sur la théorie des sous-ensembles flous pour représenter les données imprécises et les requêtes floues. L'objet de cette thèse est la combinaison de ces deux formalismes
This work is part of a project applied to predictive microbiology, which is built on a database and on its querying system. The data used in the project are weakly structured, they may be imprecise, and cannot provide exact answers to every query, so that a flexible querying system is necessary for the querying of the database. We use the conceptual graph model in order to take into account weakly structured data, and fuzzy set theory, in order to represent imprecise data and fuzzy queries. The purpose of this work is to provide a combination of these two formalisms

15

Decleir, Cyril. "Indexation et interrogation de séquences audiovisuelles". Lyon, INSA, 1999. http://www.theses.fr/1999ISAL0109.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Le média audiovisuel tient une place de plus en plus importante dans la diffusion de l'information. En conséquence, il existe une masse sans cesse croissante d'information audiovisuelle accessible, et se pose alors le problème de retrouver une information voulue dans cet ensemble. Dans ce sens, cette thèse s'intéresse à la problématique de l'indexation et de l'interrogation de l'information audiovisuelle en adoptant des techniques issues des bases de données. Les données à modéliser étant de nature semi-structurée, nous définissons un modèle objet adaptable, au sens où les descriptions de l'information audiovisuelle faites par l'utilisateur peuvent être construites selon ses besoins. A ce modèle est associé un langage de requêtes basé sur une approche de type règles et qui intègre la gestion de contraintes afin de manipuler la composante temporelle inhérente à l'audiovisuel. Cette thèse est proposée dans le cadre du projet Sésame, qui s'intéresse à la définition d'une solution globale (aspects matériels, logiciels et théoriques) de la problématique de l'indexation audiovisuelle
A large amount of information is conveyed by video data. There exists nowadays a huge quantity of video information, and the problem which consists in retrieving a specific video data from this set is an important one. This work is devoted to the problem of indexing and querying video data using a database approach. We define a flexible abject oriented data model, which allows building video descriptions accordingly to the user's needs. Querying this model is supported by a rule-based constraint query language. The constraint aspect of this language allows managing easily the temporal aspects of video data. This work is clone in the framework of the Sésame project whose goal is to propose a global solution (hardware, software and theoretical aspects) to the video indexing problem

16

Touzet, David. "Interrogation continue des systèmes d'information de proximité". Rennes 1, 2004. http://www.theses.fr/2004REN10007.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les technologies de communication sans fil de courte portée (Bluetooth. . . ) permettent aujourd'hui la mise oeuvre d'interactions directes entre terminaux mobiles (assistants personnels, téléphones cellulaires. . . ) physiquement proches. Il devient ainsi possible de considérer les systèmes d'information nés de la réunion provisoire de ces terminaux. De tels systèmes s'avèrent extrêmement dynamiques de par la nature même des entités qui les composent. Dans ce contexte, les résultats issus d'outils d'interrogation ponctuelle ne restent, le plus souvent, valables que de courts laps de temps. Cette thèse définit un outil d'interrogation adapté aux interactions de proximité. Après avoir proposé une formalisation de ce type d'interactions centrée sur la notion de système d'information de proximité, nous présentons l'application de notre modèle aux bases de données de proximité, transposition des systèmes d'information de proximité au domaine des bases de données relationnelles.

17

Dubois, Jean-Christophe. "Vers une interrogation en langage naturel d'une base de données image". Nancy 1, 1998. http://www.theses.fr/1998NAN10044.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les premiers travaux présentés dans ce mémoire se sont déroulés dans le cadre d'un projet qui avait pour objectif la réalisation d'un système d'aide vocal permettant à une standardiste malvoyante d'accéder à toutes les informations contenues dans la base de données d'une entreprise. Nous avons mené une étude spécifique afin de concevoir une procédure d'accès tolérant aux fautes d'orthographe lors d'une interrogation par nom. Le système effectue une comparaison entre les transcriptions phonétiques des noms de la base de données et celles du nom épelé. Ces transcriptions sont réalisées en trois étapes : phonémisation, détection d'ilots de confiance et codage en classes phonétiques. Le second volet de nos travaux a porté sur l'emploi du langage naturel (LN) dans l'énonciation des requêtes soumises aux systèmes de recherche d'information (SRI). Le but est d'utiliser la richesse du LN pour améliorer les qualités de recherche d'un SRI. Pour cela, nous avons développé un mode de représentation permettant de modéliser l'intention du locuteur. Cette représentation s'effectue à l'aide d'une structure hiérarchisée appelée schéma d'intention du locuteur (SIL) et constituée de quadruplets. Un quadruplet est composé d'un domaine au sein duquel une axiologie met en opposition deux sous-ensembles : les éléments du domaine sur lesquels portent l'intérêt de l'utilisateur et le reste du domaine. Des mécanismes ont été définis afin d'effectuer des opérations liées aux changements de focalisation de l'utilisateur et notamment la transposition d'axiologies et la généralisation de caractéristiques. La structure des SIL autorise une étude en contexte des énoncés faits en LN ce qui permet une analyse plus fine des connecteurs, des expressions référentielles ou de la négation. Nous nous sommes attachés à montrer dans cette thèse comment des techniques issues du traitement du LN pouvaient contribuer à l'amélioration des performances des SRI en terme de pertinence

18

Ouksili, Hanane. "Exploration et interrogation de données RDF intégrant de la connaissance métier". Thesis, Université Paris-Saclay (ComUE), 2016. http://www.theses.fr/2016SACLV069.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Un nombre croissant de sources de données est publié sur le Web, décrites dans les langages proposés par le W3C tels que RDF, RDF(S) et OWL. Une quantité de données sans précédent est ainsi disponible pour les utilisateurs et les applications, mais l'exploitation pertinente de ces sources constitue encore un défi : l'interrogation des sources est en effet limitée d'abord car elle suppose la maîtrise d'un langage de requêtes tel que SPARQL, mais surtout car elle suppose une certaine connaissance de la source de données qui permet de cibler les ressources et les propriétés pertinentes pour les besoins spécifiques des applications. Le travail présenté ici s'intéresse à l'exploration de sources de données RDF, et ce selon deux axes complémentaires : découvrir d'une part les thèmes sur lesquels porte la source de données, fournir d'autre part un support pour l'interrogation d'une source sans l'utilisation de langage de requêtes, mais au moyen de mots clés. L'approche d'exploration proposée se compose ainsi de deux stratégies complémentaires : l'exploration thématique et la recherche par mots clés. La découverte de thèmes dans une source de données RDF consiste à identifier un ensemble de sous-graphes, non nécessairement disjoints, chacun représentant un ensemble cohérent de ressources sémantiquement liées et définissant un thème selon le point de vue de l'utilisateur. Ces thèmes peuvent être utilisés pour permettre une exploration thématique de la source, où les utilisateurs pourront cibler les thèmes pertinents pour leurs besoins et limiter l'exploration aux seules ressources composant les thèmes sélectionnés. La recherche par mots clés est une façon simple et intuitive d'interroger les sources de données. Dans le cas des sources de données RDF, cette recherche pose un certain nombre de problèmes, comme l'indexation des éléments du graphe, l'identification des fragments du graphe pertinents pour une requête spécifique, l'agrégation de ces fragments pour former un résultat, et le classement des résultats obtenus. Nous abordons dans cette thèse ces différents problèmes, et nous proposons une approche qui permet, en réponse à une requête mots clés, de construire une liste de sous-graphes et de les classer, chaque sous-graphe correspondant à un résultat pertinent pour la requête. Pour chacune des deux stratégies d'exploration d'une source RDF, nous nous sommes intéressés à prendre en compte de la connaissance externe, permettant de mieux répondre aux besoins des utilisateurs. Cette connaissance externe peut représenter des connaissances du domaine, qui permettent de préciser le besoin exprimé dans le cas d'une requête, ou de prendre en compte des connaissances permettant d'affiner la définition des thèmes. Dans notre travail, nous nous sommes intéressés à formaliser cette connaissance externe et nous avons pour cela introduit la notion de pattern. Ces patterns représentent des équivalences de propriétés et de chemins dans le graphe représentant la source. Ils sont évalués et intégrés dans le processus d'exploration pour améliorer la qualité des résultats
An increasing number of datasets is published on the Web, expressed in languages proposed by the W3C to describe Web data such as RDF, RDF(S) and OWL. The Web has become a unprecedented source of information available for users and applications, but the meaningful usage of this information source is still a challenge. Querying these data sources requires the knowledge of a formal query language such as SPARQL, but it mainly suffers from the lack of knowledge about the source itself, which is required in order to target the resources and properties relevant for the specific needs of the application. The work described in this thesis addresses the exploration of RDF data sources. This exploration is done according to two complementary ways: discovering the themes or topics representing the content of the data source, and providing a support for an alternative way of querying the data sources by using keywords instead of a query formulated in SPARQL. The proposed exploration approach combines two complementary strategies: thematic-based exploration and keyword search. Theme discovery from an RDF dataset consists in identifying a set of sub-graphs which are not necessarily disjoints, and such that each one represents a set of semantically related resources representing a theme according to the point of view of the user. These themes can be used to enable a thematic exploration of the data source where users can target the relevant theme and limit their exploration to the resources composing this theme. Keyword search is a simple and intuitive way of querying data sources. In the case of RDF datasets, this search raises several problems, such as indexing graph elements, identifying the relevant graph fragments for a specific query, aggregating these relevant fragments to build the query results, and the ranking of these results. In our work, we address these different problems and we propose an approach which takes as input a keyword query and provides a list of sub-graphs, each one representing a candidate result for the query. These sub-graphs are ordered according to their relevance to the query. For both keyword search and theme identification in RDF data sources, we have taken into account some external knowledge in order to capture the users needs, or to bridge the gap between the concepts invoked in a query and the ones of the data source. This external knowledge could be domain knowledge allowing to refine the user's need expressed by a query, or to refine the definition of themes. In our work, we have proposed a formalization to this external knowledge and we have introduced the notion of pattern to this end. These patterns represent equivalences between properties and paths in the dataset. They are evaluated and integrated in the exploration process to improve the quality of the result

19

Bélières, Bruno. "Vista : un langage métaphorique et visuel pour l'interrogation de bases de données". Tours, 1997. http://www.theses.fr/1997TOUR4019.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Cette thèse se situe dans le domaine de l'interrogation de bases de données par des utilisateurs finals. Son but est de pallier les limites existantes en proposant un nouveau langage d'interrogation de bases de donnees. L'originalité de notre approche réside dans un usage généralisé de métaphores visuelles et gestuelles pour faciliter l'expression de requêtes. Nous définissons un modèle de données sémantique à objets limité à des mécanismes d'abstraction simples mais dotés d'une suffisante expressivité sémantique. Des visualisations, notamment à l'aide de métaphores, sont associées à ces mécanismes d'abstraction pour faciliter la compréhension du schéma de bases de données. Nous proposons ensuite un ensemble cohérent de métaphores pour représenter les opérations du langage. L'utilisateur est placé dans un environnement concret, une salle, et l'interrogation consiste à décrire un objet exemple, solution de la requête, par des manipulations directes et naturelles sur différents éléments de cette salle. Nous apportons une solution unifiée à plusieurs difficultés de l'interrogation de bases de donnees comme les comparaisons et combinaisons ensemblistes, les jointures non-prédéfinies, la quantification universelle et l'encombrement graphique tout en nous préoccupant de la facilité d'expression des requêtes pour l'utilisateur. Ce langage, dont la puissance d'expression a été évaluée et jugée proche de celle d'une algèbre pour objets complexes, permet aussi la réutilisation de requêtes, la construction incrémentale de requêtes, la définition d'éléments dérivés et le groupement par valeurs communes d'attributs. Nous décrivons enfin l'implantation de l'interface utilisateur dans une application concrète en entreprise au-dessus d'une base de données relationnelle.

20

Ghazal, Moultazem. "Contribution à la gestion des données géographiques : Modélisation et interrogation par croquis". Phd thesis, Université Paul Sabatier - Toulouse III, 2010. http://tel.archives-ouvertes.fr/tel-00504944.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les Systèmes d'Information Géographiques (SIG) réclament des besoins particuliers de gestion de leur contenu, parce qu'ils manipulent des données dont les structures sont complexes et hétérogènes. Ces données sont souvent difficiles à décrire par des requêtes classiques ou des prédicats basés sur des attributs. Le croquis à main levée (sketch) est une veille forme de présentation qui a été employée pour visualiser, échanger et enregistrer l'information graphique. Il semble être ainsi facilement adaptable pour présenter et interroger d'une manière flexible les données des SIG

21

Abdessalem, Talel. "Approche des versions de base de données : représentation et interrogation des versions". Paris 9, 1997. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=1997PA090024.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

De nombreuses applications des bases de données, dans des domaines aussi variés que la CAO, le génie logiciel et la bureautique, nécessitent une gestion de versions. La plupart des modèles de versions proposés dans la littérature se sont concentrés sur la représentation des versions, principalement dans les bases de données orientées-objet. Très peu de travaux traitent de l'interrogation des versions dans les bases de données et seules les approches temporelles proposent des solutions à la représentation des versions dans le cas relationnel. Cette thèse apporte une solution au problème de l'interrogation des versions dans les bases de données et propose une mise en œuvre de l'approche des versions de bases de données (VBD) dans le cas relationnel. Pour les systèmes orientés-objet, un langage de requêtes, VQL, est proposé. Ce langage permet à l'utilisateur d'interroger aussi bien les versions d'objet, que les contextes dans lesquels ces versions apparaissent dans le monde réel. VQL ne s'appuie sur aucune sémantique particulière de versionnement. Celle-ci est définie par l'utilisateur et peut varier d'une application à l'autre. L'approche des VBD est un modèle de versions proposé à l'origine pour les systèmes orientés-objet. Sa mise en œuvre, dans le cas relationnel, est une réponse au besoin de représentation de versions de nombreuses applications relationnelles, pour lesquelles les approches temporelles ne sont pas appropriées. Une extension du langage SQL est proposée pour permettre l'interrogation de versions. Cette extension, nommée VSQL, reprend les idées développées pour le langage VQL. Enfin, une implantation de ces travaux a été réalisée au-dessus d'un système de gestion de base de données relationnel standard, Ingres. Cette implantation a été menée dans le cadre d'un projet de recherche en collaboration avec la RATP. L'objectif de ce projet était de prendre en compte l'approche des VBD dans la base de données du système Suroit (système unifie de renseignement sur l'offre et les itinéraires de transport), qui gère l'organisation et le fonctionnement des réseaux de transport en région parisienne.

22

Zneika, Mussab. "Interrogation du web sémantique à l'aide de résumés de graphes de données". Thesis, Cergy-Pontoise, 2019. http://www.theses.fr/2019CERG1010.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

La quantité de données RDF disponibles augmente rapidement à la fois en taille et en complexité, les Bases de Connaissances (Knowledge Bases – KBs) contenant des millions, voire des milliards de triplets étant aujourd’hui courantes. Plus de 1000 sources de données sont publiées au sein du nuage de Données Ouvertes et Liées (Linked Open Data – LOD), qui contient plus de 62 milliards de triplets, formant des graphes de données RDF complexes et de grande taille. L’explosion de la taille, de la complexité et du nombre de KBs et l’émergence des sources LOD ont rendu difficile l’interrogation, l’exploration, la visualisation et la compréhension des données de ces KBs, à la fois pour les utilisateurs humains et pour les programmes. Pour traiter ce problème, nous proposons une méthode pour résumer de grandes KBs RDF, basée sur la représentation du graphe RDF en utilisant les (meilleurs) top-k motifs approximatifs de graphe RDF. La méthode, appelée SemSum+, extrait l’information utile des KBs RDF et produit une description d’ensemble succincte de ces KBs. Elle extrait un type de schéma RDF ayant divers avantages par rapport aux schémas RDF classiques, qui peuvent être respectés seulement partiellement par les données de la KB. A chaque motif approximatif extrait est associé le nombre d’instances qu’il représente ; ainsi, lors de l’interrogation du graphe RDF résumé, on peut facilement déterminer si l’information nécessaire est présente et en quantité significative pour être incluse dans le résultat d’une requête fédérée. Notre méthode ne demande pas le schéma initial de la KB et marche aussi bien sans information de schéma du tout, ce qui correspond aux KBs modernes, construites soit ad-hoc, soit par fusion de fragments en provenance d’autres KBs. Elle fonctionne aussi bien sur des graphes RDF homogènes (ayant la même structure) ou hétérogènes (ayant des structures différentes, pouvant être le résultat de données décrites par des schémas/ontologies différentes).A cause de la taille et de la complexité des graphes RDF, les méthodes qui calculent le résumé en chargeant tout le graphe en mémoire ne passent pas à l’échelle. Pour éviter ce problème, nous proposons une approche générale parallèle, utilisable par n’importe quel algorithme approximatif de fouille de motifs. Elle nous permet de disposer d’une version parallèle de notre méthode, qui passe à l’échelle et permet de calculer le résumé de n’importe quel graphe RDF, quelle que soit sa taille.Ce travail nous a conduit à la problématique de mesure de la qualité des résumés produits. Comme il existe dans la littérature divers algorithmes pour résumer des graphes RDF, il est nécessaire de comprendre lequel est plus approprié pour une tâche spécifique ou pour une KB RDF spécifique. Il n’existe pas dans la littérature de critères d’évaluation établis ou des évaluations empiriques extensives, il est donc nécessaire de disposer d’une méthode pour comparer et évaluer la qualité des résumés produits. Dans cette thèse, nous définissons une approche complète d’évaluation de la qualité des résumés de graphes RDF, pour répondre à ce manque dans l’état de l’art. Cette approche permet une compréhension plus profonde et plus complète de la qualité des différents résumés et facilite leur comparaison. Elle est indépendante de la façon dont l’algorithme produisant le résumé RDF fonctionne et ne fait pas de suppositions concernant le type ou la structure des entrées ou des résultats. Nous proposons un ensemble de métriques qui aident à comprendre non seulement si le résumé est valide, mais aussi comment il se compare à d’autre résumés par rapport aux caractéristiques de qualité spécifiées. Notre approche est capable (ce qui a été validé expérimentalement) de mettre en évidence des différences très fines entre résumés et de produire des métriques capables de mesurer cette différence. Elle a été utilisée pour produire une évaluation expérimentale approfondie et comparative de notre méthode
The amount of RDF data available increases fast both in size and complexity, making available RDF Knowledge Bases (KBs) with millions or even billions of triples something usual, e.g. more than 1000 datasets are now published as part of the Linked Open Data (LOD) cloud, which contains more than 62 billion RDF triples, forming big and complex RDF data graphs. This explosion of size, complexity and number of available RDF Knowledge Bases (KBs) and the emergence of Linked Datasets made querying, exploring, visualizing, and understanding the data in these KBs difficult both from a human (when trying to visualize) and a machine (when trying to query or compute) perspective. To tackle this problem, we propose a method of summarizing a large RDF KBs based on representing the RDF graph using the (best) top-k approximate RDF graph patterns. The method is named SemSum+ and extracts the meaningful/descriptive information from RDF Knowledge Bases and produces a succinct overview of these RDF KBs. It extracts from the RDF graph, an RDF schema that describes the actual contents of the KB, something that has various advantages even compared to an existing schema, which might be partially used by the data in the KB. While computing the approximate RDF graph patterns, we also add information on the number of instances each of the patterns represents. So, when we query the RDF summary graph, we can easily identify whether the necessary information is present and if it is present in significant numbers whether to be included in a federated query result. The method we propose does not require the presence of the initial schema of the KB and works equally well when there is no schema information at all (something realistic with modern KBs that are constructed either ad-hoc or by merging fragments of other existing KBs). Additionally, the proposed method works equally well with homogeneous (having the same structure) and heterogeneous (having different structure, possibly the result of data described under different schemas/ontologies) RDF graphs.Given that RDF graphs can be large and complex, methods that need to compute the summary by fitting the whole graph in the memory of a (however large) machine will not scale. In order to overcome this problem, we proposed, as part of this thesis, a parallel framework that allows us to have a scalable parallel version of our proposed method. This will allow us to compute the summaries of any RDF graph regardless of size. Actually, we generalized this framework so as to be usable by any approximate pattern mining algorithm that needs parallelization.But working on this problem, introduced us to the issue of measuring the quality of the produced summaries. Given that in the literature exist various algorithms that can be used to summarize RDF graphs, we need to understand which one is better suited for a specific task or a specific RDF KB. In the literature, there is a lack of widely accepted evaluation criteria or an extensive empirical evaluation. This leads to the necessity of a method to compare and evaluate the quality of the produced summaries. So, in this thesis, we provide a comprehensive Quality Framework for RDF Graph Summarization to cover the gap that exists in the literature. This framework allows a better, deeper and more complete understanding of the quality of the different summaries and facilitates their comparison. It is independent of the way RDF summarization algorithms work and makes no assumptions on the type or structure neither of the input nor of the final results. We provide a set of metrics that help us understand not only if this is a valid summary but also how a summary compares to another in terms of the specified quality characteristic(s). The framework has the ability, which was experimentally validated, to capture subtle differences among summaries and produce metrics that depict that and was used to provide an extensive experimental evaluation and comparison of our method

23

Soumana, Ibrahim. "Interrogation des sources de données hétérogènes : une approche pour l'analyse des requêtes". Thesis, Besançon, 2014. http://www.theses.fr/2014BESA1015/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Le volume des données structurées produites devient de plus en plus considérable. Plusieurs aspects concourent à l’accroissement du volume de données structurées. Au niveau du Web, le Web de données (Linked Data) a permis l’interconnexion de plusieurs jeux de données disponibles créant un gigantesque hub de données. Certaines applications comme l’extraction d’informations produisent des données pour peupler des ontologies. Les capteurs et appareils (ordinateur, smartphone, tablette) connectés produisent de plus en plus de données. Les systèmes d’information d’entreprise sont également affectés. Accéder à une information précise devient de plus en plus difficile. En entreprise, des outils de recherche ont été mis au point pour réduire la charge de travail liée à la recherche d’informations, mais ces outils génèrent toujours des volumes importants. Les interfaces en langage naturel issues du Traitement Automatique des Langues peuvent être mises à contribution pour permettre aux utilisateurs d’exprimer naturellement leurs besoins en informations sans se préoccuper des aspects techniques liés à l’interrogation des données structurées. Les interfaces en langage naturel permettent également d’avoir une réponse concise sans avoir besoin de fouiller d’avantage dans une liste de documents. Cependant actuellement, ces interfaces ne sont pas assez robustes pour être utilisées par le grand public ou pour répondre aux problèmes de l’hétérogénéité ou du volume de données. Nous nous intéressons à la robustesse de ces systèmes du point de vue de l’analyse de la question. La compréhension de la question de l’utilisateur est une étape importante pour retrouver la réponse. Nous proposons trois niveaux d’interprétation pour l’analyse d’une question : domaine abstrait, domaine concret et la relation domaine abstrait/concret. Le domaine abstrait s’intéresse aux données qui sont indépendantes de la nature des jeux de données. Il s’agit principalement des données de mesures. L’interprétation s’appuie sur la logique propre à ces mesures. Le plus souvent cette logique a été bien décrite dans les autres disciplines, mais la manière dont elle se manifeste en langage naturel n’a pas fait l’objet d’une large investigation pour les interfaces en langage naturel basées sur des données structurées. Le domaine concret couvre le domaine métier de l’application. Il s’agit de bien interpréter la logique métier. Pour une base de données, il correspond au niveau applicatif (par opposition à la couche des données). La plupart des interfaces en langage naturel se focalisent principalement sur la couche des données. La relation domaine abstrait/concret s’intéresse aux interprétations qui chevauchent les deux domaines. Du fait de l’importance de l’analyse linguistique, nous avons développé l’infrastructure pour mener cette analyse. L’essentiel des interfaces en langage naturel qui tentent de répondre aux problématiques du Web de données (Linked Data) ont été développées jusqu’ici pour la langue anglaise et allemande. Notre interface tente d’abord de répondre à des questions en français
No english summary available

24

Delot, Thierry. "Interrogation d'annuaires étendus : modèles, langage et optimisation". Versailles-St Quentin en Yvelines, 2001. http://www.theses.fr/2001VERS0028.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les travaux menés dans cette thèse se concentrent sur les problèmes de partage, d'interrogation et de médiation rencontrés dans les systèmes d'information de nouvelle génération qui s'articulent autour de sources de données, d'objets, et de composants largement distribués. Dans cet environnement, différents systèmes coexistent : des SGBD, des serveurs LDAP et des architectures à objets distribués. Les limites actuelles des services d'annuaires et leur interaction toujours plus grande avec l'environnemnet qui les entoure (SGBDs, objets,. . . ) nous a amené à étudier la définition d'un service d'annuaires capable, tout en conservant la flexibilité et la compatibilité avec les modèles existants, de proposer des fonctionnalités avancées telles que : la manipulation de données riches englobant des valeurs mais également des programmes, le support adapté pour le partage d'objets et des capacités d'interrogation étendues. En effet, les facilités d'interrogation dans LDAP sont relativement pauvres et il serait intéressant de les enrichir pour permettre des recherches plus complexes incluant des parcours de chemin, des calculs d'agrégats, etc. Le challenge consiste ici à trouver le bon compromis entre le pouvoir d'expression du langage et la charge imposée au service d'annuaires. L'introduction de nouvelles fonctionnalités dans le service d'annuaires a un impact important sur les performances du système, aussi bien du point de vue des temps de réponse que des ressources consommées pour évaluer une requête. Un autre aspect de cette intégration des annuaires avec leur environnement concerne le partage de données communes entre ces différents systèmes, comme les données d'identification par exemple. Pour assurer cette intégration, notre solution consiste à mettre en place une couche de médiation entre les deux systèmes, afin de permettre à un utilisateur de manipuler ses données en utilisant soit le modèle relationnel dans le cax des SGBD relationnels, soit le modèle LDAP.

25

Chaintreau, Augustin. "Processus d'interaction dans les réseaux de données". Paris 6, 2006. http://www.theses.fr/2006PA066601.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

26

Berasaluce, Sandra. "Fouille de données et acquisition de connaissances à partir de bases de données de réactions chimiques". Nancy 1, 2002. http://docnum.univ-lorraine.fr/public/SCD_T_2002_0266_BERASALUCE.pdf.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les bases de données de réactions, outils indispensables pour les chimistes organiciens, ne sont pas exemptes de défauts. Dans cette thèse, nous avons entrepris d'ajouter des connaissances structurant les données pour dépasser les limites des bases et envisager de nouveaux modes d'interrogation de ces bases. In fine, l'objectif est de concevoir des systèmes possédant des fonctionnalités de BD et de SBC. Dans le processus d'acquisition de connaissances, nous avons mis l'accent sur la modélisation des objets chimiques. Ainsi, nous sommes intéressés aux méthodes de synthèse que nous avons décrites en terme d'objectifs de synthèse atteints. Nous nous sommes ensuite appuyés sur le modèle élaboré pour appliquer des techniques de fouille de données et faire émerger des connaissances. Nos expérimentations dans Resyn-Assistant sur les méthodes de construction de monocycles et les interchanges fonctionnels donnent des résultats en accord avec les connaissances du domaine
Chemical reaction database, indispensable tools for synthetic chemists, are not free from flaws. In this thesis, we have tried to overcome the databases limits by adding knowledge which structures data. This allows us to consider new efficient modes for query these databases. In the end, the goal is to design systems having both functionalities of DB and KBS. In the knowledge acquisition process, we emphasized on the modelling of chemical objects. Thus, we were interested in synthetic methods which we have described in terms of synthetic objectives. Afterward, we based ourselves on the elaborated model to apply data mining techniques and to extract knowledge from chemical reaction databases. The experiments we have done on Resyn Assistant concerned the synthetic methods which construct monocycles and the functional interchanges and gave trends in good agreement with the domain knowledge

27

Akbarinia, Reza. "Techniques d'accès aux données dans des systèmes pair-à-pair". Nantes, 2007. http://www.theses.fr/2007NANT2060.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Le but de cette thèse est de développer des nouvelles techniques d'accès aux données pour être utilisées par un service de traitement de requêtes dans des environnements P2P. En particulier, nous nous concentrons sur la conception de nouvelles techniques pour répondre à deux types de requêtes importants: les requêtes garantissant la currency des données (en français, la propriété des données d’être courantes, c. -à-d. à jour par rapport aux dernières modifications) et les requêtes top-k. Pour améliorer la disponibilité de données, la plupart des systèmes P2P s’appuient sur la réplication des données, mais sans garantir la currency. Cependant, pour beaucoup d'applications (par ex. Gestion d'agenda), la possibilité d'obtenir les données courantes est très importante. Donc, le service de traitement de requête doit traiter ce problème là. Le second problème que nous abordons est celui des requêtes top-k. Dans un système à grande échelle P2P, les requêtes top-k sont très utiles, par ex. Elles peuvent réduire le trafic du réseau significativement. Il existe des techniques efficaces pour l'exécution de requêtes top-k dans les systèmes distribués, mais elles ne conviennent pas aux systèmes P2P, en particulier aux DHTs. Dans cette thèse, nous donnons d’abord une vue d'ensemble des réseaux P2P actuels, et comparons leurs propriétés du point de vue du traitement de requêtes. Ensuite, nous proposons une solution complète au problème de la recherche d'une réplique courante dans les DHTs. Enfin, nous proposons de nouvelles solutions pour le traitement de requêtes top-k dans les systèmes P2P structuré, c. -à-d. Les DHTs, ainsi que les systèmes non structurés. Nous proposons également de nouveaux algorithmes pour traiter les requêtes top-k sur les listes triées, qui est un modèle très général. Nous avons validé nos solutions par une combinaison d'implémentation et de simulation ; Les résultats montrent de très bonnes performances, en termes du coût de communication et de temps de réponse
The goal of this thesis is to contribute to the development of new data access techniques for query processing services in P2P environments. We focus on novel techniques for two important kinds of queries: queries with currency guarantees and top-k queries. To improve data availability, most P2P systems rely on data replication, but without currency guarantees. However, for many applications which could take advantage of a P2P system (e. G. Agenda management), the ability to get the current data is very important. To support these applications, the query processing service must be able to efficiently detect and retrieve a current, i. E. Up-to-date, replica in response to a user requesting a data. The second problem which we address is supporting top-k queries which are very useful in large scale P2P systems, e. G. They can reduce the network traffic significantly. However, efficient execution of these queries is very difficult in P2P systems because of their special characteristics, in particular in DHTs. In this thesis, we first survey the techniques which have been proposed for query processing in P2P systems. We give an overview of the existing P2P networks, and compare their properties from the perspective of query processing. Second, we propose a complete solution to the problem of current data retrieval in DHTs. We propose a service called Update Management Service (UMS) which deals with updating replicated data and efficient retrieval of current replicas based on timestamping. Third, we propose novel solutions for top-k query processing in structured, i. E. DHTs, and unstructured P2P systems. We also propose new algorithms for top-k query processing over sorted lists which is a general model for top-k queries in many centralized, distributed and P2P systems, especially in super-peer networks. We validated our solutions through a combination of implementation and simulation and the results show very good performance, in terms of communication and response time

28

Valceschini-Deza, Nathalie. "Accès sémantique aux bases de données textuelles". Nancy 2, 1999. http://www.theses.fr/1999NAN21021.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les besoins justifiant cette recherche sont ceux de l'analyse du contenu textuel, les banques de données textuelles étant de plus en plus nombreuses et volumineuses. Ce travail est une contribution au problème de l'accès sémantique aux bases de données électroniques. Les données à notre disposition sont une base de données à dominante sciences humaines comportant environ 3000 oeuvres : FRANTEXT. Pour utiliser cette base et les bases de données littéraires en général nous proposons un outil basé sur le test statistique de l'écart réduit. Ce type de méthode prend en entrée un mot (ou une expression, un chapitre, un roman) et fournit comme une liste de mots-résultats qui sont corrélés statistiquement au premier mot (ou mot-pôle). La sémantique différentielle sert d'appui théorique à ce travail. Ce choix est motivé par les raisons suivantes : - elle pose comme postulat que les structures textuelles varient en fonction des genres ; - elle propose des unités de sens au palier inférieur au mot : les sèmes. Ces sèmes permettent d'expliquer la cohérence textuelle et de lier les différents niveaux : de l'en-deça du mot au texte : - elle interprète les unités en contexte. Cela permet d'expliquer les variations de sens d'un mot. De par sa nature, elle est compatible avec le test de l'écart réduit. A l'aide de ces trois composantes (données, outil et théorie sémantique), nous avons défini des méthodologies d'interrogation des bases de données littéraires. Nous nous sommes surtout intéressé à la thématique des textes. Mais l'étude de phénomènes connexes a été abordée, par exemple la stéréotypie. L'utilisation des statistiques a été illustrée et accompagnée de méthodologies constituant des aides à l'interprétation. D'autres procédés et méthodologies ont été proposées en amont et en aval des tests statistiques notamment l'utilisation de patrons morpho-syntaxiques pour obtenir des sous-corpus cohérents d'un point de vue sémantique et aptes à subir un traitement statistique. Les applications de ce type de recherches sont les suivantes : - l'étude des oeuvres par le biais de vérifications d'hypothèses et d'intuitions ; - le développement de stratégies d'interrogations fiables, testables par des élèves dans un cadre d'enseignement ; - l'étude des comportements socio-culturels dans les différents genres textuels ; - la recherche d'informations sur les régularités et les différences des textes en vue de la réalisation d'une typologie des genres textuels.

29

Fallouh, Fouad. "Données complexes et relation universelle avec inclusions : une aide à la conception et à l'interrogation des bases de données". Lyon 1, 1994. http://www.theses.fr/1994LYO10217.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Notre travail est a la frontiere des modeles semantiques de donnees et des donnees complexes ; il repose sur le modele relation universelle avec inclusions. Dans cette these nous montrons d'abord que les dependances d'inclusion permettent de definir des contraintes d'integrite plus generales que l'integrite referentielle concernant une, deux ou plus de deux relations et nous presentons comment les controler dans les sgbd relationnels actuels. La suite de la these s'est attachee a cumuler les avantages du modele relation universelle avec inclusions et des donnees complexes. Nous voulons recuperer la simplicite de description lors d'une conception par donnees complexes et leur adaptation aux traitements prevus. Nous donnons le principe de l'editeur graphique, appele lacsi-complexe, que nous avons construit et developpe en utilisant l'atelier de genie logiciel graphtalk. Cet editeur est capable de capter simplement la connaissance de l'analyste ou de l'utilisateur, de profiter de la faculte visionnaire d'utilisateurs ou d'administrateurs d'applications et de reprendre l'acquit de fichiers ou de bases de donnees non relationnelles existantes. Lacsi-complexe permet de specifier un schema de donnees appele foret complexe qui est: ? un ensemble de donnees complexes avec des sommets values ou non, des arcs totalement ou partiellement definis, monovalues ou multivalues, des cles et des attributs de rupture, complete par ? des dependances fonctionnelles, des composantes de jointure et des dependances d'inclusion. Il en deduit, en vue d'une implantation relationnelle, un graphe semantique normalise. Pour cela il represente les structures de liste, d'ensemble ordonne et d'amas, en s'aidant d'attributs rang et identifiant. Cependant ainsi la semantique des traitements susceptible d'etre representee par les donnees complexes disparait. Nous montrons que le modele foret complexe s'il peut, par duplication d'attributs a l'interieur d'une donnee complexe ou par attributs communs entre donnees complexes, representer la semantique des donnees, perd de sa lisibilite. En consequence, nous proposons un schema de donnees compact et quasi-unique intermediaire entre le graphe semantique normalise et la foret complexe: le graphe semantique normalise arbore. Ce graphe est un ensemble de donnees complexes sans attributs non racines dupliques et liees par des dependances d'inclusion. Il est une aide a la conception des bases de donnees oriente objet. Le graphe semantique normalise arbore est aussi un support privilegie pour l'interrogation graphique. En effet, nous etendons l'interface d'interrogation ruitalk, reposant sur le graphe semantique normalise, aux donnees complexes. Nous adjoignons aussi un mecanisme de jointures implicites

30

Andreewsky, Marina. "Construction automatique d'un système de type expert pour l'interrogation de bases de données textuelles". Paris 11, 1989. http://www.theses.fr/1989PA112310.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Notre thèse décrit la construction d’un système d’aide à l’interrogation de bases de données textuelles en naturel, le système FASE. Pour une base donnée, FASE génère automatiquement des suites de mots sémantiquement importants de son vocabulaire. Celles-ci sont organisées en arborescence: la racine correspond aux termes généraux de la base et les feuilles aux termes spécifiques d’un petit nombre de documents. Les arborescences sont créées à l'aide de deux modules : le premier, à caractère linguistique, attribue un fichier inverse des mots sémantiques à chaque base traitée. Il comprend une analyse morpho-syntaxique et le traitement de certaines formes de négation et de synonymie. Le second créé, à partir du fichier inverse, des chaînes de mots importants de la base qui recouvrent tous les documents concernés à une étape donnée. Cette procédure permet également d’effectuer une classification automatique de la base textuelle traitée. L'interrogation d'une base consiste en un parcours sélectif de l’arborescence, de la racine à une feuille, c'est-à-dire du niveau le plus général au niveau le plus spécifique. A chaque étape, le système présente à l'utilisateur une suite de mots caractéristiques d'un ensemble de plus en plus restreint de documents. Celui-ci sélectionne les mots les plus proches du sujet qui l'intéresse et le système calcule dynamiquement la nouvelle suite de mots à proposer. Aucune requête n'est à formuler: le système guide la recherche et permet de converger vers les documents correspondants aux validations successives.

31

Diop, Cheikh Talibouya. "Etude et mise en oeuvre des aspects itératifs de l'extraction de règles d'association dans une base de données". Tours, 2003. http://www.theses.fr/2003TOUR4027.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Avec l'augmentation de la capacité de stockage, nous avons assisté durant ces dernières années à une croissance importante des moyens de génération et de collection des données. C'est ainsi que l'on a commencé à parler de découverte de connaissances à partir de données (KDD) ou encore de Data Mining ou de Fouille de données. Les techniques de Data Mining permettent de découvrir des informations importantes (cachées) dans les données. Cependant la découverte de telles informations que l'on appelle aussi des motifs pose un certain nombre de problèmes. Le premier est le temps de calcul de ces motifs. En effet, les requêtes d'extraction de ces motifs sont des requêtes complexes et prennent ainsi du temps à s'exécuter. Le deuxième problème de la découverte d'informations intéressantes est la taille importante des réponses. Le nombre de motifs trouvés est généralement très important. C'est ainsi qu'est apparu l'idée de représentations condensées qui consiste à trouver un sous ensemble des motifs à partir duquel on pourra retrouver tous les autres. C'est ce sous-ensemble qui est appelé représentation condensée. La principale contribution de ce mémoire est de proposer une approche itérative de l'extraction des motifs intéressants. Celle-ci consiste à utiliser les résultats des extractions antérieures, plus précisément la représentation condensée de ces résultats pour optimiser le calcul des extractions futures. L'autre contribution est de proposer une représentation condensée non pas d'une réponse à une requête mais plutôt à un ensemble de réponses à des requêtes. En effet, étant donné que les ensembles de motifs trouvés ne sont pas indépendants, un problème crucial qui se pose est la redondance dans le stockage. Il apparaît alors nécessaire de ne pas stocker les représentations condensées indépendamment les unes des autres, mais de trouver une représentation condensée d'une ensemble de réponses à des requêtes. Le mémoire est ainsi divisé en deux parties. La première partie fait l'état de l'art sur la découverte de motifs intéressants, les représentations condensées, et l'extraction itérative de motifs. La seconde partie, qui est la contribution, présente, d'une part l'approche incrémentale d'extraction des motifs intéressants, d'abord par un formalisme logique, ensuite par un formalisme algébrique, et d'autre part la représentation condensée d'un ensemble de réponses à des requêtes.

32

Viallon, Vivian. "Processus empiriques, estimation non paramétrique et données censurées". Phd thesis, Université Pierre et Marie Curie - Paris VI, 2006. http://tel.archives-ouvertes.fr/tel-00119260.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

La théorie des processus empiriques joue un rôle central en statistique, puisqu'elle concerne l'ensemble des résultats limites généraux se rapportant aux échantillons aléatoires. En particulier, des lois uniformes du logarithme ont permis d'aborder de manière systématique la convergence en norme sup des estimateurs à noyau. Dans cette thèse, nous obtenons premièrement des lois fonctionnelles uniformes du logarithme pour les incréments du processus des quantiles normé, qui permettent d'établir des propriétés nouvelles des estimateurs basés sur les k-plus proches voisins. Le même type de résultat est ensuite obtenu pour les incréments du processus empirique de Kaplan-Meier, conduisant naturellement à des lois du logarithme uniformes pour des estimateurs de la densité et du taux de mortalité en présence de censure à droite. Dans le cas de la régression multivariée, des lois analogues sont obtenues pour des estimateurs à noyau, notamment dans le cas censuré. Enfin, nous développons un estimateur non paramétrique de la régression sous l'hypothèse du modèle additif dans le cas de censure à droite, permettant de se défaire du fléau de la dimension. Cet estimateur repose essentiellement sur la méthode d'intégration marginale.

33

Fankam, Nguemkam Chimène. "OntoDB2 : un système flexible et efficient de base de données à base ontologique pour le web sémantique et les données techniques". Chasseneuil-du-Poitou, Ecole nationale supérieure de mécanique et d'aéronautique, 2009. https://tel.archives-ouvertes.fr/tel-00452533.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Le besoin d'expliciter la sémantique des données dans différents domaines scientifiques (biologie, médecine, géographie, ingénierie, etc. ) s'est traduit par la définition de données faisant référence à des ontologies, encore appelées données à base ontologique. Avec la multiplication des ontologies de domaine, et le volume important de données à manipuler, est apparu le besoin de systèmes susceptibles de gérer des données à base ontologique de grande taille. De tels systèmes sont appelés des systèmes de gestion de Bases de Données à Base Ontologique (BDBO). Les principales limitations des systèmes de gestion de BDBO existants sont (1) leur rigidité, due à la prise en compte des constructions d'un unique formalisme d'expression d'ontologies, (2) l'absence de support pour les données non standard (spatiales, temporelles, etc. ) et, (3) leur manque d'efficacité pour gérer efficacement les données de grande taille. Nous proposons dans cette thèse un nouveau système de gestion de BDBO permettant (1) de supporter des ontologies basées sur différents formalismes d'ontologies, (2) l'extension de son formalisme d'ontologie pour répondre aux besoins spécifiques des applications, et (3) une gestion originale des données facilitant le passage à grande échelle. Le système que nous proposons dans cette thèse, ontodb2, se fonde sur l'existence d'un ensemble de constructions communes aux différents formalismes d'expression d'ontologies, susceptible de constituer une ontologie noyau, et sur les techniques de gestion des modèles pour permettre l'extension flexible de ce noyau. Nous proposons également une approche originale de gestion des données à base ontologique. Cette approche part du fait que les données à base ontologique peuvent se classifier en données canoniques (instances de classes primitives) et noncanoniques (instances de classes définies). Les instances de classes définies peuvent, sous certaines hypothèses, s'exprimer en termes d'instances de classes primitives. Nous proposons donc de ne représenter que les données canoniques, en transformant sous certaines conditions, toute donnée non-canonique en donnée canonique. Enfin, nous proposons d'exploiter l'interpréteur de requêtes ontologiques pour permettre (1) l'accès aux données non-canoniques ainsi transformées et, (2) d'indexer et pré-calculer les raisonnements en se basant sur les mécanismes du SGBD support. L'ensemble de ces propositions est validé (1) à travers une implémentation sur le SGBD PostgreSQL basée sur les formalismes d'ontologies PLIB, RDFS et OWL Lite, (2) des tests de performances sur des ensembles de données issus de la géographie et du Web
The need to represent the semantics of data in various scientific fields (medicine, geography, engineering, etc…) has resulted in the definition of data referring to ontologies, also called ontology-based data. With the proliferation of domain ontologies, and the increasing volume of data to handle, has emerge the need to define systems capable of managing large size of ontology-based data. Such systems are called Ontology Based DataBase (OBDB) Management Systems. The main limitations of existing OBDB systems are (1) their rigidity, (2) lack of support for non standard data (spatial, temporal, etc…) and (3) their lack of effectiveness to manage large size data. In this thesis, we propose a new OBDB called OntoDB2, allowing (1) the support of ontologies based on different ontology models, (2) the extension of its model to meet specific applications requirements, and (3) an original management of ontology-based data facilitating scalability. Onto DB2 is based on the existence of a kernel ontology, and model-based techniques to enable a flexible extension of this kernel. We propose to represent only canonical data by transforming, under certain conditions, any given non-canonical data to its canonical representation. We propose to use the ontology query language to (1) to access non-canonical data thereby transform and, (2) index and pre-calculate the reasoning operations by using the mechanisms of the underlying DBMS

34

Jedidi, Anis. "MODÉLISATION GÉNÉRIQUE DE DOCUMENTS MULTIMÉDIA PAR DES MÉTADONNÉES : MÉCANISMES D'ANNOTATION ET D'INTERROGATION". Phd thesis, Université Paul Sabatier - Toulouse III, 2005. http://tel.archives-ouvertes.fr/tel-00424059.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Dans le cadre de la manipulation et de la description du contenu des documents, mes travaux de thèse consistent à étudier la modélisation générique de documents multimédia par des métadonnées. Nous proposons une approche qui consiste à l'homogénéisation des structures de représentation de tels documents facilitant leur traitement final sans avoir recours aux contenus multimédia eux-mêmes. Nous avons proposé la structuration de ces métadonnées dans des documents XML appelés « méta-documents ». Ces méta-documents représentent une structure supplémentaire par rapport à d'éventuelles structures logiques ou physiques rédigées par les auteurs des documents. Nous avons étendu les méta-documents en intégrant des descripteurs sémantiques définis selon le besoin de l'utilisateur et des relations spatiales et temporelles. Au niveau de l'interrogation des documents multimédia, nous avons proposé un outil d'aide à la formulation graphique de requêtes XQuery en utilisant les métadonnées et en intégrant les relations spatio-temporelles entre ces métadonnées.

35

Sandu, Popa Iulian. "Modélisation, interrogation et indexation de données de capteurs à localisation mobile dans un réseau routier". Versailles-St Quentin en Yvelines, 2009. http://www.theses.fr/2009VERS0015.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les nouvelles technologies comme le GPS, les capteurs et les systèmes informatiques embarqués sont omniprésent dans notre société. Les mouvements des personnes et des véhicules peuvent être captés et enregistrés, produisant ainsi des volumes importants de données sur la mobilité. Les systèmes existants de gestion de bases de données ne parviennent pas à gérer ce type complexe de données. Cette thèse aborde le problème de la gestion de données des capteurs mobiles. Nous analysons les limites des travaux existants dans la modélisation, l'interrogation et l'indexation des objets mobiles munis des capteurs. Ensuite, nous proposons de nouvelles solutions pour surmonter ces limitations. Les principales contributions de la thèse sont un modèle de données et un langage pour des données de capteurs à localisation mobile, et une méthode d'accès pour des trajectoires d’objets mobiles dans un réseau routier. Nous avons validé nos propositions par un prototype offrant une extension spatio-temporelle d’un système de gestion de bases de données, ainsi que par des évaluations
New technologies such as GPS, sensors and ubiquitous computing are pervading our society. The movement of people and vehicles may be sensed and recorded, thus producing large volumes of mobility data. The state-of-the-art database management systems fail to handle such complex data and their processing. This thesis addresses the problem of managing mobile location sensor data. We analyze the limitations of existing work in modeling, querying and indexing moving objects with sensors on road networks. Then, we propose new solutions to deal with these limitations. The main contributions of the thesis are a data model and a query language for moving sensor data, and an access method for in-network trajectories of moving objects. We have implemented these proposals as a spatio-temporal database management system extension and evaluated them

36

Kouomou, Choupo Anicet. "Améliorer la recherche par similarité dans une grande base d'images fixes par des techniques de fouille de données". Rennes 1, 2006. https://tel.archives-ouvertes.fr/tel-00524418.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les images fixes peuvent, entre autre, être décrites au niveau pixel par des descripteurs visuels globaux de couleur, de texture ou de forme. La recherche par le contenu exploite et combine alors ces descripteurs dont le coût de calcul est d'autant plus important que la taille de la base d'images est grande. Les résultats de la recherche sont ensuite classés en fonction de leur similarité à la requête soumise et présentés à l'utilisateur sous forme de liste ordonnée. Un sous-ensemble de descripteurs pourrait cependant suffire à répondre à une recherche par similarité beaucoup plus rapidement, tout en gardant une qualité acceptable des résultats de recherche. Nous proposons pour cela une méthode de sélection automatique des descripteurs visuels qui exploite les règles d'association pour élaborer des stratégies d'exécution réduisant le temps de la recherche par le contenu dans de grandes bases d'images fixes. Dans cette thèse, nous présentons également comment une recherche par le contenu peut être adaptée pour proposer des résultats intermédiaires qui sont fusionnés de façon progressive avec l'avantage pour l'utilisateur, d'une part, de ne pas attendre que toute la base ait été parcourue avant de fournir un résultat et, d'autre part, de lui permettre de stopper la requête en cours d'exécution. Les expérimentations conduites sur des bases d'images réelles montrent que notre méthode améliore notablement les temps de réponse. Elles confirment aussi l'intérêt de la combinaison des descripteurs globaux pour la recherche d'images par le contenu.

37

Chbeir, Richard. "Modélisation de la description d'images : application au domaine médical". Lyon, INSA, 2001. http://theses.insa-lyon.fr/publication/2001ISAL0065/these.pdf.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

De nombreux axes de recherche se sont développés autour de la gestion des images. Dans ce travail, nous nous sommes intéressés à la problématique de la recherche d'images dans une base de données médicales. Cette problématique est liée principalement à la complexité de la description d'image. Trois paradigmes sont proposés dans la littérature : 1- Le paradigme orienté-contexte consistant à décrire l'image selon son contexte, en ignorant son contenu, 2- Le paradigme orienté-contenu considérant les couleurs, les textures, les formes, etc. De l'image 3- Le paradigme orienté-sémantique tentant de donner une interprétation de l'image à travers des mots-clé, des légendes, etc. Nous proposons, dans cette thèse, un modèle original qui permet de décrire toutes les caractéristiques de l'image. Il est structuré selon deux espaces : 1- L'espace externe contenant des informations externes liées à l'image telles que le nom du patient, la date d'acquisition, le type d'imagerie, etc. , 2- L'espace interne de l'image considérant son contenu physique (couleur, texture, etc. ), spatial (forme, position), et sémantique (scène, interprétations, etc. ). Le modèle a été élaboré avec plusieurs niveaux de granularité permettant de considérer les caractéristiques de l'image entière et celles de ses objets. Nous avons défini un module de références et un module de règles assurant la cohérence entre les espaces de description. Nous proposons également un méta-modèle de relation qui a pour but de fournir, de façon précise, plusieurs types de relations entre deux objets en se basant sur leurs caractéristiques communes (forme, couleur, position, etc. ). Ce méta-modèle contribue à définir un mécanisme d'indexation performant. Afin de valider notre approche, nous avons développé un prototype nommé MIMS (Medical Image Management System) utilisant des interfaces conviviales d'interrogation et de stockage d'images à base d'icônes et d'hypermédias. MIMS est accessible sur: http://mims. Myip. Org
The management of images remains a complex task that is currently a cause for several research works. In line with this, we are interested in this work with the problem of image retrieval in medical databases. This problem is mainly related to the complexity of image description or representation. In literature, three paradigms are proposed: 1- The context-oriented paradigm that describes the context of the image without considering its content, 2- The content-oriented paradigm considering the physical characteristics of the image such as colors, textures, shapes, etc. 3- The semantic-oriented paradigm trying to provide an interpretation of the image using keywords, legends, etc. In this thesis, we propose an original model able to describe all image characteristics. This model is structured according to two spaces: 1- External space containing factual information associated to the image such as the patient name, the acquisition date, image type, etc;, 2-Internal space considering the physical characteristics (color, texture, etc. ), the spatial characteristics (form, position), and the semantics (scene, interpretation, etc. ) of the image content. The model is elaborated with several levels of granularity that considers characteristics of the whole image and/or its salient objects. We provide as well a referential module and a rules module that maintains coherence between description spaces. We also propose a meta-model of relations. The purpose of this meta-model is to provide, in a precise way, the several types of relations between two objects in function of common characteristics (shape, color, position, etc. ). This meta-model contributes to define a powerful indexing mechanism. In order to validate our approach, we developed a prototype named MIMS (Medical Image System management) with a user-friendly interface for storage and retrieval of images based on icons and hypermedia. MIMS is web-accessible on http://mims. Myip. Org

38

Voglozin, W. Amenel. "Le résumé linguistique de données structurées comme support pour l'interrogation". Phd thesis, Université de Nantes, 2007. http://tel.archives-ouvertes.fr/tel-00481049.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Le travail présenté dans cette thèse traite de l'utilisation des résumés de données dans l'in- terrogation. Dans le contexte des résumés linguistiques du modèle SaintEtiQ sur lequel se focalise cette thèse, un résumé est une description du contenu d'une table relationnelle. Grâce à la déﬁnition de variables linguistiques, il est possible d'utiliser des termes du langage pour caractériser les données structurées de la table. En outre, l'organisation des résumés en hié- rarchie offre divers niveaux de granularité. Nous nous intéressons à fournir une application concrète aux résumés déjà construits. D'une part, nous étudions les possibilités d'utilisation des résumés dans une interrogation à but descriptif. L'objectif est de décrire entièrement des données dont certaines caractéristiques sont connues. Nous proposons une démarche de re- cherche de concepts et une instanciation de cette démarche. Ensuite, une étude des systèmes d'interrogation ﬂexible, dont certains ont, ainsi que SaintEtiQ, la théorie des sous-ensembles ﬂous comme base, nous permet d'enrichir la démarche proposée par des fonctionnalités plus avancées. D'autre part, nous avons intégré les résumés linguistiques de SaintEtiQ au SGBD PostgreSQL. L'objectif est d'aider le SGBD à identiﬁer des enregistrements. Nous présen- tons un état de l'art des techniques d'indexation, ainsi que le détail de l'implémentation des résumés en tant que méthode d'accès dans PostgreSQL.

39

Cuppens, Frédéric. "Comment fournir des réponses coopératives aux requêtes à une base de données". Toulouse, ENSAE, 1988. http://www.theses.fr/1988ESAE0014.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Cette thèse présente une méthode, et sa formalisation, pour fournir des informations supplémentaires intéressantes en réponse à des requêtes posées à une base de données relationnelle. Ces informations intéressantes sont déﬁnies en utilisant une base de connaissances contenant des règles représentant le savoir-faire d’un expert habitué à fournir des réponses à des utilisateurs occasionnels. Cette base de connaissances contient également une description de la base de données. Cette description de haut niveau utilise les notions d’entité, d’attributs d’entité, de relation et de "thème". Les thèmes sont associés aux attributs et aux relations et permettent de regrouper les informations de la base de données qui appartiennent à un même champ sémantique. Les bases de données et de connaissances sont toutes deux formalisées en logique du premier ordre. Il y a toutefois deux niveaux différents de formalisme : un niveau objet pour représenter la base de données elle-même, et un méta-niveau pour représenter la base de connaissances utilisée pour transformer les requêtes. Ces requêtes transformées déﬁnissent les informations supplémentaires à fournir à l’utilisateur. Elles sont obtenues en utilisant un mécanisme de déduction classique. Pour réaliser cette transformation, il est important de tenir compte des caractéristiques de chaque utilisateur. Dans cette thèse, seul l’aspect sémantique de l'information a été considéré, et l’on ne s’est pas intéressé aux aspects linguistiques, tel que la représentation en langue naturelle. Il faut également signaler qu’un premier prototype implanté en PROLOG fonctionne à l'heure actuelle.

40

Bonhomme, Christine. "Unlangage visuel dédié à l'interrogation et la manipulation de bases de données spatio-temporelles". Lyon, INSA, 2000. http://www.theses.fr/2000ISAL0049.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Dans cette thèse, nous présentons LVIS, un langage visuel dédié à l’interrogation et la manipulation de bases de données spatio-temporelles et, de manière plus spécifique, de Systèmes d’Information Géographique (SIG). Ce langage repose sur un mode d’interrogation par l’exemple. Des représentations visuelles de requêtes, dites requêtes visuelles, sont construites à l’aide de sélections successives d’icônes. Les icônes du langage sont définies à l’avance et se répartissent en deux catégories : l’ensemble des icônes des types d’objets de la base de données à interroger et l’ensemble des icônes des opérateurs nécessaires à la spécification de critères. Les requêtes visuelles obtenues sont traduites dans un langage textuel intermédiaire nommé langage pivot. Ce dernier est indépendant du SIG sur lequel les requêtes vont être exécutées. Le langage est défini à l’aide de trois grammaires indépendantes et substituables. Une première grammaire définit la sémantique du langage. Une seconde grammaire, dite grammaire visuelle, décrit la sémantique visuelle du langage. Une dernière grammaire définit les mots-clés du langage pivot permettant aux requêtes d’être traduites dans le langage d’interrogation d’un SIG choisi par l’utilisateur final. Un prototype a été développé dans l’optique de tester les interactions du langage avec le SIG MapInfo. Les deux principales contributions de cette étude dans le domaine de l’interrogation visuelle sont les suivantes : (1) La spécification de requêtes spatio-temporelles est prise en charge par l’intégration d’un ensemble d’opérateurs temporels (relations d’Allen) et spatio-temporels (cycle de vie des objets), et par la définition de nouvelles métaphores visuelles concourant à la représentation visuelle de telles requêtes. (2) La validation des icônes du langage est effectuée grâce à la réalisation de tests psycho-cognitifs auprès d’utilisateurs potentiels, ce qui permet notamment d’éprouver la convivialité du langage
This thesis deals with LVIS, a visual query language for spatiotemporal databases and more specifically for Geographical Information Systems (GIS). The language follows a query-by-example philosophy. Visual representations of queries - or visual queries - are incrementally specified by means of two sets of icons: the first one contains the icons that represent the object types of the database to be queried; the second one contains the icons of a minimal set of operators that are useful to express some criteria. Visual queries are then translated into a intermediate textual language - named pivot language. This pivot language is independent of the GIS that will finally execute queries. The language is defined by three independent grammars. A first grammar defines the semantics of the language. The second grammar - or visual grammar - defines the visual semantics of the language. The last grammar defines the keywords of the pivot language and allows the queries to be translated into the query language of a GIS that is chosen by the end user. A prototype has been developed with the aim of testing the interactions of the language with the MapInfo GIS. The two main contributions in the field of visual querying are: (1) The formulation of spatiotemporal queries are handled by both the integration of temporal (Allen relationships) and spatiotemporal (life-cycle of objects) operators and the definition of new visual metaphors allowing to visually represent such queries. (2) The validation of the icons of the language is assumed by psycho-cognitive tests that have been subjected to potential users. These tests aim too at evaluating the user-friendliness of the language

41

Kezouit, Omar Abdelaziz. "Bases de données relationnelles et analyse de données : conception et réalisation d'un système intégré". Paris 11, 1987. http://www.theses.fr/1987PA112130.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les utilisateurs de bases de données relationnelles ont de plus en plus souvent tendance à attendre des Systèmes de Gestion de Bases de Données (SGBD) des fonctionnalités qui aillent plus loin que l'organisation le stockage et la restitution d'un ensemble de données. D'un autre côté, les utilisateurs de l'analyse statistique multidimensionnelle, qui traitent des tableaux de données rectangulaires, ont de gros problèmes de gestion de leurs données et les outils dont ils disposaient jusqu'à présent manquaient souvent de souplesse, voire de possibilités. Pour répondre à cette préoccupation, cette thèse propose de rapprocher bases de données relationnelles et analyse statistique multidimensionnelle à travers la réalisation d'un système intégrant un SGBD relationnel et un système d'analyse de données, et de montrer par là même tout le bénéfice qui peut en être tiré du point de vue de l'interrogation des données. La première partie se propose de présenter les problèmes généraux naissant de l'intégration. Après une présentation des deux domaines et de certains travaux en bases de données statistiques, nous proposons une synthèse des notions de l'analyse statistique multidimensionnelle et des bases de données relationnelles. Ceci permettra de déboucher sur les spécifications d'un outil intégré de gestion et d'analyse des données et également de mettre en évidence un problème de cohérence particulier. Outre l'apport provenant de chaque part (gestion des données plus performante grâce au SGBD, interrogation statistique grâce au système d'analyse des données), des possibilités nouvelles naissent de l'intégration. Il s'agit principalement de la capacité d'effectuer des requêtes approximatives, que nous défroissons à cette occasion, sur une base de données et de la résolution dans certains cas du problème des données manquantes. La seconde partie est consacrée à la présentation d'une réalisation particulière. Nous avons pour cela intégré le SGBD relationnel PEPIN et le Système de classification automatique SICLA. Le prototype opérationnel permet ainsi de gérer une base de données relationnelle et de l'interroger statistiquement. Un exemple d'utilisation pour le traitement d'une enquête est donné.

42

Dib, Saker. "L'interrogation des bases de données relationnelles assistée par le graphe sémantique normalisé". Lyon 1, 1993. http://www.theses.fr/1993LYO10122.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Dans ce travail nous proposons une interface d'interrogation graphique des bases de donnees: ruitalk. Le schema de la base est modelise par un graphe semantique normalise. Ce graphe est le schema de donnees dans le modele relation universelle avec inclusions (rui). Il herite de la rigueur du modele relationnel de donnees et est plus riche semantiquement qu'un diagramme entite-association. Il visualise un certain nombre de rapprochements naturels entre tables d'une base de donnees: multiarcs de dependance d'inclusion (di) et arcs d'attributs communs univoques. Nous completons ce graphe en explicitant tous les rapprochements possibles entre relations du graphe semantique: aretes d'attributs communs, eclatements de di entre les relations normalisees. Nous montrons aussi que des attributs compatibles sont a la source de liens semantiques entre relations supplementaires. Ruitalk reste convival et ergonomique bien que le nombre de liens de jointures possibles entre relations peut etre grand. En effet, il ne genere pas simultanement tous ces liens, mais il affiche un graphe d'interrogation evolutif, accompagnant l'avancement de l'utilisateur dans le processus d'expression d'une question. Ce graphe visualise, en plus du graphe semantique normalise binaire, pour le sommet designe par l'utilisateur, ses liens avec chaque autre sommet. L'utilisateur est assiste au maximum dans la formulation de ses requetes par ruitalk. Il a a tout moment devant les yeux le schema des donnees. Pour definir le graphe de sa requete, il n'a qu'a designer les colonnes a projeter et les liens du graphe d'interrogation evolutif representant une jointure. Il peut aussi facilement specifier des predicats de selection et des sous-requetes. Il est constamment guide par le support graphique de ruitalk

43

Ben, Dhia Imen. "Gestion des grandes masses de données dans les graphes réels". Electronic Thesis or Diss., Paris, ENST, 2013. http://www.theses.fr/2013ENST0087.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

De nos jours, un grand nombre d’applications utilisent de grands graphes pour la modélisation de données du monde réel. Nous avons assisté, ces dernières années, à une très rapide croissance de ces graphes dans divers contextes ; à savoir, les réseaux sociaux, la bioinformatique, le web sémantique, les systèmes de gestion des données géographiques, etc. La gestion, l’analyse et l’interrogation de ces données constituent un enjeu très important et ont suscité un vaste intérêt dans la communauté des Bases de Données. L’objectif de cette thèse est de fournir des algorithmes efficaces pour l’indexation et l’interrogation des données dans les grands graphes. Nous avons proposé EUQLID, une technique d’indexation qui permet de répondre efficacement aux requêtes de calcul de distance dans les grands graphes orientés. L’efficacité de cette technique est dûe au fait qu’elle exploite des propriétés intéressantes des graphes du monde réel. En effet, nous proposons un algorithme basé sur une variante efficace du fameux algorithme 2-hop. Les résultats obtenus montrent que notre algorithme surpassent les approches existantes en terme de temps d’indexation, ainsi qu’en temps de réponse. En effet, il permet de calculer la distance entre deux noeuds en quelques centaines de millisecondes sur de très grands graphes. Nous proposons également un modèle de contrôle d’accès pour les réseaux sociaux qui permet aux utlisateurs de spécifier leurs poltiques de contrôle d’accès en se basant sur leurs relations sociales, et qui peut utiliser EUQLID pour passer à l’échelle. Nous décrivons Primates comme étant un prototype appliquant le modèle proposé
In the last few years, we have been witnessing a rapid growth of networks in a wide range of applications such as social networking, bio-informatics, semantic web, road maps, etc. Most of these networks can be naturally modeled as large graphs. Managing, analyzing, and querying such data has become a very important issue, and, has inspired extensive interest within the database community. In this thesis, we address the problem of efficiently answering distance queries in very large graphs. We propose EUQLID, an efficient algorithm to answer distance queries on very large directed graphs. This algorithm exploits some interesting properties that real-world graphs exhibit. It is based on an efficient variant of the seminal 2-hop algorithm. We conducted an extensive set of experiments against state-of-the-art algorithms which show that our approach outperforms existing approaches and that distance queries can be processed within hundreds of milliseconds on very large real-world directed graphs. We also propose an access control model for social networks which can make use of EUQLID to scale on very large graphs. This model allows users to specify fine-grained privacy policies based on their relations with other users in the network. We describe and demonstrate Primates as a prototype which enforces the proposed access control model and allows users to specify their privacy preferences via a graphical user-friendly interface

44

Jemaa, Adel. "Processus d’absorption, Innovation & Productivité : Analyse empirique sur données d’entreprises". Caen, 2014. http://www.theses.fr/2014CAEN0504.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

La thèse traite de la conceptualisation et de l’évaluation de la capacité des entreprises à absorber les connaissances externes. Elle traite également de l’impact de cette capacité sur l’innovation et la productivité des entreprises. La première contribution de cette thèse est de modéliser la capacité d’absorption comme un processus intégré dans le processus d’innovation de l’entreprise. Ce processus d’absorption est défini et modélisé d’une manière originale par un réseau d’interactions entre différentes activités ou capacités : la capacité d’absorption interne, la capacité d’accès aux connaissances externes et la capacité de coopérer. La seconde contribution est de traiter analytiquement cette question en intégrant simultanément la capacité d’absorption et la distance cognitive dans le cadre d’une fonction d’innovation. Ce modèle permet de distinguer entre une capacité d’absorption théorique et une capacité d’absorption effective qui tient compte de la distance cognitive. La troisième contribution consiste dans un premier temps, d’une part, à mesurer l’intensité de ces différentes capacités et, d’autre part, à estimer les relations de causalité entre celles-ci. C'est-à-dire, la capacité d’absorption interne déterminerait la capacité d’accès aux connaissances externes et cette dernière déterminerait la capacité de coopérer. Dans un deuxième temps, la thèse s’intéresse à l’influence de l’intensité de la coopération sur les performances de l’entreprise (output de l’innovation, productivité du travail, productivité globale des facteurs). Enfin, la thèse aborde la question de l’impact des performances de l’entreprise sur sa capacité d’absorption interne
The thesis deals with the conceptualization and assessment of the ability of firms to absorb external knowledge. It also discusses the impact of this capability on innovation and productivity. The first contribution of this thesis consists in modeling the absorption capacity as an integrated process in the innovation of the company processes. This process of absorption is defined and modeled in an original way through a network of interactions between different activities or capacities: the capacity for internal absorption, the access to external knowledge and the ability to cooperate capacity. The second contribution is to analytically treat the issue by integrating the absorption capacity and the cognitive distance through an innovation function simultaneously. This model allows to distinguish between a theoretical absorption capacity and an effective absorption capacity that takes into account the cognitive distance. The third contribution initially consists, on one hand, in measuring the intensity of these different capabilities and, on the other hand, in estimating the causal relationships between them. That is to say, the ability to determine the internal absorption ability to access external knowledge, which in turn, would determine the ability to cooperate. Secondly, the thesis focuses on the influence of the intensity of cooperation on business performance (output of innovation, labor productivity, TFP). Finally, the thesis discusses the impact of the performance of the company on its internal capacity for absorption

45

Do, Van-Cuong. "Analyse statistique de processus stochastiques : application sur des données d’orages". Thesis, Lorient, 2019. http://www.theses.fr/2019LORIS526/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les travaux présentés dans cette thèse concernent l'analyse statistique de cas particuliers du processus de Cox. Dans une première partie, nous proposons une synthèse des résultats existants sur le processus power-law (processus d'intensité puissance), synthèse qui ne peut être exhaustive étant donné la popularité de ce processus. Nous considérons une approche bayésienne pour l'inférence des paramètres de ce processus qui nous conduit à introduire et à étudier en détails une distribution que nous appelons loi H-B. Cette loi est une loi conjuguée. Nous proposons des stratégies d'élicitation des hyperparamètres et étudions le comportement des estimateurs de Bayes par des simulations. Dans un deuxième temps, nous étendons ces travaux au cas du processus d’intensité exponentielle (exponential-law process). De la même façon, nous définissons et étudions une loi conjuguée pour l'analyse bayésienne de ce dernier. Dans la dernière partie de la thèse, nous considérons un processus auto-excité qui intègre une covariable. Ce travail est motivé, à l'origine, par un problème de fiabilité qui concerne des données de défaillances de matériels exposés à des environnements sévères. Les résultats sont illustrés par des applications sur des données d'activités orageuses collectées dans deux départements français. Enfin, nous donnons quelques directions de travail et perspectives de futurs développements de l'ensemble de nos travaux
The work presented in this PhD dissertation concerns the statistical analysis of some particular cases of the Cox process. In a first part, we study the power-law process (PLP). Since the literature for the PLP is abundant, we suggest a state-of-art for the process. We consider the classical approach and recall some important properties of the maximum likelihood estimators. Then we investigate a Bayesian approach with noninformative priors and conjugate priors considering different parametrizations and scenarios of prior guesses. That leads us to define a family of distributions that we name H-B distribution as the natural conjugate priors for the PLP. Bayesian analysis with the conjugate priors are conducted via a simulation study and an application on real data. In a second part, we study the exponential-law process (ELP). We review the maximum likelihood techniques. For Bayesian analysis of the ELP, we define conjugate priors: the modified- Gumbel distribution and Gamma-modified-Gumbel distribution. We conduct a simulation study to compare maximum likelihood estimates and Bayesian estimates. In the third part, we investigate self-exciting point processes and we integrate a power-law covariate model to this intensity of this process. A maximum likelihood procedure for the model is proposed and the Bayesian approach is suggested. Lastly, we present an application on thunderstorm data collected in two French regions. We consider a strategy to define a thunderstorm as a temporal process associated with the charges in a particular location. Some selected thunderstorms are analyzed. We propose a reduced maximum likelihood procedure to estimate the parameters of the Hawkes process. Then we fit some thunderstorms to the power-law covariate self-exciting point process taking into account the associated charges. In conclusion, we give some perspectives for further work

46

Charles, Christophe. "SearchXQ : une méthode d'aide à la navigation fondée sur Ω-means, algorithme de classification non-supervisée. Application sur un corpus juridique français". Paris, ENMP, 2004. http://www.theses.fr/2004ENMP1281.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

47

Bedel, Olivier. "Geolis : un système d'information logique pour l'organisation et la recherche de données géolocalisées". Rennes 1, 2009. ftp://ftp.irisa.fr/techreports/theses/2009/bedel.pdf.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Nous proposons dans cette thèse un nouveau modèle d'organisation et un nouveau mode d'exploration des données géographiques. Notre approche s'appuie sur l'Analyse de concepts logiques et sa mise en oeuvre dans les Systèmes d'information logiques (SIL). Le modèle de données proposé est centré sur l'objet géographique et permet un regroupement flexible des données. Nous définissons des logiques spatiales permettant de décrire la géométrie et les relations spatiales (topologie, distance) des objets géographiques ainsi que de les organiser et de les retrouver grâce au mécanisme de déduction. L'exploration des données géolocalisées combine de façon dynamique l'interrogation, la navigation et la visualisation. Cette exploration s'appuie sur trois vues complémentaires du jeu de données exploré : la requête, la sélection, et l'index de navigation. Enfin, nous présentons un prototype réalisant ces différentes propositions ainsi que deux expérimentations sur des jeux de données réelles
In this thesis, we propose a new paradigm for geographical data organization and retrieval. Our approach is based on Logical Information System (LIS) and their underlying theory: Logical Concept Analysis. First, we present a data model centered on the geographical object that allows to gather geographical objects in a flexible way. We define spatial logics that enable to describe the geometry of geographical objects and their spatial relations (topology and distance) and to organize and retrieve these objects thanks to logical inference. Then, we detail a data exploration combining dynamically interrogation, navigation and visualization. It relies on three complementary views over the explored dataset: the query, the selection and the navigation index. Last, we describe a prototype satisfying our proposal and we discuss two experiments led on real datasets

48

Naoum, Lamiaa. "Un modèle multidimensionnel pour un processus d'analyse en ligne de résumés flous". Nantes, 2006. http://www.theses.fr/2006NANT2101.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

49

Baujoin, Corinne. "Analyse et optimisation d’un système de gestion de bases de données hiérarchique-relationnel : proposition d’une interface d’interrogation". Compiègne, 1985. http://www.theses.fr/1985COMPI209.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

50

Ripoche, Hugues. "Une construction interactive d'interprétations de données : application aux bases de données de séquences génétiques". Montpellier 2, 1995. http://www.theses.fr/1995MON20248.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

L'objectif de cette these est de faciliter l'interpretation de grands ensembles de donnees, c'est-a-dire d'extraire des connaissances a partir de donnees. Nous avons utilise deux domaines complementaires: bases de donnees (objet) et apprentissage automatique. Dans une premiere etape, nous proposons d'extraire des descripteurs a partir d'ensembles de donnees de reference, puis d'utiliser ces descripteurs pour interpreter de nouvelles donnees (non encore caracterisees). Dans une seconde etape, une classification construite a partir de donnees interpretees par des descripteurs peut etre critiquee par une methode d'analyse specifique, ce qui conduit en retour a une revision des donnees et des descripteurs. Une application a ete menee dans le cadre de l'analyse de sequences genetiques (proteines) en utilisant des motifs proteiques comme descripteurs, des treillis de concept comme methode de classification et l'alignement multiple de sequences pour la critique

Tesi sul tema "Interrogation de Données de Processus"

Cita una fonte nei formati APA, MLA, Chicago, Harvard e in molti altri stili