Dissertations / Theses on the topic 'Fouille de données hybride'

To see the other types of publications on this topic, follow the link: Fouille de données hybride.

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Fouille de données hybride.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Shahzad, Atif. "Une Approche Hybride de Simulation-Optimisation Basée sur la fouille de Données pour les problèmes d'ordonnancement." Phd thesis, Université de Nantes, 2011. http://tel.archives-ouvertes.fr/tel-00647353.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Une approche hybride basée sur la fouille de données pour découvrir de nouvelles règles de priorité pour le problème l'ordonnancement job-shop est présentée. Cette approche est basée sur la recherche de connaissances supposées être intégrés dans les solutions efficaces fournies par un module d'optimisation préalablement mis en oeuvre et utilisant la recherche tabou. L'objectif est de découvrir les principes directeurs de l'ordonnancement à l'aide de la fouille de données et donc d'obtenir un ensemble de règles capables d'obtenir des solutions efficaces pour un problème d'ordonnancement. Une structure basée sur fouille de données est présentée et mise en œuvre pour un problème de job shop avec comme objectifs le retard maximum et le retard moyen. Les résultats obtenus sont très prometteurs.
2

Shahzad, Muhammad Atif. "Une approche hybride de simulation-optimisation basée sur la fouille de données pour les problèmes d'ordonnancement." Nantes, 2011. http://archive.bu.univ-nantes.fr/pollux/show.action?id=53c8638a-977a-4b85-8c12-6dc88d92f372.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Une approche hybride basée sur la fouille de données pour découvrir de nouvelles règles de priorité pour le problème d'ordonnancement job-shop est présentée. Cette approche est basée sur la recherche de connaissances supposées être intégrés dans les solutions efficaces fournies par un module d'optimisation préalablement mis en oeuvre et utilisant la recherche tabou. L'objectif est de découvrir les principes directeurs de l’ordonnancement à l'aide de la fouille de données et donc d'obtenir un ensemble de règles capables d’obtenir des solutions efficaces pour un problème d'ordonnancement. Une structure basée sur fouille de données est présentée et mise en oeuvre pour un problème de job shop avec comme objectifs le retard maximum et le retard moyen. Les résultats obtenus sont très prometteurs
A data mining based approach to discover previously unknown priority dispatching rules for job shop scheduling problem is presented. This approach is based upon seeking the knowledge that is assumed to be embedded in the efficient solutions provided by the optimization module built using tabu search. The objective is to discover the scheduling concepts using data mining and hence to obtain a set of rules capable of approximating the efficient solutions for a job shop scheduling problem (JSSP). A data mining based scheduling framework is presented and implemented for a job shop problem with maximum lateness and mean tardiness as the scheduling objectives. The results obtained are very promising
3

Theobald, Claire. "Bayesian Deep Learning for Mining and Analyzing Astronomical Data." Electronic Thesis or Diss., Université de Lorraine, 2023. http://www.theses.fr/2023LORR0081.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Dans cette thèse, nous abordons le problème de la confiance que nous pouvons avoir en des systèmes prédictifs de type réseaux profonds selon deux directions de recherche complémentaires. Le premier axe s'intéresse à la capacité d'une IA à estimer de la façon la plus juste possible son degré d'incertitude liée à sa prise de décision. Le second axe quant à lui se concentre sur l'explicabilité de ces systèmes, c'est-à-dire leur capacité à convaincre l'utilisateur humain du bien fondé de ses prédictions. Le problème de l'estimation des incertitudes est traité à l'aide de l'apprentissage profond bayésien. Les réseaux de neurones bayésiens admettent une distribution de probabilité sur leurs paramètres, qui leur permettent d'estimer différents types d'incertitudes. Tout d'abord, l'incertitude aléatoire qui est liée aux données, mais également l'incertitude épistémique qui quantifie le manque de connaissance que le modèle possède sur la distribution des données. Plus précisément, cette thèse propose un modèle de réseau de neurones bayésien capable d'estimer ces incertitudes dans le cadre d'un problème de régression multivarié. Ce modèle est appliqué dans le contexte du projet ANR "AstroDeep'' à la régression des ellipticités complexes sur des images de galaxies. Ces dernières peuvent être corrompues par différences sources de perturbation et de bruit qui peuvent être estimées de manière fiable par les différentes incertitudes. L'exploitation de ces incertitudes est ensuite étendue à la cartographie de galaxies, puis au "coaching'' du réseau de neurones bayésien. Cette dernière technique consiste à générer des données de plus en plus complexes durant l'apprentissage du modèle afin d'en améliorer les performances. Le problème de l'explicabilité est quant à lui abordé via la recherche d'explications contrefactuelles. Ces explications consistent à identifier quels changements sur les paramètres en entrée auraient conduit à une prédiction différente. Notre contribution dans ce domaine s'appuie sur la génération d'explications contrefactuelles basées sur un autoencodeur variationnel (VAE) et sur un ensemble de prédicteurs entrainés sur l'espace latent généré par le VAE. Cette méthode est plus particulièrement adaptée aux données en haute dimension, telles que les images. Dans ce cas précis, nous parlerons d'explications contrefactuelles visuelles. En exploitant à la fois l'espace latent et l'ensemble de prédicteurs, nous arrivons à produire efficacement des explications contrefactuelles visuelles atteignant un degré de réalisme supérieur à plusieurs méthodes de l'état de l'art
In this thesis, we address the issue of trust in deep learning predictive systems in two complementary research directions. The first line of research focuses on the ability of AI to estimate its level of uncertainty in its decision-making as accurately as possible. The second line, on the other hand, focuses on the explainability of these systems, that is, their ability to convince human users of the soundness of their predictions.The problem of estimating the uncertainties is addressed from the perspective of Bayesian Deep Learning. Bayesian Neural Networks assume a probability distribution over their parameters, which allows them to estimate different types of uncertainties. First, aleatoric uncertainty which is related to the data, but also epistemic uncertainty which quantifies the lack of knowledge the model has on the data distribution. More specifically, this thesis proposes a Bayesian neural network can estimate these uncertainties in the context of a multivariate regression task. This model is applied to the regression of complex ellipticities on galaxy images as part of the ANR project "AstroDeep''. These images can be corrupted by different sources of perturbation and noise which can be reliably estimated by the different uncertainties. The exploitation of these uncertainties is then extended to galaxy mapping and then to "coaching'' the Bayesian neural network. This last technique consists of generating increasingly complex data during the model's training process to improve its performance.On the other hand, the problem of explainability is approached from the perspective of counterfactual explanations. These explanations consist of identifying what changes to the input parameters would have led to a different prediction. Our contribution in this field is based on the generation of counterfactual explanations relying on a variational autoencoder (VAE) and an ensemble of predictors trained on the latent space generated by the VAE. This method is particularly adapted to high-dimensional data, such as images. In this case, they are referred as counterfactual visual explanations. By exploiting both the latent space and the ensemble of classifiers, we can efficiently produce visual counterfactual explanations that reach a higher degree of realism than several state-of-the-art methods
4

Boudane, Abdelhamid. "Fouille de données par contraintes." Thesis, Artois, 2018. http://www.theses.fr/2018ARTO0403/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Dans cette thèse, nous abordons les problèmes bien connus de clustering et de fouille de règles d’association. Notre première contribution introduit un nouveau cadre de clustering, où les objets complexes sont décrits par des formules propositionnelles. Premièrement, nous adaptons les deux fameux algorithmes de clustering, à savoir, le k-means et l’algorithme hiérarchique ascendant, pour traiter ce type d’objets complexes. Deuxièmement, nous introduisons un nouvel algorithme hiérarchique descendant pour le clustering des objets représentés explicitement par des ensembles de modèles. Enfin, nous proposons un encodage basé sur la satisfiabilité propositionnelle du problème de clustering des formules propositionnelles sans avoir besoin d’une représentation explicite de leurs modèles. Dans une seconde contribution, nous proposons une nouvelle approche basée sur la satisfiabilité pour extraire les règles d’association en une seule étape. La tâche est modélisée comme une formule propositionnelle dont les modèles correspondent aux règles à extraire. Pour montrer la flexibilité de notre cadre, nous abordons également d’autres variantes, à savoir, l’extraction des règles d’association fermées, minimales non redondantes, les plus générales et les indirectes. Les expérimentations sur de nombreux jeux de données montrent que sur la majorité des tâches de fouille de règles d’association considérées, notre approche déclarative réalise de meilleures performances que les méthodes spécialisées
In this thesis, We adress the well-known clustering and association rules mining problems. Our first contribution introduces a new clustering framework, where complex objects are described by propositional formulas. First, we extend the two well-known k-means and hierarchical agglomerative clustering techniques to deal with these complex objects. Second, we introduce a new divisive algorithm for clustering objects represented explicitly by sets of models. Finally, we propose a propositional satisfiability based encoding of the problem of clustering propositional formulas without the need for an explicit representation of their models. In a second contribution, we propose a new propositional satisfiability based approach to mine association rules in a single step. The task is modeled as a propositional formula whose models correspond to the rules to be mined. To highlight the flexibility of our proposed framework, we also address other variants, namely the closed, minimal non-redundant, most general and indirect association rules mining tasks. Experiments on many datasets show that on the majority of the considered association rules mining tasks, our declarative approach achieves better performance than the state-of-the-art specialized techniques
5

Cohen, Jérémy E. "Fouille de données tensorielles environnementales." Thesis, Université Grenoble Alpes (ComUE), 2016. http://www.theses.fr/2016GREAT054/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Parmi les techniques usuelles de fouille de données, peu sont celles capables de tirer avantage de la complémentarité des dimensions pour des données sous forme de tableaux à plusieurs dimensions. A l'inverse les techniques de décomposition tensorielle recherchent spécifiquement les processus sous-jacents aux données, qui permettent d'expliquer les données dans toutes les dimensions. Les travaux rapportés dans ce manuscrit traitent de l'amélioration de l'interprétation des résultats de la décomposition tensorielle canonique polyadique par l'ajout de connaissances externes au modèle de décomposition, qui est par définition un modèle aveugle n'utilisant pas la connaissance du problème physique sous-jacent aux données. Les deux premiers chapitres de ce manuscrit présentent respectivement les aspects mathématiques et appliqués des méthodes de décomposition tensorielle. Dans le troisième chapitre, les multiples facettes des décompositions sous contraintes sont explorées à travers un formalisme unifié. Les thématiques abordées comprennent les algorithmes de décomposition, la compression de tenseurs et la décomposition tensorielle basée sur les dictionnaires. Le quatrième et dernier chapitre présente le problème de la modélisation d'une variabilité intra-sujet et inter-sujet au sein d'un modèle de décomposition contraint. L'état de l'art en la matière est tout d'abord présenté comme un cas particulier d'un modèle flexible de couplage de décomposition développé par la suite. Le chapitre se termine par une discussion sur la réduction de dimension et quelques problèmes ouverts dans le contexte de modélisation de variabilité sujet
Among commonly used data mining techniques, few are those which are able to take advantage of the multiway structure of data in the form of a multiway array. In contrast, tensor decomposition techniques specifically look intricate processes underlying the data, where each of these processes can be used to describe all ways of the data array. The work reported in the following pages aims at incorporating various external knowledge into the tensor canonical polyadic decomposition, which is usually understood as a blind model. The first two chapters of this manuscript introduce tensor decomposition techniques making use respectively of a mathematical and application framework. In the third chapter, the many faces of constrained decompositions are explored, including a unifying framework for constrained decomposition, some decomposition algorithms, compression and dictionary-based tensor decomposition. The fourth chapter discusses the inclusion of subject variability modeling when multiple arrays of data are available stemming from one or multiple subjects sharing similarities. State of the art techniques are studied and expressed as particular cases of a more general flexible coupling model later introduced. The chapter ends on a discussion on dimensionality reduction when subject variability is involved, as well a some open problems
6

Turmeaux, Teddy. "Contraintes et fouille de données." Orléans, 2004. http://www.theses.fr/2004ORLE2048.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La fouille de données est un domaine de recherche actif, visant à découvrir des connaissances implicites dans des bases de données. Nous étudions ici l'intérêt de formalismes issus de la logique du premier ordre pour la fouille de données. En particulier, nous examinons l'intérêt des contraintes, vues comme des formules du premier ordre et interprétées sur un domaine particulier. Un point important de tout formalisme utilisé en ECD est la définition d'une relation de généralité qui permet de structurer l'espace des motifs, et de faciliter ainsi la recherche de motifs intéressants. Nous nous intéressons tout d'abord aux bases de données contraintes qui étendent à la fois les bases de données relationnelles, déductives et spatiales, et qui permettent la définition d'ensembles infinis grâce à la notion de tuples généralisés. Nous étudions ensuite le formalisme des clauses contraintes utilisées en Programmation Logique avec Contraintes. Nous reprenons la définition classique de généralité entre clauses contraintes et nous déterminons dans ce cadre le moindre généralisé, le moindre spécialisé et des opérateurs de raffinement. Nous montrons comment les calculer en pratique sur plusieurs domaines de contraintes spécifiques. Enfin nous introduisons un nouveau motif: les règles caractéristiques. Ces règles sont la combinaison d'un chemin quantifié et d'une contrainte et permettent de capturer la notion de lien entre entités et de contraintes sur ces entités. Nous montrons l'intérêt de telles règles dans le cadre de bases de données géographiques, notamment sur des données géologiques fournies par le Bureau de Recherche Géologique et Minières.
7

Prudhomme, Elie. "Représentation et fouille de données volumineuses." Thesis, Lyon 2, 2009. http://www.theses.fr/2009LYO20048/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le stockage n'étant plus soumis à des contraintes de coût importantes, les systèmes d'information collectent une quantité croissante de données, souvent via des processus d'acquisition automatique. En parallèle, les objets d'intérêt sont devenus plus complexes. C'est le cas, par exemple, des images, du texte ou encore des puces à ADN. Pour leur analyse, les méthodes d'apprentissage doivent alors prendre en compte l'augmentation massive et conjointe du nombre d'exemples et d'attributs qui en résultent. Or, les outils classiques de l'apprentissage automatique ne sont pas toujours adaptés à ce changement de volumétrie tant au niveau de leur complexité algorithmique que pour appréhender la structure des données. Dans ce contexte de données volumineuses en apprentissage supervisé, nous nous sommes intéressés à l'extraction de deux catégories de connaissances, conjointement à la prédiction, la première relative à l'organisation des exemples entre eux et la seconde relative aux interactions qui existent entre les attributs. Pour nous intéresser aux relations entre les exemples, nous définissons le concept de représentation en apprentissage supervisé comme une modélisation et une visualisation des données à la fois du point de vue de la proximité entre les exemples et du lien entre la position des exemples et leur étiquette. Parmi les différents algorithmes recensés qui conduisent à l'obtention d'une telle représentation, nous retenons les cartes auto-organisatrices qui présentent la plus faible complexité algorithmique, ce qui les rend adaptées aux données volumineuses. L'algorithme des cartes auto-organisatrices étant nonsupervis é, nous proposons une adaptation à l'apprentissage supervisé par le biais des cartes étiquetées (Prudhomme et Lallich, 2005b). Nous montrons également qu'il est possible de valider statistiquement la qualité de la représentation obtenue par une telle carte (Prudhomme et Lallich, 2005a). Les statistiques que nous proposons sont corrélées avec le taux d'erreur en généralisation, ce qui permet de juger a priori de la qualité de la prédiction qui résulte de la carte. Néanmoins, la prédiction des cartes auto-organisatrices n'est pas toujours satisfaisante face à des données en grandes dimensions. Dans ce cas, nous avons recours aux méthodes ensemblistes. Ces méthodes agrègent la prédiction de plusieurs classifieurs simples. En créant une certaine diversité entre les prédictions de ces classifieurs, les méthodes ensemblistes améliorent la prédiction qui aurait été obtenue par un seul classifieur. Pour créer cette diversité, nous apprenons chaque classifieur simple (dans notre cas, des cartes auto-organisatrices) sur un sous-espace de l'espace d'apprentissage. La diversité est ainsi l'occasion de diminuer la dimensionnalité du problème. Afin de choisir au mieux les sous-espaces, nous nous sommes inspirés des connaissances théoriques disponibles sur la répartition de l'erreur en généralisation d'un ensemble. Nous avons alors proposé deux heuristiques. La première heuristique est non-supervisée. Elle repose sur l'interprétation des corrélations entre attributs pour déterminer les sous-espaces à apprendre (Prudhomme et Lallich, 2007). La seconde heuristique, au contraire, est supervisée. Elle optimise par un algorithme génétique une mesure de l'erreur d'un ensemble en fonction de l'erreur des classifieurs qui le composent (Prudhomme et Lallich, 2008b). Ces deux heuristiques conduisent à des ensembles de cartes (ou des comités de cartes) dont l'erreur en généralisation est plus faible que celle d'une carte seule apprise sur la totalité des attributs. Néanmoins, ils conduisent également à une multitude de représentations. Pour proposer une seule représentation à l'issue de l'apprentissage, nous introduisons la notion de stacking géographique. (...)
/
8

Braud, Agnès. "Fouille de données par algorithmes génétiques." Orléans, 2002. http://www.theses.fr/2002ORLE2011.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La fouille de données est un processus visant à la découverte de connaissances potentiellement utiles, enfouies dans les bases de données. Parmi les problématiques de ce domaine, nous nous intéressons à l'apprentissage de concepts à partir d'exemples. Nous nous concentrons sur l'apprentissage de descriptions de concepts exprimées sous forme d'un ensemble de règles, et sur l'apport des algorithmes génétiques dans ce domaine.
9

Francisci, Dominique. "Techniques d'optimisation pour la fouille de données." Phd thesis, Université de Nice Sophia-Antipolis, 2004. http://tel.archives-ouvertes.fr/tel-00216131.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les technologies numériques ont engendré depuis peu, des volumes de données importants, qui peuvent receler des informations utiles. Ceci a donné naissance à l'extraction de connaissances à partir des données qui désigne le processus d'extraction d'informations implicites, précédemment inconnues et potentiellement utiles enfouies dans les données. La fouille de données comprend cinq phases dont la principale est l'extraction de modèles. Nous nous intéressons aux connaisances exprimées sous la forme de règles de dépendance et à la qualité de ces règles. Une règle de dépendance est une implication conditionnelle entre ensembles d'attributs. Les algorithmes standard ont pour but de rechercher les meilleurs modèles. Derrière ces processus se cache en fait une véritable problématique d'optimisation. Nous considérons la recherche des règles de dépendance les plus intéressantes comme étant un problème d'optimisation dans lequel la qualité d'une règle est quantifiée par des mesures. Ainsi, il convient d'étudier les espaces de recherche induits par les mesures ainsi que les algorithmes de recherche dans ces espaces. Il ressort que la plupart des mesures observées présentent des propriétés différentes suivant le jeu de données. Une approche analytique n'est donc pas envisageable dans fixer certains paramères. Nous observons les variations relatives de mesures évaluées simultanément ; certaines d'entre elles sont antagonistes ce qui ne permet pas d'obtenir "la" meilleure règle ; il faut alors considérer un ensemble de compromis satisfaisants. Nous apportons des solutions par le biais des algorithmes génétiques.
10

Collard, Martine. "Fouille de données, Contributions Méthodologiques et Applicatives." Habilitation à diriger des recherches, Université Nice Sophia Antipolis, 2003. http://tel.archives-ouvertes.fr/tel-01059407.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les travaux présentés dans ce mémoire, ont été développés sur le thème de la découverte de motifs intéressants à travers la fouille de données et mis en oeuvre dans le cadre de la conception de systèmes d'information. Ils sont essentiellement consacrés aux problèmes soulevés par l'étape de fouille pour la découverte de modèles et de motifs fréquents. Ils sont à la fois d'ordre méthodologique et applicatif.
11

Lhote, Loïck. "l'algorithmique: la fouille de données et l'arithmétique." Phd thesis, Université de Caen, 2006. http://tel.archives-ouvertes.fr/tel-00092862.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse aborde deux domaines de l'algorithmique: la fouille de données et l'arithmétique. Le point de vue adopté est celui de l'analyse en moyenne et, plus précisément, celui de l'analyse dynamique, qui combine des méthodes d'analyse d'algorithmes et des systèmes dynamiques. Les algorithmes de type Euclide calculent le pgcd de deux nombres; ce sont donc des briques de base du calcul formel, mais leur comportement probabiliste fin reste encore mal connu. Tout récemment, les méthodes dynamiques ont permis des avancées significatives dans ce domaine. Nous étendons cette approche à l'analyse fine d'autres paramètres, comme la complexité binaire et la taille des restes. Ces paramètres s'avèrent essentiels pour l'analyse de l'algorithme de type diviser pour régner introduit par Knuth et Schönhage. Nous utilisons également l'analyse dynamique dans le calcul prouvé de grandeurs spectrales. L'approche dynamique s'adapte aussi à l'algorithme d'Euclide sur les polynômes, même si, dans ce cas, les méthodes de la combinatoire analytique classique s'appliquent déjà. Nous abordons également la fouille de données. Nous nous limitons à des bases de données binaires où la connaissance se représente sous forme de 'motifs fréquents'. Le nombre de ces motifs est un paramètre essentiel pour les algorithmes. D'après les expérimentations, il varie considérablement selon les paramètres de la base, et l'analyse dans le pire des cas n'est donc pas significative en pratique. Dans cette thèse, nous élucidons le comportement moyen du nombre de motifs fréquents dans un modèle très général, où les bases sont contruites à partir de sources possiblement corrélées.
12

Karoui, Lobna. "Extraction contextuelle d'ontologie par fouille de données." Paris 11, 2008. http://www.theses.fr/2008PA112220.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L’objectif de cette thèse est d’automatiser au maximum le processus de construction d’une ontologie à partir de pages web, en étudiant notamment l’impact que peut avoir la fouille de données dans une telle tâche. Pour construire l’ontologie, nous avons exploité la structure HTML du document étudié afin de pouvoir bien définir le contexte à mettre en œuvre. Ce dernier est structuré sous la forme d’une hiérarchie de contextes. Puis, nous avons défini un algorithme de clustering hiérarchique dédié à l’extraction de concepts ontologiques intitulé ‘ECO’ ; il est basé sur l’algorithme Kmeans et guidé par notre structure contextuelle. Cet algorithme génère une hiérarchie de classes de termes (concepts). En instaurant un mécanisme incrémental et en divisant récursivement les classes, l’algorithme ECO raffine le contexte de chaque classe de mots et améliore la qualité conceptuelle des clusters finaux et par conséquence des concepts extraites. L’interprétation sémantique des classes de termes par les experts ou les concepteurs de l’ontologie est une tâche difficile. Afin de la faciliter, nous avons proposé une méthodologie d’évaluation des concepts basée sur la richesse des documents web, l’interprétation sémantique, l’élicitation des connaissances et le concept de « contextualisation progressive ». Notre méthodologie définit trois critères révélateurs : « le degré de crédibilité », « le degré de cohésion » et le « degré d’éligibilité ». Elle a été appliquée pour évaluer les classes de termes (relations internes) mais pas les relations entre les classes (pas la hiérarchie de concepts). Notre objectif, également, était d’extraire des relations de différents types à partir de différentes analyses des textes et des relations existantes dans la hiérarchie de concepts. Pour cela, notre approche combine une méthode centrée autour du verbe, des analyses lexicales, syntaxiques et statistiques. Nous utilisons ces relations pour évaluer et enrichir la hiérarchie de concepts.
13

Lahbib, Dhafer. "Préparation non paramétrique des données pour la fouille de données multi-tables." Phd thesis, Université de Cergy Pontoise, 2012. http://tel.archives-ouvertes.fr/tel-00854142.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Dans la fouille de données multi-tables, les données sont représentées sous un format relationnel dans lequel les individus de la table cible sont potentiellement associés à plusieurs enregistrements dans des tables secondaires en relation un-à-plusieurs. Afin de prendre en compte les variables explicatives secondaires (appartenant aux tables secondaires), la plupart des approches existantes opèrent par mise à plat, obtenant ainsi une représentation attribut-valeur classique. Par conséquent, on perd la représentation initiale naturellement compacte mais également on risque d'introduire des biais statistiques. Dans cette thèse, nous nous intéressons à évaluer directement les variables secondaires vis-à-vis de la variable cible, dans un contexte de classification supervisée. Notre méthode consiste à proposer une famille de modèles non paramétriques pour l'estimation de la densité de probabilité conditionnelle des variables secondaires. Cette estimation permet de prendre en compte les variables secondaires dans un classifieur de type Bayésien Naïf. L'approche repose sur un prétraitement supervisé des variables secondaires, par discrétisation dans le cas numérique et par groupement de valeurs dans le cas catégoriel. Dans un premier temps, ce prétraitement est effectué de façon univariée, c'est-à-dire, en considérant une seule variable secondaire à la fois. Dans un second temps, nous proposons une approche de partitionnement multivarié basé sur des itemsets de variables secondaires, ce qui permet de prendre en compte les éventuelles corrélations qui peuvent exister entre variables secondaires. Des modèles en grilles de données sont utilisés pour obtenir des critères Bayésiens permettant d'évaluer les prétraitements considérés. Des algorithmes combinatoires sont proposés pour optimiser efficacement ces critères et obtenir les meilleurs modèles.Nous avons évalué notre approche sur des bases de données multi-tables synthétiques et réelles. Les résultats montrent que les critères d'évaluation ainsi que les algorithmes d'optimisation permettent de découvrir des variables secondaires pertinentes. De plus, le classifieur Bayésien Naïf exploitant les prétraitements effectués permet d'obtenir des taux de prédiction importants.
14

Clech, Jérémie. "Contribution méthodologique à la fouille de données complexes." Lyon 2, 2004. http://theses.univ-lyon2.fr/documents/lyon2/2004/clech_j.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Au cours de cette thèse, nous abordons la problématique de l'extraction de connaissances à partir de données complexes. Notre motivation est issue de l'accroissement du besoin de traiter de telles données, du principalement à l'explosion des technologies de l'information véhiculant une forte diffusion de documents complexes. La fouille de données complexes se propose de fournir un modèle d'analyse permettant d'intégrer de larges variétés de données, structurées ou non, locales ou distantes. Le point de vue retenu est de dire que face à une tâche d'extraction des connaissances, l'utilisateur doit être libéré des contraintes liées à l'organisation, le codage, le format, la représentation des données. Il doit accéder au contenu. Nous reprenons les étapes du processus d'extraction de connaissances afin de traiter dans un cadre général ces données fortement hétérogènes. L'aboutissement du processus étant l'exploitation de ces données, nous proposons ici un environnement d'exploration visuelle reposant à la fois sur une représentation globale du corpus, sur une contextualisation d'un individu particulier et sur la visualisation à proprement parlée des documents. En outre, nous adaptons l'architecture des systèmes de recherch d'information à ce type de données. Nous avons proposé un système de recherche basé sur l'exploitation de la contextualisation d'un document et un autre sur un processus de fouille de données dans le but de prendre en compte la perception de l'utilisateur vis à vis de la requête posée en fonction de son jugement face aux documents retournés par le système. Enfin, nous décrivons des applications concrètes liées à l'exploitation de données complexes.
15

Laurent, Anne. "Bases de données multidimensionnelles floues et leur utilisation pour la fouille de données." Paris 6, 2002. http://www.theses.fr/2002PA066426.

Full text
APA, Harvard, Vancouver, ISO, and other styles
16

El, Mahrsi Mohamed Khalil. "Analyse et fouille de données de trajectoires d'objets mobiles." Thesis, Paris, ENST, 2013. http://www.theses.fr/2013ENST0056/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Dans un premier temps, nous étudions l'échantillonnage de flux de trajectoires. Garder l'intégralité des trajectoires capturées par les terminaux de géo-localisation modernes peut s'avérer coûteux en espace de stockage et en temps de calcul. L'élaboration de techniques d'échantillonnage adaptées devient primordiale afin de réduire la taille des données en supprimant certaines positions tout en veillant à préserver le maximum des caractéristiques spatiotemporelles des trajectoires originales. Dans le contexte de flux de données, ces techniques doivent en plus être exécutées "à la volée" et s'adapter au caractère continu et éphémère des données. A cet effet, nous proposons l'algorithme STSS (spatiotemporal stream sampling) qui bénéficie d'une faible complexité temporelle et qui garantit une borne supérieure pour les erreurs d’échantillonnage. Nous montrons les performances de notre proposition en la comparant à d'autres approches existantes. Nous étudions également le problème de la classification non supervisée de trajectoires contraintes par un réseau routier. Nous proposons trois approches pour traiter ce cas. La première approche se focalise sur la découverte de groupes de trajectoires ayant parcouru les mêmes parties du réseau routier. La deuxième approche vise à grouper des segments routiers visités très fréquemment par les mêmes trajectoires. La troisième approche combine les deux aspects afin d'effectuer un co-clustering simultané des trajectoires et des segments. Nous démontrons comment ces approches peuvent servir à caractériser le trafic et les dynamiques de mouvement dans le réseau routier et réalisons des études expérimentales afin d'évaluer leurs performances
In this thesis, we explore two problems related to managing and mining moving object trajectories. First, we study the problem of sampling trajectory data streams. Storing the entirety of the trajectories provided by modern location-aware devices can entail severe storage and processing overheads. Therefore, adapted sampling techniques are necessary in order to discard unneeded positions and reduce the size of the trajectories while still preserving their key spatiotemporal features. In streaming environments, this process needs to be conducted "on-the-fly" since the data are transient and arrive continuously. To this end, we introduce a new sampling algorithm called spatiotemporal stream sampling (STSS). This algorithm is computationally-efficient and guarantees an upper bound for the approximation error introduced during the sampling process. Experimental results show that stss achieves good performances and can compete with more sophisticated and costly approaches. The second problem we study is clustering trajectory data in road network environments. We present three approaches to clustering such data: the first approach discovers clusters of trajectories that traveled along the same parts of the road network; the second approach is segment-oriented and aims to group together road segments based on trajectories that they have in common; the third approach combines both aspects and simultaneously clusters trajectories and road segments. We show how these approaches can be used to reveal useful knowledge about flow dynamics and characterize traffic in road networks. We also provide experimental results where we evaluate the performances of our propositions
17

El, Mahrsi Mohamed Khalil. "Analyse et fouille de données de trajectoires d'objets mobiles." Electronic Thesis or Diss., Paris, ENST, 2013. http://www.theses.fr/2013ENST0056.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Dans un premier temps, nous étudions l'échantillonnage de flux de trajectoires. Garder l'intégralité des trajectoires capturées par les terminaux de géo-localisation modernes peut s'avérer coûteux en espace de stockage et en temps de calcul. L'élaboration de techniques d'échantillonnage adaptées devient primordiale afin de réduire la taille des données en supprimant certaines positions tout en veillant à préserver le maximum des caractéristiques spatiotemporelles des trajectoires originales. Dans le contexte de flux de données, ces techniques doivent en plus être exécutées "à la volée" et s'adapter au caractère continu et éphémère des données. A cet effet, nous proposons l'algorithme STSS (spatiotemporal stream sampling) qui bénéficie d'une faible complexité temporelle et qui garantit une borne supérieure pour les erreurs d’échantillonnage. Nous montrons les performances de notre proposition en la comparant à d'autres approches existantes. Nous étudions également le problème de la classification non supervisée de trajectoires contraintes par un réseau routier. Nous proposons trois approches pour traiter ce cas. La première approche se focalise sur la découverte de groupes de trajectoires ayant parcouru les mêmes parties du réseau routier. La deuxième approche vise à grouper des segments routiers visités très fréquemment par les mêmes trajectoires. La troisième approche combine les deux aspects afin d'effectuer un co-clustering simultané des trajectoires et des segments. Nous démontrons comment ces approches peuvent servir à caractériser le trafic et les dynamiques de mouvement dans le réseau routier et réalisons des études expérimentales afin d'évaluer leurs performances
In this thesis, we explore two problems related to managing and mining moving object trajectories. First, we study the problem of sampling trajectory data streams. Storing the entirety of the trajectories provided by modern location-aware devices can entail severe storage and processing overheads. Therefore, adapted sampling techniques are necessary in order to discard unneeded positions and reduce the size of the trajectories while still preserving their key spatiotemporal features. In streaming environments, this process needs to be conducted "on-the-fly" since the data are transient and arrive continuously. To this end, we introduce a new sampling algorithm called spatiotemporal stream sampling (STSS). This algorithm is computationally-efficient and guarantees an upper bound for the approximation error introduced during the sampling process. Experimental results show that stss achieves good performances and can compete with more sophisticated and costly approaches. The second problem we study is clustering trajectory data in road network environments. We present three approaches to clustering such data: the first approach discovers clusters of trajectories that traveled along the same parts of the road network; the second approach is segment-oriented and aims to group together road segments based on trajectories that they have in common; the third approach combines both aspects and simultaneously clusters trajectories and road segments. We show how these approaches can be used to reveal useful knowledge about flow dynamics and characterize traffic in road networks. We also provide experimental results where we evaluate the performances of our propositions
18

Boullé, Marc. "Recherche d'une représentation des données efficace pour la fouille des grandes bases de données." Phd thesis, Télécom ParisTech, 2007. http://pastel.archives-ouvertes.fr/pastel-00003023.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La phase de préparation du processus de fouille des données est critique pour la qualité des résultats et consomme typiquement de l'ordre de 80% d'une étude. Dans cette thèse, nous nous intéressons à l'évaluation automatique d'une représentation, en vue de l'automatisation de la préparation des données. A cette fin, nous introduisons une famille de modèles non paramétriques pour l'estimation de densité, baptisés modèles en grille. Chaque variable étant partitionnée en intervalles ou groupes de valeurs selon sa nature numérique ou catégorielle, l'espace complet des données est partitionné en une grille de cellules résultant du produit cartésien de ces partitions univariées. On recherche alors un modèle où l'estimation de densité est constante sur chaque cellule de la grille. Du fait de leur très grande expressivité, les modèles en grille sont difficiles à régulariser et à optimiser. Nous avons exploité une technique de sélection de modèles selon une approche Bayesienne et abouti à une évaluation analytique de la probabilité a posteriori des modèles. Nous avons introduit des algorithmes d'optimisation combinatoire exploitant les propriétés de notre critère d'évaluation et la faible densité des données en grandes dimensions. Ces algorithmes ont une complexité algorithmique garantie, super-linéaire en nombre d'individus. Nous avons évalué les modèles en grilles dans de nombreux contexte de l'analyse de données, pour la classification supervisée, la régression, le clustering ou le coclustering. Les résultats démontrent la validité de l'approche, qui permet automatiquement et efficacement de détecter des informations fines et fiables utiles en préparation des données.
19

Charmpi, Konstantina. "Méthodes statistiques pour la fouille de données dans les bases de données de génomique." Thesis, Université Grenoble Alpes (ComUE), 2015. http://www.theses.fr/2015GRENM017/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse est consacrée aux tests statistiques, visant à comparer un vecteur de données numériques, indicées par l'ensemble des gènes du génome humain, à un certain ensemble de gènes, connus pour être associés par exemple à un type donné de cancer. Parmi les méthodes existantes, le test Gene Set Enrichment Analysis est le plus utilisé. Néanmoins, il a deux inconvénients. D'une part, le calcul des p-valeurs est coûteux et peu précis. D'autre part, il déclare de nombreux résultats significatifs, dont une majorité n'ont pas de sens biologique. Ces deux problèmes sont traités, par l'introduction de deux procédures statistiques nouvelles, les tests de Kolmogorov-Smirnov pondéré et doublement pondéré. Ces deux tests ont été appliqués à des données simulées et réelles, et leurs résultats comparés aux procédures existantes. Notre conclusion est que, au-delà leurs avantages mathématiques et algorithmiques, les tests proposés pourraient se révéler, dans de nombreux cas, plus informatifs que le test GSEA classique, et traiter efficacement les deux problèmes qui ont motivé leur construction
Our focus is on statistical testing methods, that compare a given vector of numeric values, indexed by all genes in the human genome, to a given set of genes, known to be associated to a particular type of cancer for instance. Among existing methods, Gene Set Enrichment Analysis is the most widely used. However it has several drawbacks. Firstly, the calculation of p-values is very much time consuming, and insufficiently precise. Secondly, like most other methods, it outputs a large number of significant results, the majority of which are not biologically meaningful. The two issues are addressed here, by two new statistical procedures, the Weighted and Doubly Weighted Kolmogorov-Smirnov tests. The two tests have been applied both to simulated and real data, and compared with other existing procedures. Our conclusion is that, beyond their mathematical and algorithmic advantages, the WKS and DWKS tests could be more informative in many cases, than the classical GSEA test and efficiently address the issues that have led to their construction
20

Aouiche, Kamel. "Techniques de fouille de données pour l'optimisation automatique des performances des entrepôts de données." Lyon 2, 2005. http://theses.univ-lyon2.fr/documents/lyon2/2005/aouiche_k.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Avec le développement des bases de données en général et des entrepôts de données en particulier, il est devenu très important de réduire les tâches d'administration des systèmes de gestion de base de données. Les systèmes auto-administratifs ont pour objectif de s'administrer et de s'adapter eux-mêmes, automatiquement, sans perte ou même avec un gain de performance. L'idée d'utiliser des techniques de fouille de données pour extraire des connaissances utiles à partir des données stockées pour leur administration est une approche très prometteuse, notamment dans le domaine des entrepôts de données, où les requêtes sont très hétérogènes et ne peuvent pas être interprétées facilement. L'objectif de cette thèse est d'étudier les techniques d'auto-administration des entrepôts de données, principalement des techniques d'optimisation des performances, comme l'indexation et la matérialisation de vues, et de rechercher une manière d'extraire des données elles-mêmes des connaissances utilisables pour appliquer ces techniques. Nous avons réalisé un outil qui recommande une configuration d'index et de vues matérialisées permettant d'optimiser le temps d'accès aux données. Notre outil effectue une recherche de motifs fréquents fermés sur une charge donnée et une classification non supervisée des requêtes de la charge pour construire cette configuration d'index et de vues. Nous avons également couplé la sélection d'index et de vues matérialisées afin de partager efficacement l'espace de disque alloué pour stocker ces structures. Enfin, nous avons appliqué les principes développés dans le cadre relationnel aux entrepôts de données XML. Nous avons proposé une structure d'index précalculant les jointures entre les faits et les dimensions XML et adapté notre stratégie de sélection de vues pour matérialiser des vues XML
With the development of databases in general and data warehouses in particular, it becomes very important to reduce the function of administration. The aim of auto-administrative systems is administrate and adapt themselves automatically, without loss or even with a gain in performance. The idea of using data mining techniques to extract useful knowledge for administration from the data themselves has been in the air for some years. However, no research has ever been achieved. As for as we know, it nevertheless remains a very promising approach, notably in the field of the data warehousing, where the queries are very heterogeneous and cannot be interpreted easily. The aim of this thesis is to study auto-administration techniques in databases and data warehouses, mainly performance optimization techniques such as indexing and view materialization, and to look for a way of extracting from stored data themselves useful knowledge to apply these techniques. We have designed a tool that finds an index and view configuration allowing to optimize data access time. Our tool searches frequent itemsets in a given workload and clusters the query workload to compute this index and view configuration. Finally, we have extended the performance optimization to XML data warehouses. In this area, we proposed an indexing technique that precomputes joins between XML facts and dimensions and adapted our materialized view selection strategy for XML materialized views
21

Jacquemont, Stéphanie. "Contributions de l'inférence grammaticale à la fouille de données séquentielles." Phd thesis, Université Jean Monnet - Saint-Etienne, 2008. http://tel.archives-ouvertes.fr/tel-00366358.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Dans le cadre de cette thèse, nous avons établi des liens entre les modèles obtenus par des algorithmes d'inférence grammaticale et la connaissance induite par des techniques de fouille de données séquentielles. Partant du constat que le point commun entre ces deux contextes différents de travail est la manipulation de données structurées sous forme de séquences de symboles, nous avons tenté d'exploiter les propriétés des automates probabilistes inférés à partir de ces séquences au profit d'une fouille de données séquentielles plus efficace.
Dans ce contexte, nous avons montré que l'exploitation brute, non seulement des séquences d'origine mais aussi des automates probabilistes inférés à partir de celles-ci, ne garantit pas forcément une extraction de connaissance pertinente. Nous avons apporté dans cette thèse plusieurs contributions, sous la forme de bornes minimales et de contraintes statistiques, permettant ainsi d'assurer une exploitation fructueuse des séquences et des automates probabilistes. De plus, grâce à notre modèle nous apportons une solution efficace à certaines applications mettant en jeux des problèmes de préservation de vie privée des individus.
22

Ramstein, Gérard. "Application de techniques de fouille de données en Bio-informatique." Habilitation à diriger des recherches, Université de Nantes, 2012. http://tel.archives-ouvertes.fr/tel-00706566.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les travaux de recherche présentés par l'auteur ont pour objet l'application de techniques d'extraction de connaissances à partir de données (ECD) en biologie. Deux thèmes majeurs de recherche en bio-informatique sont abordés : la recherche d'homologues distants dans des familles de protéines et l'analyse du transcriptome. La recherche d'homologues distants à partir de séquences protéiques est une problématique qui consiste à découvrir de nouveaux membres d'une famille de protéines. Celle-ci partageant généralement une fonction biologique, l'identification de la famille permet d'investiguer le rôle d'une séquence protéique. Des classifieurs ont été développés pour discriminer une superfamille de protéines particulière, celle des cytokines. Ces protéines sont impliquées dans le système immunitaire et leur étude est d'une importance cruciale en thérapeutique. La technique des Séparateurs à Vastes Marges (SVM) a été retenue, cette technique ayant donné les résultats les plus prometteurs pour ce type d'application. Une méthode originale de classification a été conçue, basée sur une étape préliminaire de découverte de mots sur-représentés dans la famille d'intérêt. L'apport de cette démarche est d'utiliser un dictionnaire retreint de motifs discriminants, par rapport à des techniques utilisant un espace global de k-mots. Une comparaison avec ces dernières méthodes montre la pertinence de cette approche en termes de performances de classification. La seconde contribution pour cette thématique porte sur l'agrégation des classifieurs basée sur des essaims grammaticaux. Cette méthode vise à optimiser l'association de classifieurs selon des modèles de comportement sociaux, à la manière des algorithmes génétiques d'optimisation. Le deuxième axe de recherche traite de l'analyse des données du transcriptome. L'étude du transcriptome représente un enjeu considérable, tant du point de vue de la compréhension des mécanismes du vivant que des applications cliniques et pharmacologiques. L'analyse implicative sur des règles d'association, développée initialement par Régis Gras, a été appliquée aux données du transcriptome. Une approche originale basée sur des rangs d'observation a été proposée. Deux applications illustrent la pertinence de cette méthode : la sélection de gènes informatifs et la classification de tumeurs. Enfin, une collaboration étroite avec une équipe INSERM dirigée par Rémi Houlgatte a conduit à l'enrichissement d'une suite logicielle dédiée aux données de puces à ADN. Cette collection d'outils dénommée MADTOOLS a pour objectifs l'intégration de données du transcriptome et l'aide à la méta-analyse. Une application majeure de cette suite utilise les données publiques relatives aux pathologies musculaires. La méta-analyse, en se basant sur des jeux de données indépendants, améliore grandement la robustesse des résultats. L'étude systématique de ces données a mis en évidence des groupes de gènes co-exprimés de façon récurrente. Ces groupes conservent leur propriété discriminante au travers de jeux très divers en termes d'espèces, de maladies ou de conditions expérimentales. Cette étude peut évidemment se généraliser à l'ensemble des données publiques concernant le transcriptome. Elle ouvre la voie à une approche à très grande échelle de ce type de données pour l'étude d'autres pathologies humaines.
23

Khiali, Lynda. "Fouille de données à partir de séries temporelles d’images satellites." Thesis, Montpellier, 2018. http://www.theses.fr/2018MONTS046/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les images satellites représentent de nos jours une source d’information incontournable. Elles sont exploitées dans diverses applications, telles que : la gestion des risques, l’aménagent des territoires, la cartographie du sol ainsi qu’une multitude d’autre taches. Nous exploitons dans cette thèse les Séries Temporelles d’Images Satellites (STIS) pour le suivi des évolutions des habitats naturels et semi-naturels. L’objectif est d’identifier, organiser et mettre en évidence des patrons d’évolution caractéristiques de ces zones.Nous proposons des méthodes d’analyse de STIS orientée objets, en opposition aux approches par pixel, qui exploitent des images satellites segmentées. Nous identifions d’abord les profils d’évolution des objets de la série. Ensuite, nous analysons ces profils en utilisant des méthodes d’apprentissage automatique. Afin d’identifier les profils d’évolution, nous explorons les objets de la série pour déterminer un sous-ensemble d’objets d’intérêt (entités spatio-temporelles/objets de référence). L’évolution de ces entités spatio-temporelles est ensuite illustrée en utilisant des graphes d’évolution.Afin d’analyser les graphes d’évolution, nous avons proposé trois contributions. La première contribution explore des STIS annuelles. Elle permet d’analyser les graphes d’évolution en utilisant des algorithmes de clustering, afin de regrouper les entités spatio-temporelles évoluant similairement. Dans la deuxième contribution, nous proposons une méthode d’analyse pluri-annuelle et multi-site. Nous explorons plusieurs sites d’étude qui sont décrits par des STIS pluri-annuelles. Nous utilisons des algorithmes de clustering afin d’identifier des similarités intra et inter-site. Dans la troisième contribution, nous introduisons une méthode d’analyse semi-supervisée basée sur du clustering par contraintes. Nous proposons une méthode de sélection de contraintes. Ces contraintes sont utilisées pour guider le processus de clustering et adapter le partitionnement aux besoins de l’utilisateur.Nous avons évalué nos travaux sur différents sites d’étude. Les résultats obtenus ont permis d’identifier des profils d’évolution types sur chaque site d’étude. En outre, nous avons aussi identifié des évolutions caractéristiques communes à plusieurs sites. Par ailleurs, la sélection de contraintes pour l’apprentissage semi-supervisé a permis d’identifier des entités profitables à l’algorithme de clustering. Ainsi, les partitionnements obtenus en utilisant l’apprentissage non supervisé ont été améliorés et adaptés aux besoins de l’utilisateur
Nowadays, remotely sensed images constitute a rich source of information that can be leveraged to support several applications including risk prevention, land use planning, land cover classification and many other several tasks. In this thesis, Satellite Image Time Series (SITS) are analysed to depict the dynamic of natural and semi-natural habitats. The objective is to identify, organize and highlight the evolution patterns of these areas.We introduce an object-oriented method to analyse SITS that consider segmented satellites images. Firstly, we identify the evolution profiles of the objects in the time series. Then, we analyse these profiles using machine learning methods. To identify the evolution profiles, we explore all the objects to select a subset of objects (spatio-temporal entities/reference objects) to be tracked. The evolution of the selected spatio-temporal entities is described using evolution graphs.To analyse these evolution graphs, we introduced three contributions. The first contribution explores annual SITS. It analyses the evolution graphs using clustering algorithms, to identify similar evolutions among the spatio-temporal entities. In the second contribution, we perform a multi-annual cross-site analysis. We consider several study areas described by multi-annual SITS. We use the clustering algorithms to identify intra and inter-site similarities. In the third contribution, we introduce à semi-supervised method based on constrained clustering. We propose a method to select the constraints that will be used to guide the clustering and adapt the results to the user needs.Our contributions were evaluated on several study areas. The experimental results allow to pinpoint relevant landscape evolutions in each study sites. We also identify the common evolutions among the different sites. In addition, the constraint selection method proposed in the constrained clustering allows to identify relevant entities. Thus, the results obtained using the unsupervised learning were improved and adapted to meet the user needs
24

Jollois, François-Xavier. "Contribution de la classification automatique à la fouille de données." Metz, 2003. http://docnum.univ-lorraine.fr/public/UPV-M/Theses/2003/Jollois.Francois_Xavier.SMZ0311.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La classification est une étape essentielle dans un processus de fouille de données. Les méthodes usuelles que nous décrivons se basent sur des critères métriques. Mais, l'utilisation des modèles de mélange dans la classification est devenue une approche classique et puissante. En traitant la classification sous cette approche, à partir des algorithmes de type EM, nous nous sommes intéressés aux problèmes suivants : recherche du nombre de classes, gestion des données manquantes, stratégies d'initialisation et accélération de l'algorithme. L'algorithme EM est devenu quasiment incontournable dans l'approche mélange; Alors que beaucoup de travaux sont effectués sur des données continues, nous avons choisi de nous interesser principalement aux données binaires et qualitatives. En premier lieu, nous avons proposé une étude comparative de critères de choix du nombre de classes les plus utilisées.
25

Do, Thanh-Nghi. "Visualisation et séparateurs à vaste marge en fouille de données." Nantes, 2004. http://www.theses.fr/2004NANT2072.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Nous présentons différentes approches coopératives combinant des méthodes de visualisation et des séparateurs à vaste marge (SVM) pour l'extraction de connaissances dans les données (ECD). La plupart des méthodes existantes à l'heure actuelle en fouille de données fonctionnent de manière automatique, l'utilisateur n'est que peu impliqué dans le processus. Par ailleurs, ces méthodes doivent pouvoir traiter des quantités de plus en plus importantes de données. Nous visons d'une part à augmenter le rôle de l'utilisateur dans le processus de fouille (par le biais de la visualisation) et d'autre part à améliorer les performances et les capacités des algorithmes de fouille pour leur permettre de traiter de grands ensembles de données. Nous présentons : - une classe d'algorithmes de SVM parallèles et distribués pour le traitement de grandes quantités de données, - des méthodes graphiques interactives pour expliquer les résultats des algorithmes de classification automatique, - des méthodes coopératives permettant d'impliquer plus significativement l'utilisateur dans la construction du modèle. Nous avons développé des algorithmes incrémentaux, parallèles et distribués (en lignes ou en colonnes) de proximal SVM, Least-Square SVM et SVM généralisé. Ces algorithmes nous permettent de traiter aisément des fichiers de très grandes tailles sur des machines standards : un milliard d'individus en dimension 10 sont classés en 7 minutes (sur 10 machines). Dans la plupart des cas, les algorithmes de SVM donnent en sortie les vecteurs support (qui forment la frontière entre les éléments des deux classes). Cette information est peu compréhensible et fait que les SVM sont utilisés comme des boîtes noires. Nous présentons des méthodes graphiques interactives pour interpréter les résultats de SVM en classification, régression et détection d'individus atypiques et permettre par exemple de déterminer les dimensions intéressantes dans le modèle obtenu. Nous en avons ensuite dérivé une méthode graphique interactive pour améliorer les résultats des algorithmes de SVM dans le cas de la classification multi-classes ou d'une classe minoritaire et une méthode graphique d'aide au paramétrage des SVM. Enfin nous présentons une méthode de fouille visuelle de données permettant la construction interactive de SVM. Les performances des algorithmes développés sont ensuite évaluées sur différents ensembles de données : les résultats sont équivalents aux algorithmes usuels en ce qui concerne les taux de précision. Nos principaux apports sont d'une part l'amélioration de la confiance et de la compréhensibilité du modèle et d'autre part la capacité à traiter de très grandes quantités de données sur du matériel standard
We present the different cooperative approaches using visualization methods and support vector machine algorithms (SVM) for knowledge discovery in databases (KDD). Most of existing data mining approaches construct the model in an automatic way, the user is not involved in the mining process. Furthermore, these approaches must be able to deal with the challenge of large datasets. Our work aims at increasing the human role in the KDD process (by the way of visualization methods) and improve the performances (concerning the execution time and the memory requirement) of the methods for mining large datasets. W e present:- parallel and distributed SVM algorithms for mining massive datasets, - interactive graphical methods to explain SVM results, - cooperative approaches to involve more significatively the user in the model construction
26

Dalloux, Clément. "Fouille de texte et extraction d'informations dans les données cliniques." Thesis, Rennes 1, 2020. http://www.theses.fr/2020REN1S050.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Avec la mise en place d'entrepôts de données cliniques, de plus en plus de données de santé sont disponibles pour la recherche. Si une partie importante de ces données existe sous forme structurée, une grande partie des informations contenues dans les dossiers patients informatisés est disponible sous la forme de texte libre qui peut être exploité pour de nombreuses tâches. Dans ce manuscrit, deux tâches sont explorées~: la classification multi-étiquette de textes cliniques et la détection de la négation et de l'incertitude. La première est étudiée en coopération avec le centre hospitalier universitaire de Rennes, propriétaire des textes cliniques que nous exploitons, tandis que, pour la seconde, nous exploitons des textes biomédicaux librement accessibles que nous annotons et diffusons gratuitement. Afin de résoudre ces tâches, nous proposons différentes approches reposant principalement sur des algorithmes d'apprentissage profond, utilisés en situations d'apprentissage supervisé et non-supervisé
With the introduction of clinical data warehouses, more and more health data are available for research purposes. While a significant part of these data exist in structured form, much of the information contained in electronic health records is available in free text form that can be used for many tasks. In this manuscript, two tasks are explored: the multi-label classification of clinical texts and the detection of negation and uncertainty. The first is studied in cooperation with the Rennes University Hospital, owner of the clinical texts that we use, while, for the second, we use publicly available biomedical texts that we annotate and release free of charge. In order to solve these tasks, we propose several approaches based mainly on deep learning algorithms, used in supervised and unsupervised learning situations
27

Mondal, Kartick Chandra. "Algorithmes pour la fouille de données et la bio-informatique." Thesis, Nice, 2013. http://www.theses.fr/2013NICE4049.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'extraction de règles d'association et de bi-clusters sont deux techniques de fouille de données complémentaires majeures, notamment pour l'intégration de connaissances. Ces techniques sont utilisées dans de nombreux domaines, mais aucune approche permettant de les unifier n'a été proposée. Hors, réaliser ces extractions indépendamment pose les problèmes des ressources nécessaires (mémoire, temps d'exécution et accès aux données) et de l'unification des résultats. Nous proposons une approche originale pour extraire différentes catégories de modèles de connaissances tout en utilisant un minimum de ressources. Cette approche est basée sur la théorie des ensembles fermés et utilise une nouvelle structure de données pour extraire des représentations conceptuelles minimales de règles d'association, bi-clusters et règles de classification. Ces modèles étendent les règles d'association et de classification et les bi-clusters classiques, les listes d'objets supportant chaque modèle et les relations hiérarchiques entre modèles étant également extraits. Cette approche a été appliquée pour l'analyse de données d'interaction protéomiques entre le virus VIH-1 et l'homme. L'analyse de ces interactions entre espèces est un défi majeur récent en bio-informatique. Plusieurs bases de données intégrant des informations hétérogènes sur les interactions et des connaissances biologiques sur les protéines ont été construites. Les résultats expérimentaux montrent que l'approche proposée peut traiter efficacement ces bases de données et que les modèles conceptuels extraits peuvent aider à la compréhension et à l'analyse de la nature des relations entre les protéines interagissant
Knowledge pattern extraction is one of the major topics in the data mining and background knowledge integration domains. Out of several data mining techniques, association rule mining and bi-clustering are two major complementary tasks for these topics. These tasks gained much importance in many domains in recent years. However, no approach was proposed to perform them in one process. This poses the problems of resources required (memory, execution times and data accesses) to perform independent extractions and of the unification of the different results. We propose an original approach for extracting different categories of knowledge patterns while using minimum resources. This approach is based on the frequent closed patterns theoretical framework and uses a novel suffix-tree based data structure to extract conceptual minimal representations of association rules, bi-clusters and classification rules. These patterns extend the classical frameworks of association and classification rules, and bi-clusters as data objects supporting each pattern and hierarchical relationships between patterns are also extracted. This approach was applied to the analysis of HIV-1 and human protein-protein interaction data. Analyzing such inter-species protein interactions is a recent major challenge in computational biology. Databases integrating heterogeneous interaction information and biological background knowledge on proteins have been constructed. Experimental results show that the proposed approach can efficiently process these databases and that extracted conceptual patterns can help the understanding and analysis of the nature of relationships between interacting proteins
28

Muhlenbach, Fabrice. "Evaluation de la qualité de la représentation en fouille de données." Lyon 2, 2002. http://demeter.univ-lyon2.fr:8080/sdx/theses/lyon2/2002/muhlenbach_f.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'extraction de connaissances à partir de données (ECD) cherche à produire de nouvelles connaissances utilisables en tirant parti des grandes bases de données. Avant de procéder à la phase de fouille de données, étapes phare de l'ECD, pour pouvoir opérer un apprentissage automatique, un ensemble de questions et de problèmes se posent : comment avoir a priori une idée de la manière dont les étiquettes de la variable à apprendre peuvent être séparées en fonction des variables prédictives ? comment traiter les bases pour lesquelles nous savons que des étiquettes sont fausses ? comment transformer des variables prédictives continues en variables discrètes en tenant compte globalement des informations de la variable à prédire ? Nous proposons diverses réponses à ces problèmes. Ces solutions exploitent les propriétés d'outils géométriques : les graphes de voisinage. Le voisinage entre des individus projetés dans un espace à p dimensions nous fournit un moyen de caractériser la ressemblance entre les exemples à apprendre. A partir de ceci, nous élaborons un test statistique basé sur le poids des arêtes qu'il faut retirer dans un graphe de voisinage pour n'avoir que des sous-graphes d'une seul étiquette, ce qui nous informe de la séparabilité a priori des classes. Nous prolongeons ces réflexions dans le cadre de la détection d'individus dont l'étiquette est douteuse : nous proposons une stratégie de suppression et de réétiquetage d'exemples douteux dans l'échantillon d'apprentissage afin d'augmenter la qualité des modèles prédictifs exploitant cet échantillon de données. Ces travaux sont étendus au cas particulier où la variable à prédire est numérique : nous présentons un test de structure pour la prédiction d'une telle variable. Enfin, nous présenton une méthode de discrétisation supervisée polythétique qui repose sur les graphes de voisinage et montrons ses performances en l'employant avec une méthode d'apprentissage supervisé que nous avons développée
Knowledge discovery tries to produce novel and usable knowledge from the databases. In this whole process, data mining is the crucial machine learning step but we must asked some questions first: how can we have an a priori idea of the way of the labels of the class attribute are separable or not? How can we deal with databases where some examples are mislabeled? How can we transform continuous predictive attributes in discrete ones in a supervised way by taking into account the global information of the data ? We propose some responses to these problems. Our solutions take advantage of the properties of geometrical tools: the neighbourhood graphs. The neighbourhood between examples projected in a multidimensional space gives us a way of characterising the likeness between the examples to learn. We develop a statistical test based on the weight of edges that we must suppress from a neighbourhood graph for having only subgraphs of a unique class. This gives information about the a priori class separability. This work is carried on in the context of the detection of examples from a database that have doubtful labels: we propose a strategy for removing and relabeling these doubtful examples from the learning set to improve the quality of the resulting predictive model. These researches are extended in the special case of a continuous class to learn: we present a structure test to predict this kind of variable. Finally, we present a supervised polythetic discretization method based on the neighbourhood graphs and we show its performances by using it with a new supervised machine learning algorithm
29

Liu, Xueliang. "Fouille d'informations multimédia partagées orienté événements." Electronic Thesis or Diss., Paris, ENST, 2012. http://www.theses.fr/2012ENST0071.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La notion d’"évènement" est une des clés majeures permettant de se remémorer des souvenirs. Avec le développement du Web 2.0, beaucoup de sites de partage d’information au sujet d’évènements font leur apparition sur internet, et une grande variété d’évènements sont programmés et décrits par plusieurs services et réseaux sociaux en ligne. L’étude des relations entre medias sociaux et évènements pourrait tirer parti des connaissances liées au domaine des évènements et des ontologies afin de formuler les problèmes soulevés ; l’exploitation des caractéristiques multimodales peut aussi permettre d’explorer les caractéristiques en profondeur. Dans cette thèse, nous étudions le problème de l’extraction de connaissances quant aux relations entre évènements et données des réseaux sociaux. Trois problèmes sont au centre de notre analyse. Le premier problème porte sur l’enrichissement visuel des évènements : notre recherche vise à comprendre comment utiliser les médias sociaux pour illustrer des évènements. Le deuxième problème, la découverte d’évènement. Nous proposons d’utiliser la détection de niveaux et des méthodes de détection de sujet pour découvrir des évènements grâce aux annotations spatiales et temporelles présentes dans les médias sociaux. Le troisième problème concerne la modélisation visuelle des évènements, dont la problématique est de rassembler de façon automatique des échantillons d’apprentissage, afin de mettre en œuvre une représentation visuelle des évènements. La solution proposée consiste à rassembler des exemples à la fois positifs et négatifs ; de même, elle est dérivée de l’analyse du contexte des médias sociaux
The exponential growth of social media data requires scalable, effective and robust technologies to manage and index them. Event is one of the most important cues to recall people’s past memory. With the development of Web 2.0, many event-based information sharing sites are appearing online, and a wide variety of events are scheduled and described by several social online services. The study of the relation between social media and events could leverage the event domain knowledge and ontologies to formulate the raised problems, and it could also exploit multimodal features to mine the patterns deeply, hence gain better performance compared with some other methods. In this thesis, we study the problem of mining relations between events and social media data. There are mainly three problems that are well investigated. The first problem is event enrichment, in which we investigate how to leverage the social media to events illustration. The second problem is event discovery, which focuses on discovering event patterns from social media stream. We propose burst detection and topic model based methods to find events from the spatial and temporal labeled social media. The third problem is visual event modeling, which studies the problem of automatically collecting training samples to model the visualization of events. The solution of collecting both of the positive and negative samples is also derived from the analysis of social media context. Thanks to the approaches proposed in this thesis, the intrinsic relationship between social media and events are deeply investigated, which provides a way to explore and organize online medias effectively
30

Berasaluce, Sandra. "Fouille de données et acquisition de connaissances à partir de bases de données de réactions chimiques." Nancy 1, 2002. http://docnum.univ-lorraine.fr/public/SCD_T_2002_0266_BERASALUCE.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les bases de données de réactions, outils indispensables pour les chimistes organiciens, ne sont pas exemptes de défauts. Dans cette thèse, nous avons entrepris d'ajouter des connaissances structurant les données pour dépasser les limites des bases et envisager de nouveaux modes d'interrogation de ces bases. In fine, l'objectif est de concevoir des systèmes possédant des fonctionnalités de BD et de SBC. Dans le processus d'acquisition de connaissances, nous avons mis l'accent sur la modélisation des objets chimiques. Ainsi, nous sommes intéressés aux méthodes de synthèse que nous avons décrites en terme d'objectifs de synthèse atteints. Nous nous sommes ensuite appuyés sur le modèle élaboré pour appliquer des techniques de fouille de données et faire émerger des connaissances. Nos expérimentations dans Resyn-Assistant sur les méthodes de construction de monocycles et les interchanges fonctionnels donnent des résultats en accord avec les connaissances du domaine
Chemical reaction database, indispensable tools for synthetic chemists, are not free from flaws. In this thesis, we have tried to overcome the databases limits by adding knowledge which structures data. This allows us to consider new efficient modes for query these databases. In the end, the goal is to design systems having both functionalities of DB and KBS. In the knowledge acquisition process, we emphasized on the modelling of chemical objects. Thus, we were interested in synthetic methods which we have described in terms of synthetic objectives. Afterward, we based ourselves on the elaborated model to apply data mining techniques and to extract knowledge from chemical reaction databases. The experiments we have done on Resyn Assistant concerned the synthetic methods which construct monocycles and the functional interchanges and gave trends in good agreement with the domain knowledge
31

Dumont, Jerome. "Fouille de dynamiques multivariées, application à des données temporelles en cardiologie." Phd thesis, Université Rennes 1, 2008. http://tel.archives-ouvertes.fr/tel-00364720.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Ce mémoire s'intéresse à l'analyse de dynamiques de séries temporelles observées en cardiologie. La solution proposée se décompose en deux étapes. La première consiste à extraire l'information utile en segmentant chaque battement cardiaque à l'aide d'une décomposition en ondelettes, adaptée de la littérature. Le problème difficile de l'optimisation des seuils et des fenêtres temporelles est résolu à l'aide d'algorithmes évolutionnaires. La deuxième étape s'appuie sur les modèles Semi-Markovien Cachés pour représenter les séries temporelles composées de l'ensemble des variables extraites. Un algorithme de classification non-supervisée est proposé pour retrouver les groupements naturels. Appliquée à la détection des épisodes ischémiques et à l'analyse d'ECG d'efforts de patients atteints du syndrome de Brugada (pour la distinction des patients symptomatiques et asymptomatiques), la solution proposée montre des performances supérieures aux approches plus traditionnelles.
32

Szathmary, Laszlo. "Méthodes symboliques de fouille de données avec la plate-forme Coron." Phd thesis, Université Henri Poincaré - Nancy I, 2006. http://tel.archives-ouvertes.fr/tel-00336374.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le sujet principal de cette thèse est l'extraction de connaissances dans les bases de données (ECBD). Plus précisément, nous avons étudié deux des plus importantes tâches d'ECBD actuelles, qui sont l'extraction de motifs et la génération de règles d'association. Tout au long de notre travail, notre objectif a été de trouver des règles d'associations intéressantes selon plusieurs points de vue : dans un but de fouille efficace, pour réduire au minimum l'ensemble des règles extraites et pour trouver des unités de connaissances intelligibles (et facilement interprétables). Pour atteindre ce but, nous avons développé et adapté des algorithmes spécifiques.
Les contributions principales de cette thèse sont : (1) nous avons développé et adapté des algorithmes pour trouver les règles d'association minimales non-redondantes ; (2) nous avons défini une nouvelle base pour les règles d'associations appelée “règles fermées” ; (3) nous avons étudié un champ de l'ECBD important mais relativement peu étudié, à savoir l'extraction des motifs rares et des règles d'association rares ; (4) nous avons regroupé nos algorithmes et une collection d'autres algorithmes ainsi que d'autres opérations auxiliaires d'ECBD dans une boîte à outils logicielle appelée Coron.
33

Stattner, Erick. "Contributions à l'étude des réseaux sociaux : propagation, fouille, collecte de données." Phd thesis, Université des Antilles-Guyane, 2012. http://tel.archives-ouvertes.fr/tel-00830882.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le concept de réseau offre un modèle de représentation pour une grande variété d'objets et de systèmes, aussi bien naturels que sociaux, dans lesquels un ensemble d'entités homogènes ou hétérogènes interagissent entre elles. Il est aujourd'hui employé couramment pour désigner divers types de structures relationnelles. Pourtant, si chacun a une idée plus ou moins précise de ce qu'est un réseau, nous ignorons encore souvent les implications qu'ont ces structures dans de nombreux phénomènes du monde qui nous entoure. C'est par exemple le cas de processus tels que la diffusion d'une rumeur, la transmission d'une maladie, ou même l'émergence de sujets d'intérêt commun à un groupe d'individus, dans lesquels les relations que maintiennent les individus entre eux et leur nature s'avèrent souvent être les principaux facteurs déterminants l'évolution du phénomène. C'est ainsi que l'étude des réseaux est devenue l'un des domaines émergents du 21e siècle appelé la "Science des réseaux". Dans ce mémoire, nous abordons trois problèmes de la science des réseaux: le problème de la diffusion dans les réseaux sociaux, où nous nous sommes intéressés plus particulièrement à l'impact de la dynamique du réseau sur le processus de diffusion, le problème de l'analyse des réseaux sociaux, dans lequel nous avons proposé une solution pour tirer parti de l'ensemble des informations disponibles en combinant les informations sur la structure du réseau et les attributs des noeuds et le problème central de la collecte de données sociales, où nous nous sommes intéressés au cas particulier de la collecte de données en milieux sauvages.
34

Da, Costa David. "Visualisation et fouille interactive de données à base de points d'intérêts." Tours, 2007. http://www.theses.fr/2007TOUR4021.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Dans ce travail de thèse, nous présentons le problème de la visualisation et la fouille de données. Nous remarquons généralement que les méthodes de visualisation sont propres aux types de données et qu'il est nécessaire de passer beaucoup de temps à analyser les résultats afin d'obtenir une réponse satisfaisante sur l'aspect de celle-ci. Nous avons donc développé une méthode de visualisation basée sur des points d'intérêts. Cet outil visualise tous types de données et est générique car il utilise seulement une mesure de similarité. Par ailleurs ces méthodes doivent pouvoir traiter des grands volumes de données. Nous avons aussi cherché à améliorer les performances de nos algorithmes de visualisation, c'est ainsi que nous sommes parvenus à représenter un million de données. Nous avons aussi étendu notre outil à la classification non supervisée de données. La plupart des méthodes actuelles de classificatoin non supervisée de données fonctionnent de manière automatique, l'utilisateur n'est que peu impliqué dans le processus. Nous souhaitons impliquer l'utilisateur de manière plus significative dans le processus de la classification pour améliorer sa compréhension des données
In this thesis, we present the problem of the visual data mining. We generally notice that it is specific to the types of data and that it is necessary to spend a long time to analyze the results in order to obtain an answer on the aspect of data. In this thesis, we have developed an interactive visualization environment for data exploration using points of interest. This tool visualizes all types of data and is generic because it uses only one similarity measure. These methods must be able to deal with large data sets. We also sought to improve the performances of our visualization algorithms, thus we managed to represent one million data. We also extended our tool to the data clustering. Most existing data clustering methods work in an automatic way, the user is not implied iin the process. We try to involve more significantly the user role in the data clustering process in order to improve his comprehensibility of the data results
35

Chaibi, Amine. "Contribution en apprentissage topologique non supervisé pour la fouille de données." Paris 13, 2013. http://scbd-sto.univ-paris13.fr/secure/edgalilee_th_2013_chaibi.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le travail de recherche exposé dans cette thèse concerne le développement d’approches à base des cartes auto-organisatrices pour les problèmes de détection de groupes-outliers et de nouveautés, de bi-partitionnement, ainsi que l’estimation des intervalles de confiance des prévisions de la société Anticipeo. Pour chaque problématique, un modèle d’apprentissage non supervisé adapté est proposé. La première contribution de cette thèse est dédiée à la détection de groupes-outliers en proposant une nouvelle mesure nommée GOF (GroupOutlier Factor), qui est estimée par l’apprentissage non supervisé. Nous l’avons intégré dans l’apprentissage des cartes topologiques. Notre approche est basée sur la densité relative de chaque groupe de données. Elle fournit simultanément un partitionnement des données et un indicateur quantitatif (GOF) sur “la particularité“ de chaque cluster ou groupe de données. Par la suite, la mesure GOF est utilisée comme classifieur pour la détection de nouveautés. En effet, nous développons une approche s’appuyant sur le GOF qui permet de détecter automatiquement les données nouvelles qui n’étaient pas connues au moment de l’apprentissage. La seconde contribution concerne le problème de bi-partitionnement (bi-clustering). L’approche que nous développons, qui se nomme BiTM (Bi-clustering using Topological Map), permet de représenter simultanément dans une carte topologique les observations et les variables d’une matrice de données. Contrairement à certaines approches de l’état de l’art, BiTM ne nécessite aucune pré-organisation de la matrice de données. Notre approche permet aussi de fournir de nouvelles visualisations. Enfin, la troisième contribution, qui est de caractère applicatif, aborde le problème d’estimation des intervalles de confiance dans les séries chronologiques. La société Anticipeo propose une solution informatique qui permet de réaliser des prévisions détaillées des ventes pour différents clients. En supplément de son offre standard, nous avons développé une offre complémentaire d’estimation d’intervalles de confiance (”marges d’erreur”) et de la classification des produits selon leurs caractéristiques statistiques. Les différentes évaluations réalisées dans cette thèse (mesures de performances et visualisations) ont obtenu des résultats intéressants
The research outlined in this thesis concern the development of approaches based on self-organizing maps for the groups-outliers and novelty detection, bi-clustering and confidence intervals estimation. For each problem, an unsupervised learning model is proposed. The first model that we propose in this thesis is dedicated to groups-outliers detection by proposing a new measure nammed GOF (Group Outlier Factor), which is estimated by the unsupervised learning. We integrated it to topological maps learning. Our approach is based on the density of each group of data, and simultaneously provides a data partitioning and a quantitative indicator (GOF) that indicat the "outlier-ness" of each cluster or group. Thereafter, the GOF measure is used as a classifier for novelty detection problem. In fact, we develop an approach based on GOF which automatically detects the new data that were not known during the learning process. The second model developed in this thesis is related to bi-clustering problemtitled BiTM (Bi-clustering using Topological Map). BiTM is based on self-organizing maps and provides a simultaneous clustering of rows and columns of the data matrix in order to increase the homogeneity of bi-clusters by respecting neighborhood relationship and using a single map. BiTM maps provide a new topological visualization of the bi-clusters. The third contribution is addressed to the confidence intervals estimation problem in time series. The Anticipeo company offers a solution that allows to perform detailed forecasts for different customers. In addition to its standard solution, we have developed a complementary tool for confidence intervals estimation and products classification according to their statistical characteristics. In this thesis, we have used different evaluation using performance measure and visualizations. The obtained results are encouraging and promising to continu in this direction
36

Fangseu, Badjio Edwige P. "Evaluation qualitative et guidage des utilisateurs en fouille visuelle de données." Lyon 2, 2005. http://theses.univ-lyon2.fr/documents/lyon2/2005/fangseubadjio_ep.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Nos travaux s'inscrivent dans le domaine de la fouille visuelle de données (plus précisément en classification) et se fondent sur l'extraction de connaissances dans les données, l'apprentissage automatique, la qualité des interfaces et des logiciels, l'ergonomie des logiciels, le génie logiciel et l'interaction homme machine. L'évaluation de la qualité des modèles obtenus est basée la plupart du temps sur une estimation du taux de mauvaise classification. Cette estimation du taux de mauvaise classification est nécessaire mais pas suffisante pour l'évaluation de la qualité des outils de fouille visuelle de données. En effet, les outils et techniques de ce type utilisent des interfaces, des représentations graphiques, des ensembles de données et nécessitent la participation des utilisateurs finaux. Partant d'un état de l'art sur la visualisation, la fouille visuelle et la qualité des logiciels, nous proposons une méthode d'inspection experte et une méthode de diagnostic pour une analyse et une évaluation qualitative fine qui tient compte des spécificités du domaine abordé. Nous avons développé des guides de style et des critères de qualité pour l'analyse et le diagnostic des outils de fouille visuelle. Du point de vue des utilisateurs, afin d'utiliser les informations relatives à leurs profils et à leurs préférences tout au long du processus de fouille, nous avons aussi proposé un modèle de l'utilisateur final des outils de fouille visuelle. Des études de cas menées avec la méthode de diagnostic proposée nous permettent de relever des problèmes autres que ceux résultant de l'estimation du taux de mauvaise classification. Ce travail présente aussi des solutions apportées à deux problèmes recensés durant l'analyse et le diagnostic des outils de fouille visuelle existants : le choix du meilleur algorithme pour une tâche de classification supervisée et le prétraitement de grands ensembles de données. Nous avons considéré le problème du choix du meilleur algorithme de classification comme un problème de décision multicritères. L'intelligence artificielle permet d'apporter des solutions à l'analyse multicritères. Nous utilisons les résultats issus de ce domaine à travers le paradigme multi-agents et le raisonnement à partir de cas pour proposer une liste d'algorithmes d'efficacité décroissante pour la résolution d'un problème donné et faire évoluer les connaissances de la base de cas. En ce qui concerne le traitement des ensembles de données de très grande taille, les limites de l'approche visuelle concernant le nombre d'individus et le nombre de dimensions sont connues de tous. Pour pouvoir traiter ces ensembles de données, une solution possible est d'effectuer un prétraitement de l'ensemble de données avant d'appliquer l'algorithme interactif de fouille. La réduction du nombre d'individus est effectuée par l'application d'un algorithme de clustering, la réduction du nombre de dimensions se fait par la combinaison des résultats d'algorithmes de sélection d'attributs en appliquant de la théorie du consensus (avec une affectation visuelle des poids). Nous évaluons les performances de nos nouvelles approches sur des ensembles de données de l'UCI et du Kent Ridge Bio Medical Dataset Repository
The research context of these works is the visual data mining domain and more precisely supervised data classification. Other related fields are: knowledge extraction in the data, machine learning, quality of interface, software ergonomic, software engineering and human machine interaction. The result provided by a visual data mining tool is a data model. Generally, in order to access the quality of visual data mining tools, there is an estimation of the rate of bad classification. We believe that, this estimation is necessary but not sufficient for the evaluation of visual data mining tools. In fact, this type of tools use interfaces, graphical representations, data sets and require the participation of the end-users. On the basis of a state of the art on visualization, visual data mining and software quality, we propose two analysis and evaluation methods: an inspection method for experts and a diagnosis method which can be used by end-users for analysis and quality evaluation that takes account of the specificities of the treated domain. We developed guidelines and quality criteria (measures and metrics) for the analysis and the diagnosis of the visual data mining tools. From the users' point of view, in order to use information relating to their profiles and their preferences throughout the mining process, we also proposed a user model of visual data mining tools. Case studies performed with the proposed diagnosis method enable us to raise other problems than those resulting from the estimation of the rate of bad classification. This work presents also solutions brought to two problems listed during the analysis and the diagnosis of some existing visual data mining tools: the choice of the best algorithm to perform for a supervised classification task and the pre-treatment of very large data sets. We considered the problem of the choice of the best classification algorithm as a multi criteria decision problem. Artificial intelligence allows bringing solutions to the multi criteria analysis. We use the results coming from this domain through the multi-agents paradigm and the case based reasoning to propose a list of algorithms of decreasing effectiveness for the resolution of a given problem and to evolve knowledge of the case base. For the treatment of very large data sets, the limits of visual approaches concerning the number of records and the number of attributes are known. To be able to treat these data sets, a solution is to perform a pre-treatment of the data set before applying the interactive algorithm. The reduction of the number of records is performed by the application of a clustering algorithm, the reduction of the number of attributes is done by the combination of the results of feature selection algorithms by applying the consensus theory (with a visual weight assignment tool). We evaluate the performances of our new approaches on data sets of the UCI and the Kent Ridge Bio Medical Dataset Repository
37

Fu, Huaiguo. "Algorithmique des treillis de concepts : application à la fouille de données." Artois, 2005. http://www.theses.fr/2005ARTO0401.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Dans cette thèse, nous nous intéressons à la structure du treillis de concepts et à ses applications à la fouille de données. Nous avons entrepris dans cette thèse un travail de comparaison de plusieurs algorithmes de génération des concepts formels sur les données d'UCI. Au cours de cette étude, nous avons analysé le phénomène de la dualité objets/attributs sur les performances des algorithmes. Nous proposons un nouvel algorithme de génération de concepts formels, nommé ScalingNextClosure. ScalingNextClosure décompose l'espace de recherche en partitions, et génère de manière indépendante les concepts pour chaque partition. Cette technique de décomposition et d'indépendance des partitions lui permet de gérer efficacement la mémoire centrale et les entrées/sorties pour être capable de traiter efficacement des contextes de données volumineux. Une comparaison expérimentale montre l'efficacité de cet algorithme par rapport à NextClosure. L'indépendance des partitions est un atout pour la mise en oeuvre de ScalingNextClosure dans un environnement parallèle et distribué. En fouille de données, la problématique d'extraction des itemsets fermés fréquents pour la recherche de règles d'association, se prête bien à une mise en oeuvre de ScalingNextClosure. Nous avons donc étendu ScalingNextClosure pour traiter ce problème. Le nouvel algorithme, nommé PFC, utilise la mesure du support pour élaguer l'espace de recherche dans une partition. Une comparaison expérimentale avec une des méthodes les plus efficaces actuellement, a été réalisée sur une architecture séquentielle, et donne des résultats encourageants
Our main concern in this thesis is concept (or galois) lattices and its application to data mining. We achieve a comparison of different concept lattices algorithms on benchmarks taken from UCI. During this comparison, we analyse the duality phenomenon between objects and attributes on each algorithm performance. This analysis allows to show that the running time of an algorithm may considerably vary when using the formal context or the transposed context. Using the Divide-and-Conquer paradigm, we design a new concept lattice algorithm, ScalingNextClosure, which decomposes the search space in many partitions and builds formal concepts for each partition independently. By reducing the search space, ScalingNextClosure can deal efficiently with few memory space and thus treat huge formal context, but only if the whole context can be loaded in the memory. An experimental comparison between NextClosure and ScalingNextClosure shows the efficiency of such decomposition approach. In any huge dataset, ScalingNextClosure runs faster than NextClosure on a sequential machine, with an average win factor equal to 10. Another advantage of ScalingNextClosure is that it can be easily implemented on a distributed or parallel architecture. Mining frequent closed itemsets (FCI) is a subproblem of mining association rules. We adapt ScalingNextClosure to mine frequent closed itemsets, and design a new algorithm, called PFC. PFC uses the support measure to prune the search space within one partition. An experimental comparison conducted on a sequential architecture, between PFC with one of the efficient FCI system, is discussed
38

Dumont, Jérôme. "Fouille de dynamiques multivariées : application à des données temporelles en cardiologie." Rennes 1, 2008. http://www.theses.fr/2008REN1S078.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Ce mémoire s'intéresse à l'analyse de dynamiques de séries temporelles observées en cardiologie. La solution proposée se décompose en deux étapes. La première consiste à extraire l'information utile en segmentant chaque battement cardiaque à l'aide d'une décomposition en ondelettes, adaptée de la littérature. Le problème difficile de l'optimisation des seuils et des fenêtres temporelles est résolu à l'aide d'algorithmes évolutionnaires. La deuxième étape s'appuie sur les modèles Semi-Markovien Cachés pour représenter les séries temporelles composées de l'ensemble des variables extraites. Un algorithme de classification non-supervisée est proposé pour retrouver les groupements naturels. Appliquée à la détection des épisodes ischémiques et à l'analyse d'ECG d'efforts de patients atteints du syndrome de Brugada (pour la distinction des patients symptomatiques et asymptomatiques), la solution proposée montre des performances supérieures aux approches plus traditionnelles
This manuscript focuses on the problem of analysing dynamics of time series observed in cardiology. The proposed solution is divided into two steps. The first one consists in the extraction of useful information from the ECG by segmenting each beat with a wavelet decomposition algorithmn, adapted from the litterature. The difficult problem of optimising both thresholds and time windows is solved with evolutionary algorithms. The second step relies on Hidden Semi-Markovian models to represent the time series made up of the extracted variables. An algorithm of unsupervised classification is proposed to retrieve the natural groups. The application of this method to the detection of ischemic episodes and to the analysis of stress ECG from patients suffering from Brugada syndrome presents a higher performance than more tradionnal approaches
39

Kharrat, Ahmed. "Fouille de données spatio-temporelles appliquée aux trajectoires dans un réseau." Versailles-St Quentin en Yvelines, 2013. http://www.theses.fr/2013VERS0042.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Ces dernières années ont vu le développement des techniques de fouille de données dans de nombreux domaines d’applications dans le but d’analyser des données volumineuses et complexes. Parallèlement, le déploiement croissant de systèmes de localisation, tels que le GPS, amène à produire des masses de données relatives aux traces de géolocalisation. C’est dans ce contexte que se situent nos travaux. Nous sommes partis du constat que le grand volume des données de géolocalisation rend leur exploitation et leur analyse fastidieuse pour les utilisateurs et les analystes. Nous nous sommes intéressés à la fouille de trajectoires d’objets mobiles et plus particulièrement ceux évoluant dans un réseau, comme les véhicules dans un réseau routier. Cette thèse a abouti aux contributions suivantes : une méthode originale de clustering de trajectoires dans un contexte contraint par le réseau, une méthode de caractérisation de l'évolution de la densité sur le réseau routier, la définition et la découverte de patrons de trajectoires et une méthode de généralisation de trajectoires basée sur ces patrons
Recent years have seen the development of data mining techniques for many application areas in order to analyze large and complex data. At the same time, the increasing deployment of location-acquisition technologies such as GPS, leads to produce a large datasets of geolocation traces. In this thesis, we are interested in mining trajectories of moving objects, such as vehicles in the road network. We propose a method for discovering dense routes by clustering similar road sections according to both traffic and location in each time period. The traffic estimation is based on the collected spatio-temporal trajectories. We also propose a characterization approach of the temporal evolution of dense routes by a graph connecting dense routes over consecutive time periods. This graph is labelled by a degree of evolution. Our last proposal concerns the discovery of mobility patterns and using these patterns to define a new representation of generalised trajectories
40

Belghiti, Moulay Tayeb. "Modélisation et techniques d'optimisation en bio-informatique et fouille de données." Thesis, Rouen, INSA, 2008. http://www.theses.fr/2008ISAM0002.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse est particulièrement destinée à traiter deux types de problèmes : clustering et l'alignement multiple de séquence. Notre objectif est de résoudre de manière satisfaisante ces problèmes globaux et de tester l'approche de la Programmation DC et DCA sur des jeux de données réelles. La thèse comporte trois parties : la première partie est consacrée aux nouvelles approches de l'optimisation non convexe. Nous y présentons une étude en profondeur de l'algorithme qui est utilisé dans cette thèse, à savoir la programmation DC et l'algorithme DC (DCA). Dans la deuxième partie, nous allons modéliser le problème clustering en trois sous-problèmes non convexes. Les deux premiers sous-problèmes se distinguent par rapport au choix de la norme utilisée, (clustering via les normes 1 et 2). Le troisième sous-problème utilise la méthode du noyau, (clustering via la méthode du noyau). La troisième partie sera consacrée à la bio-informatique. On va se focaliser sur la modélisation et la résolution de deux sous-problèmes : l'alignement multiple de séquence et l'alignement de séquence d'ARN par structure. Tous les chapitres excepté le premier se terminent par des tests numériques
This Ph.D. thesis is particularly intended to treat two types of problems : clustering and the multiple alignment of sequence. Our objective is to solve efficiently these global problems and to test DC Programming approach and DCA on real datasets. The thesis is divided into three parts : the first part is devoted to the new approaches of nonconvex optimization-global optimization. We present it a study in depth of the algorithm which is used in this thesis, namely the programming DC and the algorithm DC ( DCA). In the second part, we will model the problem clustering in three nonconvex subproblems. The first two subproblems are distinguished compared to the choice from the norm used, (clustering via norm 1 and 2). The third subproblem uses the method of the kernel, (clustering via the method of the kernel). The third part will be devoted to bioinformatics, one goes this focused on the modeling and the resolution of two subproblems : the multiple alignment of sequence and the alignment of sequence of RNA. All the chapters except the first end in numerical tests
41

Oudni, Amal. "Fouille de données par extraction de motifs graduels : contextualisation et enrichissement." Thesis, Paris 6, 2014. http://www.theses.fr/2014PA066437/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les travaux de cette thèse s'inscrivent dans le cadre de l'extraction de connaissances et de la fouille de données appliquée à des bases de données numériques ou floues afin d'extraire des résumés linguistiques sous la forme de motifs graduels exprimant des corrélations de co-variations des valeurs des attributs, de la forme « plus la température augmente, plus la pression augmente ». Notre objectif est de les contextualiser et de les enrichir en proposant différents types de compléments d'information afin d'augmenter leur qualité et leur apporter une meilleure interprétation. Nous proposons quatre formes de nouveaux motifs : nous avons tout d'abord étudié les motifs dits « renforcés », qui effectuent, dans le cas de données floues, une contextualisation par intégration d'attributs complémentaires, ajoutant des clauses introduites linguistiquement par l'expression « d'autant plus que ». Ils peuvent être illustrés par l'exemple « plus la température diminue, plus le volume de l'air diminue, d'autant plus que sa densité augmente ». Ce renforcement est interprété comme validité accrue des motifs graduels. Nous nous sommes également intéressées à la transposition de la notion de renforcement aux règles d'association classiques en discutant de leurs interprétations possibles et nous montrons leur apport limité. Nous proposons ensuite de traiter le problème des motifs graduels contradictoires rencontré par exemple lors de l'extraction simultanée des deux motifs « plus la température augmente, plus l'humidité augmente » et « plus la température augmente, plus l'humidité diminue ». Pour gérer ces contradictions, nous proposons une définition contrainte du support d'un motif graduel, qui, en particulier, ne dépend pas uniquement du motif considéré, mais aussi de ses contradicteurs potentiels. Nous proposons également deux méthodes d'extraction, respectivement basées sur un filtrage a posteriori et sur l'intégration de la contrainte du nouveau support dans le processus de génération. Nous introduisons également les motifs graduels caractérisés, définis par l'ajout d'une clause linguistiquement introduite par l'expression « surtout si » comme par exemple « plus la température diminue, plus l'humidité diminue, surtout si la température varie dans [0, 10] °C » : la clause additionnelle précise des plages de valeurs sur lesquelles la validité des motifs est accrue. Nous formalisons la qualité de cet enrichissement comme un compromis entre deux contraintes imposées à l'intervalle identifié, portant sur sa taille et sa validité, ainsi qu'une extension tenant compte de la densité des données.Nous proposons une méthode d'extraction automatique basée sur des outils de morphologie mathématique et la définition d'un filtre approprié et transcription
This thesis's works belongs to the framework of knowledge extraction and data mining applied to numerical or fuzzy data in order to extract linguistic summaries in the form of gradual itemsets: the latter express correlation between attribute values of the form « the more the temperature increases, the more the pressure increases ». Our goal is to contextualize and enrich these gradual itemsets by proposing different types of additional information so as to increase their quality and provide a better interpretation. We propose four types of new itemsets: first of all, reinforced gradual itemsets, in the case of fuzzy data, perform a contextualization by integrating additional attributes linguistically introduced by the expression « all the more ». They can be illustrated by the example « the more the temperature decreases, the more the volume of air decreases, all the more its density increases ». Reinforcement is interpreted as increased validity of the gradual itemset. In addition, we study the extension of the concept of reinforcement to association rules, discussing their possible interpretations and showing their limited contribution. We then propose to process the contradictory itemsets that arise for example in the case of simultaneous extraction of « the more the temperature increases, the more the humidity increases » and « the more the temperature increases, the less the humidity decreases ». To manage these contradictions, we define a constrained variant of the gradual itemset support, which, in particular, does not only depend on the considered itemset, but also on its potential contradictors. We also propose two extraction methods: the first one consists in filtering, after all itemsets have been generated, and the second one integrates the filtering process within the generation step. We introduce characterized gradual itemsets, defined by adding a clause linguistically introduced by the expression « especially if » that can be illustrated by a sentence such as « the more the temperature decreases, the more the humidity decreases, especially if the temperature varies in [0, 10] °C »: the additional clause precise value ranges on which the validity of the itemset is increased. We formalize the quality of this enrichment as a trade-off between two constraints imposed to identified interval, namely a high validity and a high size, as well as an extension taking into account the data density. We propose a method to automatically extract characterized gradual based on appropriate mathematical morphology tools and the definition of an appropriate filter and transcription
42

Oudni, Amal. "Fouille de données par extraction de motifs graduels : contextualisation et enrichissement." Electronic Thesis or Diss., Paris 6, 2014. https://accesdistant.sorbonne-universite.fr/login?url=https://theses-intra.sorbonne-universite.fr/2014PA066437.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les travaux de cette thèse s'inscrivent dans le cadre de l'extraction de connaissances et de la fouille de données appliquée à des bases de données numériques ou floues afin d'extraire des résumés linguistiques sous la forme de motifs graduels exprimant des corrélations de co-variations des valeurs des attributs, de la forme « plus la température augmente, plus la pression augmente ». Notre objectif est de les contextualiser et de les enrichir en proposant différents types de compléments d'information afin d'augmenter leur qualité et leur apporter une meilleure interprétation. Nous proposons quatre formes de nouveaux motifs : nous avons tout d'abord étudié les motifs dits « renforcés », qui effectuent, dans le cas de données floues, une contextualisation par intégration d'attributs complémentaires, ajoutant des clauses introduites linguistiquement par l'expression « d'autant plus que ». Ils peuvent être illustrés par l'exemple « plus la température diminue, plus le volume de l'air diminue, d'autant plus que sa densité augmente ». Ce renforcement est interprété comme validité accrue des motifs graduels. Nous nous sommes également intéressées à la transposition de la notion de renforcement aux règles d'association classiques en discutant de leurs interprétations possibles et nous montrons leur apport limité. Nous proposons ensuite de traiter le problème des motifs graduels contradictoires rencontré par exemple lors de l'extraction simultanée des deux motifs « plus la température augmente, plus l'humidité augmente » et « plus la température augmente, plus l'humidité diminue ». Pour gérer ces contradictions, nous proposons une définition contrainte du support d'un motif graduel, qui, en particulier, ne dépend pas uniquement du motif considéré, mais aussi de ses contradicteurs potentiels. Nous proposons également deux méthodes d'extraction, respectivement basées sur un filtrage a posteriori et sur l'intégration de la contrainte du nouveau support dans le processus de génération. Nous introduisons également les motifs graduels caractérisés, définis par l'ajout d'une clause linguistiquement introduite par l'expression « surtout si » comme par exemple « plus la température diminue, plus l'humidité diminue, surtout si la température varie dans [0, 10] °C » : la clause additionnelle précise des plages de valeurs sur lesquelles la validité des motifs est accrue. Nous formalisons la qualité de cet enrichissement comme un compromis entre deux contraintes imposées à l'intervalle identifié, portant sur sa taille et sa validité, ainsi qu'une extension tenant compte de la densité des données.Nous proposons une méthode d'extraction automatique basée sur des outils de morphologie mathématique et la définition d'un filtre approprié et transcription
This thesis's works belongs to the framework of knowledge extraction and data mining applied to numerical or fuzzy data in order to extract linguistic summaries in the form of gradual itemsets: the latter express correlation between attribute values of the form « the more the temperature increases, the more the pressure increases ». Our goal is to contextualize and enrich these gradual itemsets by proposing different types of additional information so as to increase their quality and provide a better interpretation. We propose four types of new itemsets: first of all, reinforced gradual itemsets, in the case of fuzzy data, perform a contextualization by integrating additional attributes linguistically introduced by the expression « all the more ». They can be illustrated by the example « the more the temperature decreases, the more the volume of air decreases, all the more its density increases ». Reinforcement is interpreted as increased validity of the gradual itemset. In addition, we study the extension of the concept of reinforcement to association rules, discussing their possible interpretations and showing their limited contribution. We then propose to process the contradictory itemsets that arise for example in the case of simultaneous extraction of « the more the temperature increases, the more the humidity increases » and « the more the temperature increases, the less the humidity decreases ». To manage these contradictions, we define a constrained variant of the gradual itemset support, which, in particular, does not only depend on the considered itemset, but also on its potential contradictors. We also propose two extraction methods: the first one consists in filtering, after all itemsets have been generated, and the second one integrates the filtering process within the generation step. We introduce characterized gradual itemsets, defined by adding a clause linguistically introduced by the expression « especially if » that can be illustrated by a sentence such as « the more the temperature decreases, the more the humidity decreases, especially if the temperature varies in [0, 10] °C »: the additional clause precise value ranges on which the validity of the itemset is increased. We formalize the quality of this enrichment as a trade-off between two constraints imposed to identified interval, namely a high validity and a high size, as well as an extension taking into account the data density. We propose a method to automatically extract characterized gradual based on appropriate mathematical morphology tools and the definition of an appropriate filter and transcription
43

Da, Silva Sébastien. "Fouille de données spatiales et modélisation de linéaires de paysages agricoles." Thesis, Université de Lorraine, 2014. http://www.theses.fr/2014LORR0156/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse s'inscrit dans un partenariat entre l'INRA et l'INRIA et dans le champs de l'extraction de connaissances à partir de bases de données spatiales. La problématique porte sur la caractérisation et la simulation de paysages agricoles. Plus précisément, nous nous concentrons sur des lignes qui structurent le paysage agricole, telles que les routes, les fossés d'irrigation et les haies. Notre objectif est de modéliser les haies en raison de leur rôle dans de nombreux processus écologiques et environnementaux. Nous étudions les moyens de caractériser les structures de haies sur deux paysages agricoles contrastés, l'un situé dans le sud-Est de la France (majoritairement composé de vergers) et le second en Bretagne (Ouest de la France, de type bocage). Nous déterminons également si, et dans quelles circonstances, la répartition spatiale des haies est structurée par la position des éléments linéaires plus pérennes du paysage tels que les routes et les fossés et l'échelle de ces structures. La démarche d'extraction de connaissances à partir de base de données (ECBD) mise en place comporte différentes étapes de prétraitement et de fouille de données, alliant des méthodes mathématiques et informatiques. La première partie du travail de thèse se concentre sur la création d'un indice spatial statistique, fondé sur une notion géométrique de voisinage et permettant la caractérisation des structures de haies. Celui-Ci a permis de décrire les structures de haies dans le paysage et les résultats montrent qu'elles dépendent des éléments plus pérennes à courte distance et que le voisinage des haies est uniforme au-Delà de 150 mètres. En outre différentes structures de voisinage ont été mises en évidence selon les principales orientations de haies dans le sud-Est de la France, mais pas en Bretagne. La seconde partie du travail de thèse a exploré l'intérêt du couplage de méthodes de linéarisation avec des méthodes de Markov. Les méthodes de linéarisation ont été introduites avec l'utilisation d'une variante des courbes de Hilbert : les chemins de Hilbert adaptatifs. Les données spatiales linéaires ainsi construites ont ensuite été traitées avec les méthodes de Markov. Ces dernières ont l'avantage de pouvoir servir à la fois pour l'apprentissage sur les données réelles et pour la génération de données, dans le cadre, par exemple, de la simulation d'un paysage. Les résultats montrent que ces méthodes couplées permettant un apprentissage et une génération automatique qui capte des caractéristiques des différents paysages. Les premières simulations sont encourageantes malgré le besoin d'un post-Traitement. Finalement, ce travail de thèse a permis la création d'une méthode d'exploration de données spatiales basée sur différents outils et prenant en charge toutes les étapes de l'ECBD classique, depuis la sélection des données jusqu'à la visualisation des résultats. De plus, la construction de cette méthode est telle qu'elle peut servir à son tour à la génération de données, volet nécessaire pour la simulation de paysage
This thesis is part of a partnership between INRA and INRIA in the field of knowledge extraction from spatial databases. The study focuses on the characterization and simulation of agricultural landscapes. More specifically, we focus on linears that structure the agricultural landscape, such as roads, irrigation ditches and hedgerows. Our goal is to model the spatial distribution of hedgerows because of their role in many ecological and environmental processes. We more specifically study how to characterize the spatial structure of hedgerows in two contrasting agricultural landscapes, one located in south-Eastern France (mainly composed of orchards) and the second in Brittany (western France, \emph{bocage}-Type). We determine if the spatial distribution of hedgerows is structured by the position of the more perennial linear landscape features, such as roads and ditches, or not. In such a case, we also detect the circumstances under which this spatial distribution is structured and the scale of these structures. The implementation of the process of Knowledge Discovery in Databases (KDD) is comprised of different preprocessing steps and data mining algorithms which combine mathematical and computational methods. The first part of the thesis focuses on the creation of a statistical spatial index, based on a geometric neighborhood concept and allowing the characterization of structures of hedgerows. Spatial index allows to describe the structures of hedgerows in the landscape. The results show that hedgerows depend on more permanent linear elements at short distances, and that their neighborhood is uniform beyond 150 meters. In addition different neighborhood structures have been identified depending on the orientation of hedgerows in the South-East of France but not in Brittany. The second part of the thesis explores the potential of coupling linearization methods with Markov methods. The linearization methods are based on the use of alternative Hilbert curves: Hilbert adaptive paths. The linearized spatial data thus constructed were then treated with Markov methods. These methods have the advantage of being able to serve both for the machine learning and for the generation of new data, for example in the context of the simulation of a landscape. The results show that the combination of these methods for learning and automatic generation of hedgerows captures some characteristics of the different study landscapes. The first simulations are encouraging despite the need for post-Processing. Finally, this work has enabled the creation of a spatial data mining method based on different tools that support all stages of a classic KDD, from the selection of data to the visualization of results. Furthermore, this method was constructed in such a way that it can also be used for data generation, a component necessary for the simulation of landscapes
44

Juniarta, Nyoman. "Fouille de données complexes et biclustering avec l'analyse formelle de concepts." Electronic Thesis or Diss., Université de Lorraine, 2019. http://www.theses.fr/2019LORR0199.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'extraction de connaissances dans les bases de données (ECBD) est un processus qui s'applique à de (potentiellement larges) volumes de données pour découvrir des motifs qui peuvent être signifiants et utiles. Dans cette thèse, on s'intéresse à deux étapes du processus d'ECBD, la transformation et la fouille, que nous appliquons à des données complexes. Nous présentons de nombreuses expérimentations s'appuyant sur des approches et des types de données variés. La première partie de cette thèse s'intéresse à la tâche de biclustering en s'appuyant sur l'analyse formelle de concepts (FCA) et aux pattern structures. FCA est naturellement liée au biclustering, dont l'objectif consiste à grouper simultanément un ensemble de lignes et de colonnes qui vérifient certaines régularités. Les pattern structures sont une généralisation de la FCA qui permet de travailler avec des données plus complexes. Les "partition pattern structures'' ont été proposées pour du biclustering à colonnes constantes tandis que les "interval pattern structures'' ont été étudiées pour du biclustering à colonnes similaires. Nous proposons ici d'étendre ces approches afin d'énumérer d'autres types de biclusters : additif, multiplicatif, préservant l'ordre, et changement de signes cohérents. Dans la seconde partie, nous nous intéressons à deux expériences de fouille de données complexes. Premièrement, nous présentons une contribution dans laquelle nous analysons les trajectoires des visiteurs d'un musée dans le cadre du projet CrossCult. Nous utilisons du clustering de séquences et de la fouille de motifs séquentiels basée sur l'analyse formelle de concepts pour découvrir des motifs dans les données et classifier les trajectoires. Cette analyse peut ensuite être exploitée par un système de recommandation pour les futurs visiteurs. Deuxièmement, nous présentons un travail sur la découverte de médicaments antibactériens. Les jeux de données pour cette tâche, généralement des matrices numériques, décrivent des molécules par un certain nombre de variables/attributs. Le grand nombre de variables complexifie la classification des molécules par les classifieurs. Ici, nous étudions une approche de sélection de variables basée sur l'analyse log-linéaire qui découvre des associations entre variables
Knowledge discovery in database (KDD) is a process which is applied to possibly large volumes of data for discovering patterns which can be significant and useful. In this thesis, we are interested in data transformation and data mining in knowledge discovery applied to complex data, and we present several experiments related to different approaches and different data types. The first part of this thesis focuses on the task of biclustering using formal concept analysis (FCA) and pattern structures. FCA is naturally related to biclustering, where the objective is to simultaneously group rows and columns which verify some regularities. Related to FCA, pattern structures are its generalizations which work on more complex data. Partition pattern structures were proposed to discover constant-column biclustering, while interval pattern structures were studied in similar-column biclustering. Here we extend these approaches to enumerate other types of biclusters: additive, multiplicative, order-preserving, and coherent-sign-changes. The second part of this thesis focuses on two experiments in mining complex data. First, we present a contribution related to the CrossCult project, where we analyze a dataset of visitor trajectories in a museum. We apply sequence clustering and FCA-based sequential pattern mining to discover patterns in the dataset and to classify these trajectories. This analysis can be used within CrossCult project to build recommendation systems for future visitors. Second, we present our work related to the task of antibacterial drug discovery. The dataset for this task is generally a numerical matrix with molecules as rows and features/attributes as columns. The huge number of features makes it more complex for any classifier to perform molecule classification. Here we study a feature selection approach based on log-linear analysis which discovers associations among features. As a synthesis, this thesis presents a series of different experiments in the mining of complex real-world data
45

Da, Silva Sébastien. "Fouille de données spatiales et modélisation de linéaires de paysages agricoles." Electronic Thesis or Diss., Université de Lorraine, 2014. http://docnum.univ-lorraine.fr/prive/DDOC_T_2014_0156_DA_SILVA.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse s'inscrit dans un partenariat entre l'INRA et l'INRIA et dans le champs de l'extraction de connaissances à partir de bases de données spatiales. La problématique porte sur la caractérisation et la simulation de paysages agricoles. Plus précisément, nous nous concentrons sur des lignes qui structurent le paysage agricole, telles que les routes, les fossés d'irrigation et les haies. Notre objectif est de modéliser les haies en raison de leur rôle dans de nombreux processus écologiques et environnementaux. Nous étudions les moyens de caractériser les structures de haies sur deux paysages agricoles contrastés, l'un situé dans le sud-Est de la France (majoritairement composé de vergers) et le second en Bretagne (Ouest de la France, de type bocage). Nous déterminons également si, et dans quelles circonstances, la répartition spatiale des haies est structurée par la position des éléments linéaires plus pérennes du paysage tels que les routes et les fossés et l'échelle de ces structures. La démarche d'extraction de connaissances à partir de base de données (ECBD) mise en place comporte différentes étapes de prétraitement et de fouille de données, alliant des méthodes mathématiques et informatiques. La première partie du travail de thèse se concentre sur la création d'un indice spatial statistique, fondé sur une notion géométrique de voisinage et permettant la caractérisation des structures de haies. Celui-Ci a permis de décrire les structures de haies dans le paysage et les résultats montrent qu'elles dépendent des éléments plus pérennes à courte distance et que le voisinage des haies est uniforme au-Delà de 150 mètres. En outre différentes structures de voisinage ont été mises en évidence selon les principales orientations de haies dans le sud-Est de la France, mais pas en Bretagne. La seconde partie du travail de thèse a exploré l'intérêt du couplage de méthodes de linéarisation avec des méthodes de Markov. Les méthodes de linéarisation ont été introduites avec l'utilisation d'une variante des courbes de Hilbert : les chemins de Hilbert adaptatifs. Les données spatiales linéaires ainsi construites ont ensuite été traitées avec les méthodes de Markov. Ces dernières ont l'avantage de pouvoir servir à la fois pour l'apprentissage sur les données réelles et pour la génération de données, dans le cadre, par exemple, de la simulation d'un paysage. Les résultats montrent que ces méthodes couplées permettant un apprentissage et une génération automatique qui capte des caractéristiques des différents paysages. Les premières simulations sont encourageantes malgré le besoin d'un post-Traitement. Finalement, ce travail de thèse a permis la création d'une méthode d'exploration de données spatiales basée sur différents outils et prenant en charge toutes les étapes de l'ECBD classique, depuis la sélection des données jusqu'à la visualisation des résultats. De plus, la construction de cette méthode est telle qu'elle peut servir à son tour à la génération de données, volet nécessaire pour la simulation de paysage
This thesis is part of a partnership between INRA and INRIA in the field of knowledge extraction from spatial databases. The study focuses on the characterization and simulation of agricultural landscapes. More specifically, we focus on linears that structure the agricultural landscape, such as roads, irrigation ditches and hedgerows. Our goal is to model the spatial distribution of hedgerows because of their role in many ecological and environmental processes. We more specifically study how to characterize the spatial structure of hedgerows in two contrasting agricultural landscapes, one located in south-Eastern France (mainly composed of orchards) and the second in Brittany (western France, \emph{bocage}-Type). We determine if the spatial distribution of hedgerows is structured by the position of the more perennial linear landscape features, such as roads and ditches, or not. In such a case, we also detect the circumstances under which this spatial distribution is structured and the scale of these structures. The implementation of the process of Knowledge Discovery in Databases (KDD) is comprised of different preprocessing steps and data mining algorithms which combine mathematical and computational methods. The first part of the thesis focuses on the creation of a statistical spatial index, based on a geometric neighborhood concept and allowing the characterization of structures of hedgerows. Spatial index allows to describe the structures of hedgerows in the landscape. The results show that hedgerows depend on more permanent linear elements at short distances, and that their neighborhood is uniform beyond 150 meters. In addition different neighborhood structures have been identified depending on the orientation of hedgerows in the South-East of France but not in Brittany. The second part of the thesis explores the potential of coupling linearization methods with Markov methods. The linearization methods are based on the use of alternative Hilbert curves: Hilbert adaptive paths. The linearized spatial data thus constructed were then treated with Markov methods. These methods have the advantage of being able to serve both for the machine learning and for the generation of new data, for example in the context of the simulation of a landscape. The results show that the combination of these methods for learning and automatic generation of hedgerows captures some characteristics of the different study landscapes. The first simulations are encouraging despite the need for post-Processing. Finally, this work has enabled the creation of a spatial data mining method based on different tools that support all stages of a classic KDD, from the selection of data to the visualization of results. Furthermore, this method was constructed in such a way that it can also be used for data generation, a component necessary for the simulation of landscapes
46

Ventura, Quentin. "Technique de visualisation hybride pour les données spatio-temporelles." Mémoire, École de technologie supérieure, 2014. http://espace.etsmtl.ca/1298/1/VENTURA_Quentin.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La technique de visualisation décrite dans ce mémoire permet de visualiser les mouvements de plusieurs personnes ou objets au sein d’un bâtiment sous forme de graphe noeuds-liens, où les noeuds représentent les salles, et où les liens représentent les portes. La représentation choisie pour les trajectoires, qui peut être vue comme une métaphore de la circulation routière, permet de visualiser la direction des trajectoires et l’ordre dans lequel les pièces ont été visitées. Une visualisation hybride est aussi proposée, mixant la technique de visualisation topologique (décrite ci-dessus) à la technique de visualisation géospatiale, et ayant des caractéristiques « focus-in-context » et « multi-focales ». Une expérience contrôlée a été effectuée pour mesurer l’efficacité de ces techniques, et les résultats ont montré que la technique topologique est significativement plus rapide que la technique géospatiale pour trois des quatre tâches choisies.
47

Liu, Xueliang. "Fouille d'informations multimédia partagées orienté événements." Thesis, Paris, ENST, 2012. http://www.theses.fr/2012ENST0071/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La notion d’"évènement" est une des clés majeures permettant de se remémorer des souvenirs. Avec le développement du Web 2.0, beaucoup de sites de partage d’information au sujet d’évènements font leur apparition sur internet, et une grande variété d’évènements sont programmés et décrits par plusieurs services et réseaux sociaux en ligne. L’étude des relations entre medias sociaux et évènements pourrait tirer parti des connaissances liées au domaine des évènements et des ontologies afin de formuler les problèmes soulevés ; l’exploitation des caractéristiques multimodales peut aussi permettre d’explorer les caractéristiques en profondeur. Dans cette thèse, nous étudions le problème de l’extraction de connaissances quant aux relations entre évènements et données des réseaux sociaux. Trois problèmes sont au centre de notre analyse. Le premier problème porte sur l’enrichissement visuel des évènements : notre recherche vise à comprendre comment utiliser les médias sociaux pour illustrer des évènements. Le deuxième problème, la découverte d’évènement. Nous proposons d’utiliser la détection de niveaux et des méthodes de détection de sujet pour découvrir des évènements grâce aux annotations spatiales et temporelles présentes dans les médias sociaux. Le troisième problème concerne la modélisation visuelle des évènements, dont la problématique est de rassembler de façon automatique des échantillons d’apprentissage, afin de mettre en œuvre une représentation visuelle des évènements. La solution proposée consiste à rassembler des exemples à la fois positifs et négatifs ; de même, elle est dérivée de l’analyse du contexte des médias sociaux
The exponential growth of social media data requires scalable, effective and robust technologies to manage and index them. Event is one of the most important cues to recall people’s past memory. With the development of Web 2.0, many event-based information sharing sites are appearing online, and a wide variety of events are scheduled and described by several social online services. The study of the relation between social media and events could leverage the event domain knowledge and ontologies to formulate the raised problems, and it could also exploit multimodal features to mine the patterns deeply, hence gain better performance compared with some other methods. In this thesis, we study the problem of mining relations between events and social media data. There are mainly three problems that are well investigated. The first problem is event enrichment, in which we investigate how to leverage the social media to events illustration. The second problem is event discovery, which focuses on discovering event patterns from social media stream. We propose burst detection and topic model based methods to find events from the spatial and temporal labeled social media. The third problem is visual event modeling, which studies the problem of automatically collecting training samples to model the visualization of events. The solution of collecting both of the positive and negative samples is also derived from the analysis of social media context. Thanks to the approaches proposed in this thesis, the intrinsic relationship between social media and events are deeply investigated, which provides a way to explore and organize online medias effectively
48

Laurent, Anne. "Fouille de données complexes et logique floue : extraction de motifs à partir de bases de données multidimensionnelles." Habilitation à diriger des recherches, Université Montpellier II - Sciences et Techniques du Languedoc, 2009. http://tel.archives-ouvertes.fr/tel-00413140.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Ce mémoire décrit mes activités de recherche et d'animation de recherche depuis ma thèse, soutenue en 2002. Les travaux décrits ici ont été principalement menés au LIRMM (Université Montpellier 2, CNRS UMR 5506), au sein de l'équipe TATOO. Dans ce contexte, je me suis attachée à concilier des visions trop souvent vues comme divergentes au sein des communautés liées à la fouille de données complexes : gérer l'approximation (à la fois dans les données et dans les résultats produits), la fouille de données et les bases de données complexes et volumineuses, notamment les entrepôts de données. Plus précisément, mes travaux visent à montrer qu'il est possible de relever le défi jusqu'à présent non totalement solutionné d'extraire des connaissances exploitables par les experts non informaticiens à partir d'entrepôts de données, en prenant en compte au mieux les particularités de ce domaine. En particulier, j'ai porté d'une part une grande attention à exploiter la dimension temporelle des entrepôts et d'autre part à montrer autant que faire se peut que flou et passage à l'échelle ne sont pas des notions antagonistes. Dans cet objectif, j'ai mené, dirigé, encadré et valorisé à travers des collaborations scientifiques et industrielles des travaux dont je rapporte ici une synthèse.
49

Mouhoubi, Karima. "Extraction des motifs contraints dans des données bruitées." Paris 13, 2013. http://www.theses.fr/2013PA132060.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Nous abordons dans cette thèse le problème difficile de l'extraction de motifs contraints dans des données booléennes bruitées. La fouille de motifs ensemblistes contraints dans des matrices binaires consiste à rechercher des rectanges de 1 dans une matrice de données à valeurs dans {0,1} qui satisfont un ensemble de contraintes (fréquence, aire, etc. ). Cependant, dans des applications réelles les données sont souvent bruitées. Un des effets du bruit est de "pulvériser" un motif pertinent en un ensemble de sous-motifs recouvrants et peu pertinents, entraînant une explosion du nombre de résultats. Nous avons proposé dans cette thèse des approches heuristiques originales qui combinent des algorithmes de fouilles de données et des algorithmes de graphes. Ces méthodes sont fondées sur des algorithmes de flot maximal/coupe minimale pour rechercher des sous graphes denses maximaux qui peuvent se recouvrir dans un graphe biparti pondéré et augmenté associé à la matrice des données. Notre dernière contribution consiste en une approche semi-supervisée qui exploite des connaisssances (sur l'une des dimensions ou les deux simultanément) exprimées sous forme de classifications pour guider le processus d'extraction. Cette orientation est assurée par un mécanisme d'adaptation des poids lors de l'extraction itérative des sous graphes denses. Aucune contrainte n'est imposée sur les classifications et peuvent être incomplètes. Pour évaluer la pertinence et exploiter les résultats extraits par nos approches, différents tests ont été réalisés sur des données synthétiques, ainsi que sur des données réelles isssues d'applications bioinformatiques de levure et humaines.
50

Kaba, Bangaly. "Décomposition de graphes comme outil de regroupement et de visualisation en fouille de données." Clermont-Ferrand 2, 2008. http://www.theses.fr/2008CLF21871.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La fouille de données est un domaine largement étudié et les méthodes utilisées pour l'aborder ont fait le sujet de nombreux travaux. Ces méthodes reposent en général sur les outils de classification classiques supervisés et non supervisés. Ces méthodes forment des clusters disjoints, attribuant les éléments à un seul groupe. Dans de nombreux cas réels, les éléments à classer peuvent appartenir à plusieurs groupes. Nous abordons cette problématique avec une nouvelle approche basée sur la décomposition des graphes. Cette décomposition est basée sur les séparateurs minimaux complets qui sont des ensembles de sommets formant des cliques dont le retrait déconnecte le graphe en une ou plusieurs composantes et pour lesquels des résultats en théorie des graphes donnent des outils algorithmiques puissants. Cette décomposition fournit des groupes d'éléments recouvrants. Nous dérivons de cette décomposition un outil de visualisation permettant de mettre en évidence la structure du graphe formé par ces données. Nous avons travaillé sur des données issues de 2 domaines (bioinformatique et fouille de données textuelles) afin de valider cette approche de décomposition. 1. Bioinformatique : Les mesures de l'activité génique des cellules vivantes par des biopuces fournissent des données sous forme de matrices symétriques. Nous construisons des graphes de gènes en fixant des seuils sur ces matrices. Nous examinons la stucture de ces graphes afin de mettre en évidence des groupes de gènes qui ont des profils d'expression similaires et dont on peut estimer la probabilité de participation à des fonctions similaires. 2. Fouille de données textuelles : les relations entre données textuelles d'un corpus donné sont modélisées par un graphe de termes. Ces relations sont fondées soit sur la cooccurence, soit sur des variations linguistiques. Nous proposons une méthode de visualisation basée sur la décomposition de graphes en atomes (sous-graphes recouvrants sans séparateurs minimaux complets). Ces atomes sont structurés dans un graphe appelé graphe des atomes. Ce graphe des atomes met en évidence les thématiques donnant une vue globale sur l'ensemble des documents contenus dans un corpus

To the bibliography