Siga este enlace para ver otros tipos de publicaciones sobre el tema: Extraction de motifs fréquents.

Tesis sobre el tema "Extraction de motifs fréquents"

Crea una cita precisa en los estilos APA, MLA, Chicago, Harvard y otros

Elija tipo de fuente:

Consulte los 50 mejores tesis para su investigación sobre el tema "Extraction de motifs fréquents".

Junto a cada fuente en la lista de referencias hay un botón "Agregar a la bibliografía". Pulsa este botón, y generaremos automáticamente la referencia bibliográfica para la obra elegida en el estilo de cita que necesites: APA, MLA, Harvard, Vancouver, Chicago, etc.

También puede descargar el texto completo de la publicación académica en formato pdf y leer en línea su resumen siempre que esté disponible en los metadatos.

Explore tesis sobre una amplia variedad de disciplinas y organice su bibliografía correctamente.

1

Julea, Andreea Maria. "Extraction de motifs spatio-temporels dans des séries d'images de télédétection : application à des données optiques et radar". Phd thesis, Université de Grenoble, 2011. http://tel.archives-ouvertes.fr/tel-00652810.

Texto completo
Resumen
Les Séries Temporelles d'Images Satellitaires (STIS), visant la même scène en évolution, sont très intéressantes parce qu'elles acquièrent conjointement des informations temporelles et spatiales. L'extraction de ces informations pour aider les experts dans l'interprétation des données satellitaires devient une nécessité impérieuse. Dans ce mémoire, nous exposons comment on peut adapter l'extraction de motifs séquentiels fréquents à ce contexte spatio-temporel dans le but d'identifier des ensembles de pixels connexes qui partagent la même évolution temporelle. La démarche originale est basée sur la conjonction de la contrainte de support avec différentes contraintes de connexité qui peuvent filtrer ou élaguer l'espace de recherche pour obtenir efficacement des motifs séquentiels fréquents groupés (MSFG) avec signification pour l'utilisateur. La méthode d'extraction proposée est non supervisée et basée sur le niveau pixel. Pour vérifier la généricité du concept de MSFG et la capacité de la méthode proposée d'offrir des résultats intéressants à partir des SITS, sont réalisées des expérimentations sur des données réelles optiques et radar.
Los estilos APA, Harvard, Vancouver, ISO, etc.
2

Pennerath, Frédéric. "Méthodes d'extraction de connaissances à partir de données modélisables par des graphes : Application à des problèmes de synthèse organique". Phd thesis, Université Henri Poincaré - Nancy I, 2009. http://tel.archives-ouvertes.fr/tel-00436568.

Texto completo
Resumen
Des millions de réactions chimiques sont décrites dans des bases de données sous la forme de transformations de graphes moléculaires. Cette thèse propose différentes méthodes de fouille de donnés pour extraire des motifs pertinents contenus dans ces graphes et ainsi aider les chimistes à améliorer leurs connaissances des réactions chimiques et des molécules. Ainsi on commence par montrer comment le problème central de la recherche des schémas de réactions fréquents peut se résoudre à l'aide de méthodes existantes de recherche de sous-graphes fréquents. L'introduction du modèle général des motifs les plus informatifs permet ensuite de restreindre l'analyse de ces motifs fréquents à un nombre réduit de motifs peu redondants et représentatifs des données. Si l'application du modèle aux bases de réactions permet d'identifier de grandes familles de réactions, le modèle est inadapté pour extraire les schémas caractéristiques de méthodes de synthèse (schémas CMS) dont la fréquence est trop faible. Afin de surmonter cet obstacle, est ensuite introduite une méthode de recherche heuristique fondée sur une contrainte d'intervalle entre graphes et adaptée à l'extraction de motifs de très faible fréquence. Cette méthode permet ainsi de déterminer à partir d'exemples de réactions et sous certaines conditions le schéma CMS sous-jacent à une réaction donnée. La même approche est ensuite utilisée pour traiter le problème de la classification supervisée de sommets ou d'arêtes fondée sur leurs environnements puis exploitée pour évaluer la formabilité des liaisons d'une molécule. Les résultats produits ont pu être analysés par des experts de la synthèse organique et sont très encourageants.
Los estilos APA, Harvard, Vancouver, ISO, etc.
3

Papon, Pierre-Antoine. "Extraction optimisée de règles d'association positives et négatives intéressantes". Thesis, Clermont-Ferrand 2, 2016. http://www.theses.fr/2016CLF22702/document.

Texto completo
Resumen
L’objectif de la fouille de données consiste à extraire des connaissances à partir de grandes masses de données. Les connaissances extraites peuvent prendre différentes formes. Dans ce travail, nous allons chercher à extraire des connaissances uniquement sous la forme de règles d’association positives et de règles d’association négatives. Une règle d’association négative est une règle dans laquelle la présence ainsi que l’absence d’une variable peuvent être utilisées. En considérant l’absence des variables dans l’étude, nous allons élargir la sémantique des connaissances et extraire des informations non détectables par les méthodes d’extraction de règles d’association positives. Cela va par exemple permettre aux médecins de trouver des caractéristiques qui empêchent une maladie de se déclarer, en plus de chercher des caractéristiques déclenchant une maladie. Cependant, l’ajout de la négation va entraîner différents défis. En effet, comme l’absence d’une variable est en général plus importante que la présence de ces mêmes variables, les coûts de calculs vont augmenter exponentiellement et le risque d’extraire un nombre prohibitif de règles, qui sont pour la plupart redondantes et inintéressantes, va également augmenter. Afin de remédier à ces problèmes, notre proposition, dérivée de l’algorithme de référence A priori, ne va pas se baser sur les motifs fréquents comme le font les autres méthodes. Nous définissons donc un nouveau type de motifs : les motifs raisonnablement fréquents qui vont permettre d’améliorer la qualité des règles. Nous nous appuyons également sur la mesure M G pour connaître les types de règles à extraire mais également pour supprimer des règles inintéressantes. Nous utilisons également des méta-règles nous permettant d’inférer l’intérêt d’une règle négative à partir d’une règle positive. Par ailleurs, notre algorithme va extraire un nouveau type de règles négatives qui nous semble intéressant : les règles dont la prémisse et la conclusion sont des conjonctions de motifs négatifs. Notre étude se termine par une comparaison quantitative et qualitative aux autres algorithmes d’extraction de règles d’association positives et négatives sur différentes bases de données de la littérature. Notre logiciel ARA (Association Rules Analyzer ) facilite l’analyse qualitative des algorithmes en permettant de comparer intuitivement les algorithmes et d’appliquer en post-traitement différentes mesures de qualité. Finalement, notre proposition améliore l’extraction au niveau du nombre et de la qualité des règles extraites mais également au niveau du parcours de recherche des règles
The purpose of data mining is to extract knowledge from large amount of data. The extracted knowledge can take different forms. In this work, we will seek to extract knowledge only in the form of positive association rules and negative association rules. A negative association rule is a rule in which the presence and the absence of a variable can be used. When considering the absence of variables in the study, we will expand the semantics of knowledge and extract undetectable information by the positive association rules mining methods. This will, for example allow doctors to find characteristics that prevent disease instead of searching characteristics that cause a disease. Nevertheless, adding the negation will cause various challenges. Indeed, as the absence of a variable is usually more important than the presence of these same variables, the computational costs will increase exponentially and the risk to extract a prohibitive number of rules, which are mostly redundant and uninteresting, will also increase. In order to address these problems, our proposal, based on the famous Apriori algorithm, does not rely on frequent itemsets as other methods do. We define a new type of itemsets : the reasonably frequent itemsets which will improve the quality of the rules. We also rely on the M G measure to know which forms of rules should be mined but also to remove uninteresting rules. We also use meta-rules to allow us to infer the interest of a negative rule from a positive one. Moreover, our algorithm will extract a new type of negative rules that seems interesting : the rules for which the antecedent and the consequent are conjunctions of negative itemsets. Our study ends with a quantitative and qualitative comparison with other positive and negative association rules mining algorithms on various databases of the literature. Our software ARA (Association Rules Analyzer ) facilitates the qualitative analysis of the algorithms by allowing to compare intuitively the algorithms and to apply in post-process treatments various quality measures. Finally, our proposal improves the extraction in the number and the quality of the extracted rules but also in the rules search path
Los estilos APA, Harvard, Vancouver, ISO, etc.
4

Fiot, Céline. "Extraction de séquences fréquentes : des données numériques aux valeurs manquantes". Phd thesis, Université Montpellier II - Sciences et Techniques du Languedoc, 2007. http://tel.archives-ouvertes.fr/tel-00179506.

Texto completo
Resumen
La quantité de données aujourd'hui emmagasinées dans tous les domaines ainsi que leur diversité d'origines et de formats rendent impossibles l'analyse, le résumé ou l'extraction manuelle de connaissances. Pour répondre à ces besoins, diverses communautés se sont intéressées à la conception et au développement d'outils permettant d'extraire automatiquement de la connaissance de ces grandes bases. Désormais ces travaux visent à prendre en compte l'hétérogénéité de ces données, de leur format et de leur qualité. Notre travail s'inscrit dans cet axe de recherche et, plus précisément, dans le contexte de la découverte de schémas fréquents à partir de données regroupées sous la forme de séquences ordonnées. Ces schémas, appelés motifs séquentiels, n'étaient jusqu'alors extraits que sur des bases de données de séquences symboliques et parfaites, c'est-à-dire des bases ne contenant que des informations binaires ou pouvant être traitées comme telles et ne contenant aucun enregistrement incomplet. Nous avons donc proposé plusieurs améliorations des techniques d'extraction de séquences fréquentes afin de prendre en compte des données hétérogènes, incomplètes, incertaines ou mal connues de leur utilisateur, tout en minimisant les pertes éventuelles d'informations. Ainsi, le travail présenté dans cette thèse comporte la mise en oeuvre d'un cadre pour l'extraction de motifs séquentiels en présence de données numériques quantitatives, la définition de contraintes temporelles relâchées autorisant l'utilisateur à spécifier des contraintes temporelles approximatives et permettant un tri des résultats obtenus selon un indice de précision temporelle, enfin, le développement de deux approches pour l'extraction de motifs séquentiels sur des données symboliques incomplètes.
Los estilos APA, Harvard, Vancouver, ISO, etc.
5

Fiot, Céline. "Extraction de séquences fréquentes : des données numériques aux valeurs manquantes". Phd thesis, Montpellier 2, 2007. http://www.theses.fr/2007MON20056.

Texto completo
Resumen
La quantité de données aujourd'hui emmagasinées dans tous les domaines ainsi que leur diversité d'origines et de formats rendent impossibles l'analyse, le résumé ou l'extraction manuelle de connaissances. Pour répondre à ces besoins, diverses communautés se sont intéressées à la conception et au développement d'outils permettant d'extraire automatiquement de la connaissance de ces grandes bases. Désormais ces travaux visent à prendre en compte l'hétérogénéité de ces données, de leur format et de leur qualité. Notre travail s'inscrit dans cet axe de recherche et, plus précisément, dans le contexte de la découverte de schémas fréquents à partir de données regroupées sous la forme de séquences ordonnées. Ces schémas, appelés motifs séquentiels, n'étaient jusqu'alors extraits que sur des bases de données de séquences symboliques et parfaites, c'est-à-dire des bases ne contenant que des informations binaires ou pouvant être traitées comme telles et ne contenant aucun enregistrement incomplet. Nous avons donc proposé plusieurs améliorations des techniques d'extraction de séquences fréquentes afin de prendre en compte des données hétérogènes, incomplètes, incertaines ou mal connues de leur utilisateur, tout en minimisant les pertes éventuelles d'informations. Ainsi, le travail présenté dans cette thèse comporte la mise en oeuvre d'un cadre pour l'extraction de motifs séquentiels en présence de données numériques quantitatives, la définition de contraintes temporelles relâchées autorisant l'utilisateur à spécifier des contraintes temporelles approximatives et permettant un tri des résultats obtenus selon un indice de précision temporelle, enfin, le développement de deux approches pour l'extraction de motifs séquentiels sur des données symboliques incomplètes.
Los estilos APA, Harvard, Vancouver, ISO, etc.
6

Raïssi, Chedy. "Extraction de Séquences Fréquentes : Des Bases de Données Statiques aux Flots de Données". Phd thesis, Université Montpellier II - Sciences et Techniques du Languedoc, 2008. http://tel.archives-ouvertes.fr/tel-00351626.

Texto completo
Resumen
Extraction de séquences fréquentes : des bases de données statiques aux flots de données Il est reconnu aujourd'hui que l'être humain est généralement noyé sous une profusion d'informations et que sa capacité d'analyse n'est plus capable de faire face au volume sans cesse croissant de données. C'est dans ce contexte qu'est né le processus d'Extraction de Connaissance dans les bases de Données. Un des buts de ce processus est de passer d'un grand volume d'informations à un petit ensemble de connaissances à fortes valeurs ajoutées pour l'analyste ou le décideur. De plus, le processus d'ECD n'est pas un processus monolithique et univoque au cours duquel il s'agirait d'appliquer un principe général à tous les types de données stockées ou récupérées. Ainsi, une des étapes de ce processus qu'est la fouille de données peut se dériver sous plusieurs formes tels que : le clustering, la classification, l'extraction d'itemset et de règles d'associations, l'extraction de structures plus complexes tels que les épisodes, les graphes ou comme dans le cadre de cette thèse l'extraction de motifs séquentiels. Malheureusement, dans un monde sans cesse en évolution, le contexte dans lequel les travaux d'ECD ont été définis ces dernières années considérait que les données, sur lesquelles la fouille était réalisée, étaient disponibles dans des bases de données statiques. Aujourd'hui, suite au développement de nouvelles technologies et applications associées, nous devons faire face à de nouveaux modèles dans lesquels les données sont disponibles sous la forme de flots. Une question se pose alors : quid des approches d'extraction de connaissances traditionnelles ? Dans ce mémoire, nous présentons un ensemble de résultat sur les motifs séquentiels dans les bases de données d'un point de vue des représentations condensées et des méthodes d'échantillonnage puis nous étendons nos différentes approches afin de prendre en compte le nouveau modèle des flots de données. Nous présentons des algorithmes permettant ainsi l'extraction de motifs séquentiels (classiques et multidimensionnels) sur les flots. Des expérimentations menées sur des données synthétiques et sur des données réelles sont rapportées et montrent l'intérêt de nos propositions.
Los estilos APA, Harvard, Vancouver, ISO, etc.
7

Raissi, Chedy. "Extraction de séquences fréquentes : des bases de données statiques aux flots de données". Montpellier 2, 2008. http://www.theses.fr/2008MON20063.

Texto completo
Los estilos APA, Harvard, Vancouver, ISO, etc.
8

Faci, Adam. "Représentation, simulation et exploitation de connaissances dans le formalisme des graphes conceptuels". Electronic Thesis or Diss., Sorbonne université, 2022. http://www.theses.fr/2022SORUS419.

Texto completo
Resumen
Cette thèse aborde le domaine de la représentation des connaissances sous forme de graphes conceptuels, un formalisme de représentation structurée des connaissances proposant des outils de manipulation efficaces. Il existe une multitudes de problématiques en intelligence artificielles symbolique concernant la représentation des connaissances en général, et en particulier sur la représentation concise d’un grand nombre d’informations. Les graphes conceptuels, par la possibilité de représenter visuellement différentes sortes de connaissances, notamment ontologiques et factuelle, et la proposition d’outils de manipulation efficaces, offrent un cadre parfait pour la réponse à ces problématiques. Nous effectuons une étude comparative des extensions floues des graphes conceptuels, puis nous proposons un algorithme de simulation de graphes conceptuels ainsi qu'un algorithme efficace d'extraction de motifs fréquents non-redondants, avec les connaissances ontologiques
This thesis addresses the field of knowledge representation in conceptual graphs, a structured knowledge representation formalism that provides efficient manipulation tools. There are many challenges in symbolic artificial intelligence concerning the representation of knowledge in general, and in particular the concise representation of a large amount of information. Conceptual graphs, by their ability to visually represent different kinds of knowledge, mainly ontological and factual, and by offering efficient manipulation tools, provide a perfect framework for the answer to these problems. We conduct a comparative study of fuzzy extensions of conceptual graphs, then we propose an algorithm for conceptual graphs simulation as well as an efficient algorithm for extracting frequent patterns that are not redundant with ontological knowledge
Los estilos APA, Harvard, Vancouver, ISO, etc.
9

Gosselin, Stéphane. "Recherche de motifs fréquents dans une base de cartes combinatoires". Phd thesis, Université Claude Bernard - Lyon I, 2011. http://tel.archives-ouvertes.fr/tel-00838571.

Texto completo
Resumen
Une carte combinatoire est un modèle topologique qui permet de représenter les subdivisions de l'espace en cellules et les relations d'adjacences et d'incidences entre ces cellules en n dimensions. Cette structure de données est de plus en plus utilisée en traitement d'images, mais elle manque encore d'outils pour les analyser. Notre but est de définir de nouveaux outils pour les cartes combinatoires nD. Nous nous intéressons plus particulièrement à l'extraction de sous-cartes fréquentes dans une base de cartes. Nous proposons deux signatures qui sont également des formes canoniques de cartes combinatoires. Ces signatures ont chacune leurs avantages et leurs inconvénients. La première permet de décider de l'isomorphisme entre deux cartes en temps linéaire, en contrepartie le coût de stockage en mémoire est quadratique en la taille de la carte. La seconde signature a un coût de stockage en mémoire linéaire en la taille de la carte, cependant le temps de calcul de l'isomorphisme est quadratique. Elles sont utilisables à la fois pour des cartes connexes, non connexes, valuées ou non valuées. Ces signatures permettent de représenter une base de cartes combinatoires et de rechercher un élément de manière efficace. De plus, le temps de recherche ne dépend pas du nombre de cartes présent dans la base. Ensuite, nous formalisons le problème de recherche de sous-cartes fréquentes dans une base de cartes combinatoires nD. Nous implémentons deux algorithmes pour résoudre ce problème. Le premier algorithme extrait les sous-cartes fréquentes par une approche en largeur tandis que le second utilise une approche en profondeur. Nous comparons les performances de ces deux algorithmes sur des bases de cartes synthétiques. Enfin, nous proposons d'utiliser les motifs fréquents dans une application de classification d'images. Chaque image est décrite par une carte qui est transformée en un vecteur représentant le nombre d'occurrences des motifs fréquents. À partir de ces vecteurs, nous utilisons des techniques classiques de classification définies sur les espaces vectoriels. Nous proposons des expérimentations en classification supervisée et non supervisée sur deux bases d'images.
Los estilos APA, Harvard, Vancouver, ISO, etc.
10

Salleb, Ansaf. "Recherche de motifs fréquents pour l'extraction de règles d'association et de caractérisation". Orléans, 2003. http://www.theses.fr/2003ORLE2064.

Texto completo
Resumen
La fouille de données est un domaine de recherche en plein essor visant à extraire des connaissances à partir de grandes quantités de données. Dans cette thèse, nous nous intéressons à l'extraction de motifs fréquents dans les bases de données. Cette étape à la fois importante et coûteuse, est commune à plusieurs tâches de fouille de données. Parmi celles-ci, nous avons étudié la recherche de règles d'association et la recherche de règles de caractérisation, fondées l'une comme l'autre sur la recherche de motifs fréquents. D'une part, nous nous sommes intéressés à l'extraction de motifs fréquents dans des bases dites transactionnelles. Ces bases se présentent comme des multi-ensembles de transactions, où chaque transaction est constituée d'un ensemble d'items, appelé itemset. Nous proposons dans ce cadre une approche booléenne pour la recherche des itemsets fréquents. L'idée est de représenter une base de transactions par une fonction à variables booléennes et à valeurs entières. L'étude menée a non seulement montré l'efficacité de l'approche pour représenter et charger les bases de transactions denses en mémoire, mais aussi l'intérêt de l'utilisation de ce format condensé pour l'extraction des itemsets fréquents maximaux. D'autre part, l'extraction des motifs fréquents dans des bases de données représentant des objets et leurs relations, comme par exemple les bases de données relationnelles et géographiques, est un problème non trivial, étant donné la complexité de l'espace de recherche. Ceci nous a poussé à orienter nos recherches vers d'autres types de règles plus ciblées telles que les règles de caractérisation. Nous proposons un cadre général pour la caractérisation d'un ensemble d'objets, appelé ensemble 'cible', en nous basant non seulement sur leurs propriétés propres mais aussi sur les propriétés de tous les objets qui leur sont liés directement ou indirectement.
Los estilos APA, Harvard, Vancouver, ISO, etc.
11

Ugarte, Rojas Willy. "Extraction de motifs sous contraintes souples". Caen, 2014. http://www.theses.fr/2014CAEN2040.

Texto completo
Resumen
Chaque cadre doit contenir un résumé de 1700 caractères maximum, espaces compris. En cas de dépassement, la coupure sera automatique. Le doctorant adresse son texte sous forme électronique selon les recommandations de la bibliothèque. L'objectif de cette thèse est d'introduire de la souplesse dans le processus d'extraction de motifs en fouille de données. En utilisant la programmation par contraintes, nous avons pu apporter quatre principales contributions : - La proposition d'un cadre général permettant de mettre en œuvre les contraintes souples de seuil dans un extracteur de motifs. - L'introduction de la souplesse dans les skypatterns (motifs Pareto-optimaux par rapport à un ensemble de mesures) et la proposition d'une méthode générique permettant aussi bien l'extraction des skypatterns (durs) que des skypatterns souples. - L'introduction du cube de skypatterns et la proposition de deux méthodes permettant sa construction~: l'une, ascendante, repose principalement sur des règles de dérivation; l'autre, utilise une approximation de l'ensemble des skypatterns du cube, rendue possible grâce aux skypatterns souples. - L'introduction de la notion de motif optimal permettant de modéliser de nombreux problèmes d'extraction de motifs : skypatterns, top-k, motifs fermés, …. La déclarativité et la généricité de notre approche nous semblent ouvrir la voie à la définition et à la découverte de nouveaux ensembles de motifs. Ces contributions ont été validées expérimentalement sur des domaines applicatifs réels tels que la découverte de toxicophores pour les deux premières contributions et la découverte de composants mutagènes pour la troisième
The objective of this thesis is to introduce softness in pattern mining process in data mining. Using constraint programming, we were able to make four main contributions: - A general framework for implementing soft threshold constraints in a pattern mining prototype. - The introduction of softness in skypatterns (Pareto-optimal patterns with respect to a set of measures) and the proposal of a generic method for mining (hard) skypatterns as well as soft-skypatterns. - The introduction of the skypattern cube and two methods for its construction: one bottom-up, mainly based on derivation rules; the other uses an approximation of all skypatterns the cube, the method being feasible thanks to the soft-skypatterns. - The introduction of the notion of optimal pattern for modeling many pattern extraction problems: skypatterns, top-k, closed patterns,. . . The declarative and genericity side of our approach opens the way for the definition and discovery of new sets of patterns. These contributions have been experimentally validated on real application domains such as the discovery of toxicophores for the first two contributions and the discovery of mutagenic components for third one
Los estilos APA, Harvard, Vancouver, ISO, etc.
12

Hamrouni, Tarek. "Fouille de représentations concises des motifs fréquents à travers les espaces de recherche conjonctif et disjonctif". Phd thesis, Université d'Artois, 2009. http://tel.archives-ouvertes.fr/tel-00465733.

Texto completo
Resumen
Durant ces dernières années, les quantités de données collectées, dans divers domaines d'application de l'informatique, deviennent de plus en plus importantes. Cela suscite le besoin d'analyser et d'interpréter ces données afin d'en extraire des connaissances utiles. Dans cette situation, le processus d'Extraction de Connaissances à partir des Données est un processus complet visant à extraire des connaissances cachées, nouvelles et potentiellement utiles à partir de grands volumes de données. Parmi ces étapes, la fouille de données offre les outils et techniques permettant une telle extraction. Plusieurs travaux de recherche en fouille de données concernent la découverte des règles d'association, permettant d'identifier des liens entre ensembles de descripteurs (ou attributs ou items) décrivant un ensemble d'objets (ou individus ou transactions). Les règles d'association ont montré leur utilité dans plusieurs domaines d'application tels que la gestion de la relation client en grande distribution (analyse du panier de la ménagère pour déterminer les produits souvent achetés simultanément, et agencer les rayons et organiser les promotions en conséquence), la biologie moléculaire (analyse des associations entre gènes), etc. De manière générale, la construction des règles d'association s'effectue en deux étapes : l'extraction des ensembles d'items (ou itemsets) fréquents, puis la génération des règles d'association à partir de des itemsets fréquents. Dans la pratique, le nombre de motifs (itemsets fréquents ou règles d'associations) extraits ou générés, peut être très élevé, ce qui rend difficile leur exploitation pertinente par les utilisateurs. Pour pallier ce problème, certains travaux de recherche proposent l'usage d'un noyau de motifs, appelés représentations concises, à partir desquels les motifs redondants peuvent être régénérés. Le but de telles représentations est de condenser les motifs extraits tout en préservant autant que possible les informations cachées et intéressantes sur des données. Dans la littérature, beaucoup de représentations concises des motifs fréquents ont été proposées, explorant principalement l'espace de recherche conjonctif. Dans cet espace, les itemsets sont caractérisés par la fréquence de leur co-occurrence. Ceci fait l'objet de la première partie de ce travail. Une étude détaillée proposée dans cette thèse prouve que les itemsets fermés et les générateurs minimaux sont un moyen de représenter avec concision les itemsets fréquents et les règles d'association. Les itemsets fermés structurent l'espace de recherche dans des classes d'équivalence tels que chaque classe regroupe les itemsets apparaissant dans le même sous-ensemble (appelé aussi objets ou transactions) des données. Un itemset fermé inclut l'expression la plus spécifique décrivant les transactions associées, alors qu'un générateur minimal inclut une des expressions les plus générales. Cependant, une redondance combinatoire intra-classe résulte logiquement de l'absence inhérente d'un seul générateur minimal associé à un itemset fermé donné. Ceci nous amotivé à effectuer une étude approfondie visant à maintenir seulement les générateurs minimaux irréductibles dans chaque classe d'équivalence, et d'élaguer les autres. À cet égard, il est proposé une réduction sans perte d'information de l'ensemble des générateurs minimaux grâce à un nouveau processus basé sur la substitution. Une étude complète des propriétés associées aux familles obtenues est présentée. Les résultats théoriques sont ensuite étendus au cadre de règles d'association afin de réduire autant que possible le nombre de règles maintenues sans perte d'information. Puis, est présentée une étude formelle complète du mécanisme d'inférence permettant de dériver toutes les règles d'association redondantes, à partir de celles maintenues. Afin de valider l'approche proposée, les algorithmes de construction de ces représentations concises de motifs sont présentés ainsi que les résultats des expérimentations réalisées en terme de concision et de temps de calcul. La seconde partie de ce travail est consacrée à une exploration complète de l'espace de recherche disjonctif des itemsets, où ceux-ci sont caractérisés par leurs supports disjonctifs. Ainsi dans l'espace disjonctif, un itemset vérifie une transaction si au moins un de ses items y est présent. Les itemsets disjonctifs véhiculent ainsi une connaissance au sujet des occurrences complémentaires d'items dans un ensemble de données. Cette exploration est motivée par le fait que, dans certaines applications, une telle information peut être utile aux utilisateurs. Lors de l'analyse d'une séquence génétique par exemple, le fait d'engendrer une information telle que " présence d'un gène X ou la présence d'un gène Y ou ... " présente un intérêt pour le biologiste. Afin d'obtenir une représentation concise de l'espace de recherche disjonctif, une solution intéressante consiste à choisir un seul élément pour représenter les itemsets couvrant le même ensemble de données. Deux itemsets sont équivalents si leurs items respectifs couvrent le même ensemble de données. À cet égard, un nouvel opérateur consacré à cette tâche, a été introduit. Dans chaque classe d'équivalence induite, les éléments minimaux sont appelés itemsets essentiels, alors que le plus grand élément est appelé itemset fermé disjonctif. L'opérateur présenté est alors à la base de nouvelles représentations concises des itemsets fréquents. L'espace de recherche disjonctif est ensuite exploité pour dériver des règles d'association généralisées. Ces dernières règles généralisent les règles classiques pour offrir également des connecteurs de disjonction et de négation d'items, en plus de celui conjonctif. Des outils (algorithme et programme) dédiés ont été alors conçus et mis en application pour extraire les itemsets disjonctifs et les règles d'association généralisées. Les résultats des expérimentations effectuées ont montré l'utilité de notre exploration et ont mis en valeur la concision des représentations concises proposées.
Los estilos APA, Harvard, Vancouver, ISO, etc.
13

Voravuthikunchai, Winn. "Représentation des images au moyen de motifs fréquents et émergents pour la classification et la recherche d'images". Caen, 2013. http://www.theses.fr/2013CAEN2084.

Texto completo
Resumen
Cette thèse a pour but d'améliorer les performances sur différentes tâches de vision par ordinateur en se focalisant sur l'étape de représentation des images. Notre idée clé est d'intégrer des relations entre les descripteurs de l'image à sa représentation originelle, ces relations apportant une information additionnelle par exemple pour discriminer des images. La recherche de telles relations n'est pas simple compte-tenu de la grande combinatoire entre descripteurs. Nous proposons d'employer des techniques de fouille de données fondées sur la recherche de motifs pour mettre en évidence des relations pertinentes entre les descripteurs d'images. En effet, le fouille de données est appropriée pour l'analyse de grandes quantités de données et la découverte des motifs intéressants traduisant des dépendances, le regroupement de données, la détection d'anomalies. Un premier obstacle à l'emploi de techniques de fouille de données en vision par ordinateur porte sur le recordage des descripteurs des images. Ces dernières possèdent usuellement des valeurs réelles alors que les méthodes d'extraction de motifs sont appropriées aux données discrètes. Pour traiter ce problème, nous proposons des techniques fondées sur des seuillages locaux. Le nombre de motifs extraits étant élevés, ceux-ci ne peuvent pas être directement utilisés dans une tâche comme la classification supervisée. Aussi, nous présentons une méthode d'agrégation des motifs permettant d' obtenir une représentation compacte évitant le sur-apprentissage. Les résultats expérimentaux sur de nombreuses bases d'images montrent que notre approche est largement au niveau de l'état de l'art. Nous montrons que les caractéristiques de la fouille de données sont aussi propices à d'autres tâches de vision par ordinateur. Ainsi, nous avons conçu une méthode de détection de doublons reposant sur l'utilisation de motifs fermés dans de grandes bases d'images. Nous avons testé notre méthode sur une base de 1 million d'images obtenues avec Google image : les doublons sont découverts en moins de 3 minutes. Enfin, nous avons développé une méthode de re-classer d'images fondée sur le nombre de motifs fréquents que chaque image supporte, cette méthode permet d'améliorer le classement initial
In this thesis, our aim is to achieve better results in several tasks in computer vision by focusing on the image representation part. Our idea is to integrate feature dependencies to the original feature representation. Although feature dependencies can give additional useful information to discriminate images, it is a nontrivial task to select a subset of feature combinations from the power set of the features which has an excessively large cardinality. We employ pattern mining techniques to efficiently produce a tractable set of effective combinations. Pattern mining is a process that can analyze large quantities of data and extract interesting patterns such as groups of data records (cluster analysis), unusual records (anomaly detection) and dependencies (association rule mining). The first encountered problem is how to encode image features which are typically real valued as binary transaction items suitable for pattern mining algorithms. We propose some solutions based on local thresholding. The number of extracted patterns is still very high and to use them directly as new features for inferring a supervised classification models leads to overfitting. A solution by aggregating the patterns and have a compact representation which does not overfit to the training data is presented. We have achieved state-of-the-art results on several image classification benchmarks. Along the path of exploration, we realize pattern mining algorithms are suitable especially for large scale tasks as they are very efficient and scale gracefully to the number of images. We have found two suitable applications. The first one is to detect groups of duplicates in very large dataset. In order to run our experiment, we created a database of one million images. The images are randomly downloaded from Google. We have discovered the duplicate groups in less than three minutes. Another application that we found suitable for applying pattern mining techniques is image re-ranking. Our method can improves the original ranking score by a large margin and compare favorably to existing approaches
Los estilos APA, Harvard, Vancouver, ISO, etc.
14

Plantevit, Marc. "Extraction De Motifs Séquentiels Dans Des Données Multidimensionelles". Phd thesis, Université Montpellier II - Sciences et Techniques du Languedoc, 2008. http://tel.archives-ouvertes.fr/tel-00319242.

Texto completo
Resumen
L'extraction de motifs séquentiels est devenue, depuis son introduction, une technique majeure du domaine de la fouille de données avec de nombreuses applications (analyse du comportement des consommateurs, bioinformatique, sécurité, musique, etc.). Les motifs séquentiels permettent la découverte de corrélations entre événements en fonction de leurs chronologies d'apparition. Il existe de nombreux algorithmes permettant l'extraction de tels motifs. Toutefois, ces propositions ne prennent en compte qu'une seule dimension d'analyse (e.g le produit dans les applications de type étude des achats des consommateurs) alors que la plupart des données réelles sont multidimensionnelles par nature. Dans ce manuscrit, nous définissons les motifs séquentiels multidimensionnels afin de prendre en compte les spécificités inhérentes aux bases de données multidimensionnelles (plusieurs dimensions, hiérarchies, valeurs agrégées). Nous définissons des algorithmes permettant l'extraction de motifs séquentiels multi- dimensionnels en tenant compte des ces spécificités. Des expérimentations menées sur des données synthétiques et sur des données réelles sont rapportées et montrent l'intérêt de nos propositions. Nous nous intéressons également à l'extraction de comportements temporels atypiques dans des données multidimensionnelles. Nous montrons qu'il peut y avoir plusieurs interprétations d'un comportement atypique (fait ou connaissance). En fonction de chaque interprétation, nous proposons une méthode d'extraction de tels comportements. Ces méthodes sont également validées par des expérimentations sur des données réelles.
Los estilos APA, Harvard, Vancouver, ISO, etc.
15

Mouhoubi, Karima. "Extraction des motifs contraints dans des données bruitées". Paris 13, 2013. http://www.theses.fr/2013PA132060.

Texto completo
Resumen
Nous abordons dans cette thèse le problème difficile de l'extraction de motifs contraints dans des données booléennes bruitées. La fouille de motifs ensemblistes contraints dans des matrices binaires consiste à rechercher des rectanges de 1 dans une matrice de données à valeurs dans {0,1} qui satisfont un ensemble de contraintes (fréquence, aire, etc. ). Cependant, dans des applications réelles les données sont souvent bruitées. Un des effets du bruit est de "pulvériser" un motif pertinent en un ensemble de sous-motifs recouvrants et peu pertinents, entraînant une explosion du nombre de résultats. Nous avons proposé dans cette thèse des approches heuristiques originales qui combinent des algorithmes de fouilles de données et des algorithmes de graphes. Ces méthodes sont fondées sur des algorithmes de flot maximal/coupe minimale pour rechercher des sous graphes denses maximaux qui peuvent se recouvrir dans un graphe biparti pondéré et augmenté associé à la matrice des données. Notre dernière contribution consiste en une approche semi-supervisée qui exploite des connaisssances (sur l'une des dimensions ou les deux simultanément) exprimées sous forme de classifications pour guider le processus d'extraction. Cette orientation est assurée par un mécanisme d'adaptation des poids lors de l'extraction itérative des sous graphes denses. Aucune contrainte n'est imposée sur les classifications et peuvent être incomplètes. Pour évaluer la pertinence et exploiter les résultats extraits par nos approches, différents tests ont été réalisés sur des données synthétiques, ainsi que sur des données réelles isssues d'applications bioinformatiques de levure et humaines.
Los estilos APA, Harvard, Vancouver, ISO, etc.
16

Plantevit, Marc. "Extraction de motifs séquentiels dans des données multidimensionnelles". Montpellier 2, 2008. http://www.theses.fr/2008MON20066.

Texto completo
Resumen
L'extraction de motifs séquentiels est devenue, depuis son introduction, une technique majeure du domaine de la fouille de données avec de nombreuses applications à la clé (analyse du comportement des consommateurs, bioinformatique, sécurité, musique, etc. ). Les motifs séquentiels permettent la découverte de corrélations entre événements en fonction de leurs chronologies d'apparition. Il existe de nombreux algorithmes permettant l'extraction de tels motifs. Toutefois, ces propositions ne prennent en compte qu'une seule dimension d'analyse (e. G le produit dans les applications de type étude des achats des consommateurs) alors que la plupart des données réelles sont multidimensionnelles par nature. Dans ce manuscrit, nous définissons les motifs séquentiels multidimensionnels afin de prendre en compte les spécificités inhérentes aux bases de données multidimensionnelles (plusieurs dimensions, hiérarchies, valeurs agrégées). Nous définissons des algorithmes permettant l'extraction de motifs séquentiels multidimensionnels en tenant compte des ces spécificités. Des expérimentations menées sur des données synthétiques et sur des données réelles sont rapportées et montrent l'intérêt de nos propositions. Nous nous intéressons également à l'extraction de comportements temporels atypiques dans des données multidimensionnelles. Nous montrons qu'il peut y avoir plusieurs interprétations d'un comportement atypique (fait ou connaissance). En fonction de chaque interprétation, nous proposons une méthode d'extraction de tels comportements. Ces méthodes sont également validées par des expérimentations sur des données réelles
Sequential pattern mining is a key technique of data mining with broad applications (user behavior analysis, bioinformatic, security, music, etc. ). Sequential pattern mining aims at discovering correlations among events through time. There exists many algorithms to discover such patterns. However, these approaches only take one dimension into account (e. G. Product dimension in customer market basket problem analysis) whereas data are multidimensional in nature. In this thesis, we define multidimensional sequential patterns to take the specificity of multidimensional databases (several dimensions, hierarchies, aggregated value). We define algorithms that allow the discovery of such patterns by handling this specificity. Some experiments on both synthetic and real data are reported and show the interest of our proposals. We also focus on the discovery of atypical behavior. We show that there are several interpretations of an atypical behavior (fact or knowledge). According to each interpretation, we propose an approach to discover such behaviors. These approaches are also validated with experiments on real data
Los estilos APA, Harvard, Vancouver, ISO, etc.
17

Termier, Alexandre. "Extraction d'arbres fréquents dans un corpus hétérogène de données semi-structurées : application à la fouille de document XML". Paris 11, 2004. http://www.theses.fr/2004PA11A002.

Texto completo
Los estilos APA, Harvard, Vancouver, ISO, etc.
18

Marascu, Alice. "Extraction de motifs séquentiels dans les flux de données". Phd thesis, Université de Nice Sophia-Antipolis, 2009. http://tel.archives-ouvertes.fr/tel-00445894.

Texto completo
Resumen
Ces dernières années ont vu apparaître de nombreuses applications traitant des données générées en continu et à de grandes vitesses. Ces données sont désormais connues sous le nom de flux de données. Leurs quantités de données potentiellement infinies ainsi que les contraintes qui en dérivent posent de nombreux problèmes de traitement. Parmi ces contraintes, citons par exemple l'impossibilité de bloquer un flux de données, ou encore le besoin de produire des résultats en temps réel. Néanmoins, les multiples domaines d'application de ces traitements (comme les transactions bancaires, l'usage du Web, la surveillance des réseaux, etc) ont suscité beaucoup d'intérêt tant dans les milieux industriels qu'académiques. Ces quantités potentiellement infinies de données interdisent tout espoir de stockage complet ; toutefois, on a besoin de pouvoir interroger l'historique des flux. Cela a conduit au compromis des « résumés » des flux de données et des résultats « approximatifs ». Aujourd'hui, un grand nombre de méthodes propose différents types de résumés des flux de données. Mais le développement incessant de la technologie et des applications afférentes demande un développement au moins équivalent des méthodes d'analyse et de résumé. De plus, l'extraction de motifs séquentiels y est encore peu étudiée: au commencement de cette thèse, il n'existait aucune méthode d'extraction de motifs séquentiels dans les flux de données. Motivés par ce contexte, nous nous sommes intéressés à une méthode qui résume les flux de données d'une manière efficace et fiable et qui permet principalement d'en extraire des motifs séquentiels. Dans cette thèse, nous proposons l'approche CLARA (CLAssification, Résumés et Anomalies). CLARA permet d'obtenir des clusters à partir d'un flux de séquences d'itemsets, de calculer et gérer des résumés de ces clusters et d'y détecter des anomalies. Les différentes contributions détaillées dans ce mémoire concernent: - La classification non supervisée de séquences d'itemsets sous forme de flux. A notre connaissance, cette technique est la première à permettre une telle classification. - Les résumés de flux de données à l'aide de l'extraction de motifs. Les résumés de CLARA sont composés de motifs séquentiels alignés représentant les clusters associés à leur historique dans le flux. L'ensemble de ces motifs permet de résumer le flux de manière fiable à un instant t. La gestion de l'historique de ces motifs est un point essentiel dans l'analyse des flux. CLARA introduit une nouvelle gestion de la granularité temporelle afin d'optimiser cet historique. - La détection d'anomalies. Cette détection, quand elle concerne les flux, doit être rapide et fiable. En particulier, les contraintes liées aux flux interdisent de consulter l'utilisateur final pour ajuster des paramètres (une anomalie détectée trop tard peut avoir de graves conséquences). Avec CLARA, cette détection est automatique et auto-adaptative. Nous proposerons également un cas d'étude sur des données réelles, réalisé en collaboration avec Orange Labs.
Los estilos APA, Harvard, Vancouver, ISO, etc.
19

Pitarch, Yoann. "Résumé de Flots de Données : motifs, Cubes et Hiérarchies". Thesis, Montpellier 2, 2011. http://www.theses.fr/2011MON20051/document.

Texto completo
Resumen
L'explosion du volume de données disponibles due au développement des technologies de l'information et de la communication a démocratisé les flots qui peuvent être définis comme des séquences non bornées de données très précises et circulant à grande vitesse. Les stocker intégralement est par définition impossible. Il est alors essentiel de proposer des techniques de résumé permettant une analyse a posteriori de cet historique. En outre, un grand nombre de flots de données présentent un caractère multidimensionnel et multiniveaux que très peu d'approches existantes exploitent. Ainsi, l'objectif de ces travaux est de proposer des méthodes de résumé exploitant ces spécificités multidimensionnelles et applicables dans un contexte dynamique. Nous nous intéressons à l'adaptation des techniques OLAP (On Line Analytical Processing ) et plus particulièrement, à l'exploitation des hiérarchies de données pour réaliser cette tâche. Pour aborder cette problématique, nous avons mis en place trois angles d'attaque. Tout d'abord, après avoir discuté et mis en évidence le manque de solutions satisfaisantes, nous proposons deux approches permettant de construire un cube de données alimenté par un flot. Le deuxième angle d'attaque concerne le couplage des approches d'extractions de motifs fréquents (itemsets et séquences) et l'utilisation des hiérarchies pour produire un résumé conservant les tendances d'un flot. Enfin, les catégories de hiérarchies existantes ne permettent pas d'exploiter les connaissances expertes dans le processus de généralisation. Nous pallions ce manque en définissant une nouvelle catégorie de hiérarchies, dites contextuelles, et en proposant une modélisation conceptuelle, graphique et logique d'un entrepôt de données intégrant ces hiérarchies contextuelles. Cette thèse s'inscrivant dans un projet ANR (MIDAS), une plateforme de démonstration intégrant les principales approches de résumé a été mise au point. En outre, la présence de partenaires industriels tels que Orange Labs ou EDF RD dans le projet a permis de confronter nos approches à des jeux de données réelles
Due to the rapid increase of information and communication technologies, the amount of generated and available data exploded and a new kind of data, the stream data, appeared. One possible and common definition of data stream is an unbounded sequence of very precise data incoming at an high rate. Thus, it is impossible to store such a stream to perform a posteriori analysis. Moreover, more and more data streams concern multidimensional and multilevel data and very few approaches tackle these specificities. Thus, in this work, we proposed some practical and efficient solutions to deal with such particular data in a dynamic context. More specifically, we were interested in adapting OLAP (On Line Analytical Processing ) and hierarchy techniques to build relevant summaries of the data. First, after describing and discussing existent similar approaches, we have proposed two solutions to build more efficiently data cube on stream data. Second, we were interested in combining frequent patterns and the use of hierarchies to build a summary based on the main trends of the stream. Third, even if it exists a lot of types of hierarchies in the literature, none of them integrates the expert knowledge during the generalization phase. However, such an integration could be very relevant to build semantically richer summaries. We tackled this issue and have proposed a new type of hierarchies, namely the contextual hierarchies. We provide with this new type of hierarchies a new conceptual, graphical and logical data warehouse model, namely the contextual data warehouse. Finally, since this work was founded by the ANR through the MIDAS project and thus, we had evaluated our approaches on real datasets provided by the industrial partners of this project (e.g., Orange Labs or EDF R&D)
Los estilos APA, Harvard, Vancouver, ISO, etc.
20

Masseglia, Florent. "Extraction de connaissances : réunir volumes de données et motifs significatifs". Habilitation à diriger des recherches, Université de Nice Sophia-Antipolis, 2009. http://tel.archives-ouvertes.fr/tel-00788309.

Texto completo
Resumen
L'analyse et la fouille des données d'usages sont indissociables de la notion d'évolution dynamique. Considérons le cas des sites Web, par exemple. Le dynamisme des usages sera lié au dynamisme des pages qui les concernent. Si une page est créée, et qu'elle présente de l'intérêt pour les utilisateurs, alors elle sera consultée. Si la page n'est plus d'actualité, alors les consultations vont baisser ou disparaître. C'est le cas, par exemple, des pages Web de conférences scientifiques qui voient des pics successifs de consultation lorsque les appels à communications sont diffusés, puis le jour de la date limite d'envoi des résumés, puis le jour de la date limite d'envoi des articles. Dans ce mémoire d'habilitation à diriger des recherches, je propose une synthèse des travaux que j'ai dirigés ou co-dirigés, en me basant sur des extraits de publications issues de ces travaux. La première contribution concerne les difficultés d'un processus de fouille de données basé sur le support minimum. Ces difficultés viennent en particulier des supports très bas, à partir desquels des connaissances utiles commencent à apparaître. Ensuite, je proposerai trois déclinaisons de cette notion d'évolution dans l'analyse des usages : l'évolution en tant que connaissance (des motifs qui expriment l'évolution) ; l'évolution des données (en particulier dans le traitement des flux de données) ; et l'évolution des comportements malicieux et des techniques de défense.
Los estilos APA, Harvard, Vancouver, ISO, etc.
21

Li, Haoyuan. "Extraction de séquences inattendues : des motifs séquentiels aux règles d'implication". Phd thesis, Université Montpellier II - Sciences et Techniques du Languedoc, 2009. http://tel.archives-ouvertes.fr/tel-00431117.

Texto completo
Resumen
Les motifs séquentiels peuvent être vus comme une extension de la notion d'itemsets fréquents intégrant diverses contraintes temporelles. La recherche de tels motifs consiste ainsi à extraire des enchaînements d'ensembles d'items, couramment associés sur une période de temps bien spécifiée. La construction de règles à partir de ces motifs séquentiels permet d'étendre la notion de règles d'association pour la pris en compte de la temporalité. En fait, cette recherche met en évidence des associations inter-transactions, contrairement à celle des règles d'association qui extrait des combinaisons intra-transactions. Ce problème, posé à l'origine dans un contexte de marketing, intéresse à présent des domaines aussi variés que les télécommunications, la finance, ou encore la médecine et la bioinformatique. Même s'il existe aujourd'hui de très nombreuses approches efficaces pour extraire des motifs, ces derniers ne sont pas forcément adaptés aux besoins des applications réelles. En fait, les résultats obtenus sont basés sur une mesure statistique et ne tiennent pas compte de la connaissance du domaine. De plus, ces approches sont principalement axées sur la recherche de tendances et ne permettent pas d'extraire des connaissances sur les éléments atypiques ou inattendus. Dans le cadre de cette thèse, nous nous intéressons donc à la problématique de l'extraction de motifs séquentiels et règles inattendus en intégrant la connaissance du domaine. Le travail présenté dans cette thèse comporte la mise en œuvre d'un cadre MUSE pour l'extraction de séquences inattendues par rapport à un système de croyances, des extensions avec la théorie de logique floue, l'intégration des données hiérarchisées, la définition des motifs séquentiels et règles inattendus et, enfin, l'extraction de phrases inattendues dans des documents textes. Des expérimentations menées sur des données synthétiques et sur des données réelles sont rapportées et montrent l'intérêt de nos propositions.
Los estilos APA, Harvard, Vancouver, ISO, etc.
22

Li, Dong Haoyuan. "Extraction de séquences inattendues : des motifs séquentiels aux règles d’implication". Montpellier 2, 2009. http://www.theses.fr/2009MON20253.

Texto completo
Resumen
Les motifs séquentiels peuvent être vus comme une extension de la notion d'itemsets fréquents intégrant diverses contraintes temporelles. La recherche de tels motifs consiste ainsi à extraire des enchaînements d'ensembles d'items, couramment associés sur une période de temps bien spécifiée. La construction de règles à partir de ces motifs séquentiels permet d'étendre la notion de règles d'association pour la pris en compte de la temporalité. En fait, cette recherche met en évidence des associations inter-transactions, contrairement à celle des règles d'association qui extrait des combinaisons intra-transactions. Ce problème, posé à l'origine dans un contexte de marketing, intéresse à présent des domaines aussi variés que les télécommunications, la finance, ou encore la médecine et la bioinformatique. Même s'il existe aujourd'hui de très nombreuses approches efficaces pour extraire des motifs, ces derniers ne sont pas forcément adaptés aux besoins des applications réelles. En fait, les résultats obtenus sont basés sur une mesure statistique et ne tiennent pas compte de la connaissance du domaine. De plus, ces approches sont principalement axées sur la recherche de tendances et ne permettent pas d'extraire des connaissances sur les éléments atypiques ou inattendus. Dans le cadre de cette thèse, nous nous intéressons donc à la problématique de l'extraction de motifs séquentiels et règles inattendus en intégrant la connaissance du domaine. Le travail présenté dans cette thèse comporte la mise en œuvre d'un cadre MUSE pour l'extraction de séquences inattendues par rapport à un système de croyances, des extensions avec la théorie de logique floue, l'intégration des données hi
The sequential patterns can be viewed as an extension of the notion of association rules with integrating temporal constraints, which are effective for representing statistical frequency based behaviors between the elements contained in sequence data, that is, the discovered patterns are interesting because they are frequent. However, with considering prior domain knowledge of the data, another reason why the discovered patterns are interesting is because they are unexpected. In this thesis, we investigate the problems in the discovery of unexpected sequences in large databases with respect to prior domain expertise knowledge. We first methodically develop the framework Muse with integrating the approaches to discover the three forms of unexpected sequences. We then extend the framework Muse by adopting fuzzy set theory for describing sequence occurrence. We also propose a generalized framework SoftMuse with respect to the concept hierarchies on the taxonomy of data. We further propose the notions of unexpected sequential patterns and unexpected implication rules, in order to evaluate the discovered unexpected sequences by using a self-validation process. We finally propose the discovery and validation of unexpected sentences in free format text documents. The usefulness and effectiveness of our proposed approaches are shown with the experiments on synthetic data, real Web server access log data, and text document classification
Los estilos APA, Harvard, Vancouver, ISO, etc.
23

Ståhl, Martin. "Extraction of recurring behavioral motifs from video recordings of natural behavior". Thesis, KTH, Skolan för teknikvetenskap (SCI), 2018. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-230894.

Texto completo
Resumen
Complex neural activity exhibits itself in various forms, one of which is behavior. Hence a natural way to study neural activity is to analyze behavior. In this thesis, behavior has been studied using a Gaussian hidden Markov model. The data has been gathered from video recordings of free roaming mice in a box. The model has trained on and classified mouse behavior. Classification with 4 and 6 states have been tried, the one with 6 states seems to make a distinction between two different stationary states which is biologically interesting. The conclusion is that the Gaussian hidden Markov model is a reasonable approach to mice behavior classification but it does not solve any fundamental problems. There are also some data gathering techniques that affect the results which need to be improved.
Komplex neural aktivitet utrycks i en mängd olika former, en av dessa är beteende. Det gör att ett naturligt sått att studera neural aktivitet är att analysera beteende. I den här uppsatsen så har beteende blivit studerat genom en dold Markov modell. Data har tagits från filmer av fritt springande möss i en låda. Modellen har framgångsrikt tränats på- och klassificerat mössbeteende. Klassificering med 4 och 6 tillstånd har testats, med 6 tillstånd verkar modellen göra en distinktion mellan två olika stationära tillstånd vilket är biologiskt intressant. Sammanfattningsvis är en gaussisk dold Markov modell ett rimligt sått att klassificera mössbeteende men det löser inga fundamentala problem. Det är också en del datainsamlingstekniker som skapat felaktigheter vilket behöver förbättras.
Los estilos APA, Harvard, Vancouver, ISO, etc.
24

Kane, Mouhamadou bamba. "Extraction et sélection de motifs émergents minimaux : application à la chémoinformatique". Thesis, Normandie, 2017. http://www.theses.fr/2017NORMC223/document.

Texto completo
Resumen
La découverte de motifs est une tâche importante en fouille de données. Cemémoire traite de l’extraction des motifs émergents minimaux. Nous proposons une nouvelleméthode efficace qui permet d’extraire les motifs émergents minimaux sans ou avec contraintede support ; contrairement aux méthodes existantes qui extraient généralement les motifs émergentsminimaux les plus supportés, au risque de passer à côté de motifs très intéressants maispeu supportés par les données. De plus, notre méthode prend en compte l’absence d’attributqui apporte une nouvelle connaissance intéressante.En considérant les règles associées aux motifs émergents avec un support élevé comme desrègles prototypes, on a montré expérimentalement que cet ensemble de règles possède unebonne confiance sur les objets couverts mais malheureusement ne couvre pas une bonne partiedes objets ; ce qui constitue un frein pour leur usage en classification. Nous proposons uneméthode de sélection à base de prototypes qui améliore la couverture de l’ensemble des règlesprototypes sans pour autant dégrader leur confiance. Au vu des résultats encourageants obtenus,nous appliquons cette méthode de sélection sur un jeu de données chimique ayant rapport àl’environnement aquatique : Aquatox. Cela permet ainsi aux chimistes, dans un contexte declassification, de mieux expliquer la classification des molécules, qui sans cette méthode desélection serait prédites par l’usage d’une règle par défaut
Pattern discovery is an important field of Knowledge Discovery in Databases.This work deals with the extraction of minimal emerging patterns. We propose a new efficientmethod which allows to extract the minimal emerging patterns with or without constraint ofsupport ; unlike existing methods that typically extract the most supported minimal emergentpatterns, at the risk of missing interesting but less supported patterns. Moreover, our methodtakes into account the absence of attribute that brings a new interesting knowledge.Considering the rules associated with emerging patterns highly supported as prototype rules,we have experimentally shown that this set of rules has good confidence on the covered objectsbut unfortunately does not cover a significant part of the objects ; which is a disavadntagefor their use in classification. We propose a prototype-based selection method that improvesthe coverage of the set of the prototype rules without a significative loss on their confidence.We apply our prototype-based selection method to a chemical data relating to the aquaticenvironment : Aquatox. In a classification context, it allows chemists to better explain theclassification of molecules, which, without this method of selection, would be predicted by theuse of a default rule
Los estilos APA, Harvard, Vancouver, ISO, etc.
25

Oudni, Amal. "Fouille de données par extraction de motifs graduels : contextualisation et enrichissement". Thesis, Paris 6, 2014. http://www.theses.fr/2014PA066437/document.

Texto completo
Resumen
Les travaux de cette thèse s'inscrivent dans le cadre de l'extraction de connaissances et de la fouille de données appliquée à des bases de données numériques ou floues afin d'extraire des résumés linguistiques sous la forme de motifs graduels exprimant des corrélations de co-variations des valeurs des attributs, de la forme « plus la température augmente, plus la pression augmente ». Notre objectif est de les contextualiser et de les enrichir en proposant différents types de compléments d'information afin d'augmenter leur qualité et leur apporter une meilleure interprétation. Nous proposons quatre formes de nouveaux motifs : nous avons tout d'abord étudié les motifs dits « renforcés », qui effectuent, dans le cas de données floues, une contextualisation par intégration d'attributs complémentaires, ajoutant des clauses introduites linguistiquement par l'expression « d'autant plus que ». Ils peuvent être illustrés par l'exemple « plus la température diminue, plus le volume de l'air diminue, d'autant plus que sa densité augmente ». Ce renforcement est interprété comme validité accrue des motifs graduels. Nous nous sommes également intéressées à la transposition de la notion de renforcement aux règles d'association classiques en discutant de leurs interprétations possibles et nous montrons leur apport limité. Nous proposons ensuite de traiter le problème des motifs graduels contradictoires rencontré par exemple lors de l'extraction simultanée des deux motifs « plus la température augmente, plus l'humidité augmente » et « plus la température augmente, plus l'humidité diminue ». Pour gérer ces contradictions, nous proposons une définition contrainte du support d'un motif graduel, qui, en particulier, ne dépend pas uniquement du motif considéré, mais aussi de ses contradicteurs potentiels. Nous proposons également deux méthodes d'extraction, respectivement basées sur un filtrage a posteriori et sur l'intégration de la contrainte du nouveau support dans le processus de génération. Nous introduisons également les motifs graduels caractérisés, définis par l'ajout d'une clause linguistiquement introduite par l'expression « surtout si » comme par exemple « plus la température diminue, plus l'humidité diminue, surtout si la température varie dans [0, 10] °C » : la clause additionnelle précise des plages de valeurs sur lesquelles la validité des motifs est accrue. Nous formalisons la qualité de cet enrichissement comme un compromis entre deux contraintes imposées à l'intervalle identifié, portant sur sa taille et sa validité, ainsi qu'une extension tenant compte de la densité des données.Nous proposons une méthode d'extraction automatique basée sur des outils de morphologie mathématique et la définition d'un filtre approprié et transcription
This thesis's works belongs to the framework of knowledge extraction and data mining applied to numerical or fuzzy data in order to extract linguistic summaries in the form of gradual itemsets: the latter express correlation between attribute values of the form « the more the temperature increases, the more the pressure increases ». Our goal is to contextualize and enrich these gradual itemsets by proposing different types of additional information so as to increase their quality and provide a better interpretation. We propose four types of new itemsets: first of all, reinforced gradual itemsets, in the case of fuzzy data, perform a contextualization by integrating additional attributes linguistically introduced by the expression « all the more ». They can be illustrated by the example « the more the temperature decreases, the more the volume of air decreases, all the more its density increases ». Reinforcement is interpreted as increased validity of the gradual itemset. In addition, we study the extension of the concept of reinforcement to association rules, discussing their possible interpretations and showing their limited contribution. We then propose to process the contradictory itemsets that arise for example in the case of simultaneous extraction of « the more the temperature increases, the more the humidity increases » and « the more the temperature increases, the less the humidity decreases ». To manage these contradictions, we define a constrained variant of the gradual itemset support, which, in particular, does not only depend on the considered itemset, but also on its potential contradictors. We also propose two extraction methods: the first one consists in filtering, after all itemsets have been generated, and the second one integrates the filtering process within the generation step. We introduce characterized gradual itemsets, defined by adding a clause linguistically introduced by the expression « especially if » that can be illustrated by a sentence such as « the more the temperature decreases, the more the humidity decreases, especially if the temperature varies in [0, 10] °C »: the additional clause precise value ranges on which the validity of the itemset is increased. We formalize the quality of this enrichment as a trade-off between two constraints imposed to identified interval, namely a high validity and a high size, as well as an extension taking into account the data density. We propose a method to automatically extract characterized gradual based on appropriate mathematical morphology tools and the definition of an appropriate filter and transcription
Los estilos APA, Harvard, Vancouver, ISO, etc.
26

Oudni, Amal. "Fouille de données par extraction de motifs graduels : contextualisation et enrichissement". Electronic Thesis or Diss., Paris 6, 2014. https://accesdistant.sorbonne-universite.fr/login?url=https://theses-intra.sorbonne-universite.fr/2014PA066437.pdf.

Texto completo
Resumen
Les travaux de cette thèse s'inscrivent dans le cadre de l'extraction de connaissances et de la fouille de données appliquée à des bases de données numériques ou floues afin d'extraire des résumés linguistiques sous la forme de motifs graduels exprimant des corrélations de co-variations des valeurs des attributs, de la forme « plus la température augmente, plus la pression augmente ». Notre objectif est de les contextualiser et de les enrichir en proposant différents types de compléments d'information afin d'augmenter leur qualité et leur apporter une meilleure interprétation. Nous proposons quatre formes de nouveaux motifs : nous avons tout d'abord étudié les motifs dits « renforcés », qui effectuent, dans le cas de données floues, une contextualisation par intégration d'attributs complémentaires, ajoutant des clauses introduites linguistiquement par l'expression « d'autant plus que ». Ils peuvent être illustrés par l'exemple « plus la température diminue, plus le volume de l'air diminue, d'autant plus que sa densité augmente ». Ce renforcement est interprété comme validité accrue des motifs graduels. Nous nous sommes également intéressées à la transposition de la notion de renforcement aux règles d'association classiques en discutant de leurs interprétations possibles et nous montrons leur apport limité. Nous proposons ensuite de traiter le problème des motifs graduels contradictoires rencontré par exemple lors de l'extraction simultanée des deux motifs « plus la température augmente, plus l'humidité augmente » et « plus la température augmente, plus l'humidité diminue ». Pour gérer ces contradictions, nous proposons une définition contrainte du support d'un motif graduel, qui, en particulier, ne dépend pas uniquement du motif considéré, mais aussi de ses contradicteurs potentiels. Nous proposons également deux méthodes d'extraction, respectivement basées sur un filtrage a posteriori et sur l'intégration de la contrainte du nouveau support dans le processus de génération. Nous introduisons également les motifs graduels caractérisés, définis par l'ajout d'une clause linguistiquement introduite par l'expression « surtout si » comme par exemple « plus la température diminue, plus l'humidité diminue, surtout si la température varie dans [0, 10] °C » : la clause additionnelle précise des plages de valeurs sur lesquelles la validité des motifs est accrue. Nous formalisons la qualité de cet enrichissement comme un compromis entre deux contraintes imposées à l'intervalle identifié, portant sur sa taille et sa validité, ainsi qu'une extension tenant compte de la densité des données.Nous proposons une méthode d'extraction automatique basée sur des outils de morphologie mathématique et la définition d'un filtre approprié et transcription
This thesis's works belongs to the framework of knowledge extraction and data mining applied to numerical or fuzzy data in order to extract linguistic summaries in the form of gradual itemsets: the latter express correlation between attribute values of the form « the more the temperature increases, the more the pressure increases ». Our goal is to contextualize and enrich these gradual itemsets by proposing different types of additional information so as to increase their quality and provide a better interpretation. We propose four types of new itemsets: first of all, reinforced gradual itemsets, in the case of fuzzy data, perform a contextualization by integrating additional attributes linguistically introduced by the expression « all the more ». They can be illustrated by the example « the more the temperature decreases, the more the volume of air decreases, all the more its density increases ». Reinforcement is interpreted as increased validity of the gradual itemset. In addition, we study the extension of the concept of reinforcement to association rules, discussing their possible interpretations and showing their limited contribution. We then propose to process the contradictory itemsets that arise for example in the case of simultaneous extraction of « the more the temperature increases, the more the humidity increases » and « the more the temperature increases, the less the humidity decreases ». To manage these contradictions, we define a constrained variant of the gradual itemset support, which, in particular, does not only depend on the considered itemset, but also on its potential contradictors. We also propose two extraction methods: the first one consists in filtering, after all itemsets have been generated, and the second one integrates the filtering process within the generation step. We introduce characterized gradual itemsets, defined by adding a clause linguistically introduced by the expression « especially if » that can be illustrated by a sentence such as « the more the temperature decreases, the more the humidity decreases, especially if the temperature varies in [0, 10] °C »: the additional clause precise value ranges on which the validity of the itemset is increased. We formalize the quality of this enrichment as a trade-off between two constraints imposed to identified interval, namely a high validity and a high size, as well as an extension taking into account the data density. We propose a method to automatically extract characterized gradual based on appropriate mathematical morphology tools and the definition of an appropriate filter and transcription
Los estilos APA, Harvard, Vancouver, ISO, etc.
27

Millioz, Fabien. "Deux approches de segmentation temps-fréquence : détection par modèle statistique et extraction de contour par le champ de vecteurs de réallocation". Phd thesis, Grenoble INPG, 2009. http://tel.archives-ouvertes.fr/tel-00421599.

Texto completo
Resumen
Les représentation temps-fréquence montrent l'évolution spectral d'un signal dans le temps. L'objectif de ces travaux de recherche est de proposer deux principes de segmentation du plan temps-fréquence, cherchant à déterminer quelles sont les zones temps-fréquence présentant un intérêt relatif au signal analysé.

La première méthode s'appuie sur une méthode statistique, modélisant le signal analysé par un signal d'intérêt à segmenter perturbé par un bruit blanc gaussien additif de variance inconnue. Le but est de déterminer le support temps-fréquence, ensemble des points sur lesquels l'énergie du signal à segmenter est répartie. Une détection de type Neyman-Pearson à probabilité de fausse alarme fixée permet de détecter les points temps-fréquence contenant du signal, à niveau de bruit connu. L'algorithme proposé est itératif, estimant le niveau de bruit à partir des points non segmentés, ce niveau de bruit servant à détecter de nouveaux points contenant du signal. Un critère basé sur le kurtosis spectral des points non segmentés permet de définir l'arrêt des itérations.

La seconde méthode est basée sur le principe de la réallocation du spectrogramme, en tant que source d'information sur le spectrogramme. La réallocation déplace l'énergie du spectrogramme sur le centre de gravité local de l'énergie. Aux frontière d'un motif temps-fréquence, l'énergie sera déplacée vers l'intérieur du motif. Ainsi, les vecteur
s de réallocation, décrivant le déplacement de l'énergie du pectrogramme par la réallocation, sont localement parallèles sur la frontière d'un motif. Nous définissons alors un « degré de parallélisme » pour chaque vecteur, égal au nombre de ses vecteurs voisins qui lui sont parallèles. Un algorithme de type suivi de crête, parcourant le plan temps-fréquence en suivant les maximums de ce degré de parallélisme, construit alors un contour entourant le motif temps-fréquence.
Los estilos APA, Harvard, Vancouver, ISO, etc.
28

Millioz, Fabien. "Deux approches de segmentation temps-fréquence : détection par modèle statistique et extraction de contour par le champ de vecteurs de réallocation". Phd thesis, Grenoble INPG, 2009. http://www.theses.fr/2009INPG0040.

Texto completo
Resumen
Les représentation temps-fréquence montrent l'évolution spectral d'un signal dans le temps. L'objectif de ces travaux de recherche est de proposer deux principes de segmentation du plan temps-fréquence, cherchant à déterminer quelles sont les zones temps-fréquence présentant un intérêt relatif au signal analysé. La première méthode s'appuie sur une méthode statistique, modélisant le signal analysé par un signal d'intérêt à segmenter perturbé par un bruit blanc gaussien additif de variance inconnue. Le but est de déterminer le support temps-fréquence, ensemble des points sur lesquels l'énergie du signal à segmenter est répartie. Une détection de type Neyman-Pearson à probabilité de fausse alarme fixée permet de détecter les points temps-fréquence contenant du signal, à niveau de bruit connu. L'algorithme proposé est itératif, estimant le niveau de bruit à partir des points non segmentés, ce niveau de bruit servant à détecter de nouveaux points contenant du signal. Un critère basé sur le kurtosis spectral des points non segmentés permet de définir l'arrêt des itérations. La seconde méthode est basée sur le principe de la réallocation du spectrogramme, en tant que source d'information sur le spectrogramme. La réallocation déplace l'énergie du spectrogramme sur le centre de gravité local de l'énergie. Aux frontière d'un motif temps-fréquence, l'énergie sera déplacée vers l'intérieur du motif. Ainsi, les vecteurs de réallocation, décrivant le déplacement de l'énergie du pectrogramme par la réallocation, sont localement parallèles sur la frontière d'un motif. Nous définissons alors un « degré de parallélisme » pour chaque vecteur, égal au nombre de ses vecteurs voisins qui lui sont parallèles. Un algorithme de type suivi de crête, parcourant le plan temps-fréquence en suivant les maximums de ce degré de parallélisme, construit alors un contour entourant le motif temps-fréquence
Time-frequency representations show the spectral evolution of a signal in time. The goals of this work is to propose two segmentation principles of time-frequency plane, trying to determine the time-frequency areas which present an interest in relation to the analyzed signal. The first method is based on a statistical method, taking as a model of the analyzed signal the sum of a signal of interest to segment and a white Gaussian noise of unknown variance. The aim is to determine the time-frequency support, that is all the points on which the energy of the signal to segment is distributed. A Neyman-Pearson detection with a given probability of false alarm can detect the time-frequency points containing signal for a known noise level. The proposed algorithm is iterative, estimating the noise level from non-segmented points, this noise level permitting to detect new points containing signal. A criterion based on the spectral kurtosis of non-segmented points define the moment to stop the iterations. The application of this method are illustrated on synthetic and real signals, and for different time-frequency representations. The second method is based on the principle of the reassignment of the spectrogram, not as a reassigned time-frequency representation, but only as a source of information on the spectrogram. The reassignment shifts the energy spectrogram to the local center of gravity of the energy. On the boundary of a time-frequency pattern, energy will be moved inside the pattern. Thus, the reassignment vectors describing the displacement of the energy spectrogram by the reassignment are locally parallel on the boundary of a pattern. We then define a "parallelism degree" for each vector, being the number of its neighboring vectors which are parallel to it. A tracking algorithm searching for the maxima of the parallelism degree along the time-frequency plane built finally a closed contour encircling the time-frequency pattern
Los estilos APA, Harvard, Vancouver, ISO, etc.
29

Au, Émilie. "Intégration de la sémantique dans la représentation de documents par les arbres de dépendances syntaxiques". Mémoire, Université de Sherbrooke, 2011. http://savoirs.usherbrooke.ca/handle/11143/4938.

Texto completo
Resumen
De nombreuses applications dans le domaine de la recherche d'information voient leur performance influencée par le modèle de représentation de documents. En effet, théoriquement, meilleure est la modélisation, meilleure sera la performance de l'application qui exploite la modélisation. Or la modélisation"parfaite" d'un document est celle qui utilise l'intégralité des théories linguistiques. Cependant, en pratique, celles-ci sont difficiles à traduire sous forme de traitements informatiques. Néanmoins, il existe des modèles qui s'appuient partiellement sur ces théories comme les modèles vectoriels classiques, les modèles par séquences de mots ou encore les chaînes lexicales. Ces précédents modèles exploitent, soit l'information syntaxique, soit l'information sémantique. D'autres modèles plus raffinés exploitent à la fois l'information syntaxique et sémantique mais sont appliqués dans un contexte spécifique. Dans cette étude, nous proposons une nouvelle modélisation de documents dans un contexte général qui considère simultanément l'information syntaxique et sémantique. Notre modèle est une combinaison de deux composantes, l'une syntaxique représentée par les arbres de dépendances syntaxiques obtenus à l'aide d'un analyseur de dépendances syntaxiques, l'autre sémantique représentée par le sens des mots dans leur contexte obtenu grâce à une méthode de désambiguïsation du sens. Dans ce modèle, chaque document est représenté par un ensemble de concepts fréquents formé de sous-arbres ayant les mêmes dépendances syntaxiques et étant sémantiquement proches. L'extraction de tels concepts est réalisée à l'aide d'un algorithme de forage d'arbres FREQT. Notre modèle sera évalué sur une application de clustering de documents des collections Reuters, 20 newsgroups et Ohsumed. La mesure du cosinus valable pour un modèle vectoriel a été utilisée pour définir la mesure de similarité entre les documents. Contrairement au modèle vectoriel, l'espace vectoriel considéré n'est pas engendré par l'ensemble des mots fréquents mais par l'ensemble des concepts fréquents. Les résultats expérimentaux obtenus montrent que l'intégration de l'information sémantique dans le modèle basé sur les arbres de dépendances syntaxiques contribue à améliorer la qualité des clusters.
Los estilos APA, Harvard, Vancouver, ISO, etc.
30

Lhote, Loïck. "l'algorithmique: la fouille de données et l'arithmétique". Phd thesis, Université de Caen, 2006. http://tel.archives-ouvertes.fr/tel-00092862.

Texto completo
Resumen
Cette thèse aborde deux domaines de l'algorithmique: la fouille de données et l'arithmétique. Le point de vue adopté est celui de l'analyse en moyenne et, plus précisément, celui de l'analyse dynamique, qui combine des méthodes d'analyse d'algorithmes et des systèmes dynamiques. Les algorithmes de type Euclide calculent le pgcd de deux nombres; ce sont donc des briques de base du calcul formel, mais leur comportement probabiliste fin reste encore mal connu. Tout récemment, les méthodes dynamiques ont permis des avancées significatives dans ce domaine. Nous étendons cette approche à l'analyse fine d'autres paramètres, comme la complexité binaire et la taille des restes. Ces paramètres s'avèrent essentiels pour l'analyse de l'algorithme de type diviser pour régner introduit par Knuth et Schönhage. Nous utilisons également l'analyse dynamique dans le calcul prouvé de grandeurs spectrales. L'approche dynamique s'adapte aussi à l'algorithme d'Euclide sur les polynômes, même si, dans ce cas, les méthodes de la combinatoire analytique classique s'appliquent déjà. Nous abordons également la fouille de données. Nous nous limitons à des bases de données binaires où la connaissance se représente sous forme de 'motifs fréquents'. Le nombre de ces motifs est un paramètre essentiel pour les algorithmes. D'après les expérimentations, il varie considérablement selon les paramètres de la base, et l'analyse dans le pire des cas n'est donc pas significative en pratique. Dans cette thèse, nous élucidons le comportement moyen du nombre de motifs fréquents dans un modèle très général, où les bases sont contruites à partir de sources possiblement corrélées.
Los estilos APA, Harvard, Vancouver, ISO, etc.
31

Tofan, Radu-Ionel. "Bordures : de la sélection de vues dans un cube de données au calcul parallèle de fréquents maximaux". Thesis, Bordeaux 1, 2010. http://www.theses.fr/2010BOR14073/document.

Texto completo
Resumen
La matérialisation de vues est une technique efficace d'optimisation de requêtes. Dans cette thèse, nous proposons une nouvelle vision "orientée utilisateur" de solutions pour le problème de sélection de vues à matérialiser dans les entrepôt de données : l'utilisateur fixe le temps de réponse maximal. Dans cette vision nous proposons des algorithmes qui s'avèrent compétitifs avec les algorithmes de type "orienté système", dans lesquels les ressources, comme la mémoire, sont considérées comme la contrainte forte. L'approche "orientée utilisateur" est étudiée avec un contexte dynamique de système d'optimisation de requêtes. Nous analysons la stabilité de ce système par rapport à la dynamique de la charge de requêtes et des données qui sont insérées ou supprimées. Le concept clé de nos algorithmes de sélection de vues à matérialiser est la bordure. Ce concept a été très étudié en fouille de données dans le cadre du calcul des fréquents maximaux. Plusieurs algorithmes séquentiels ont été proposés pour résoudre ce problème. Nous proposons un nouvel algorithme séquentiel MineWithRounds, facilement parallélisable, qui se distingue des autres propositions par une garantie théorique d'accélération dans le cas de machines à plusieurs unités de calcul et à mémoire partagée
The materialization of views is an effective technique for optimizing queries. In this thesis, we propose a new vision, we qualify it as "user oriented", of the solutions to the problem of selecting views to materialize in data warehouses : the user fixes the maximum response time. In this vision, we propose algorithms that are competitive with the algorithms "oriented system" type, where resources such as memory, are considered as the major constraint. The "user oriented" approach is studied under a dynamic context. We analyze the stability of this system with respect to the dynamic query workload dynamic as well as data dynamic (insertions and deletions). The key concept of our algorithms for selecting views to materialize is the border. This concept has been widely studied in the data mining community under the maximal frequent itemset extration setting. Many sequential algorithms have been proposed. We propose a new sequential algorithm MineWithRounds, easily parallelizable, which differs from the others in that it guarantees a theoretical speed up in the case of multiprocessors shared memory case
Los estilos APA, Harvard, Vancouver, ISO, etc.
32

Leleu, Marion. "Extraction de motifs séquentiels sous contraintes dans des données contenant des répétitions consécutives". Lyon, INSA, 2004. http://theses.insa-lyon.fr/publication/2004ISAL0001/these.pdf.

Texto completo
Resumen
Un axe de recherche typique du data mining, et qui nous concerne dans cette thèse, est la recherche de régularités dans des bases de séquences (e. G. , séquences d'achats, de navigation, d'ADN). De nombreux algorithmes ont été proposés pour traiter l'extraction de motifs séquentiels satisfaisant des contraintes variées. Parmi ceux existants, certains exploitent une représentation en mémoire des positions des motifs (listes d'occurences), ce qui permet de réduire les coûts liés aux accès disque lors de l'exécution d'un processus. Cependant, leurs performances peuvent être grandement améliorées lorsque ces données comportent des répétitions consécutives, c'est-à-dire, en quelque sorte, une redondance de certaines informations dans le temps. Par exemple, un client peut acheter plusieurs fois le même article lors d'achats successifs, la même erreur peut se reproduire plusieurs fois d'affilé sur un réseau informatique, ou encore, comme c'est le cas dans notre contexte d'application (traitement de données financières où l'évolution de produits boursiers est représentée par des séquences d'évènements), lorsque les séquences sont construites à partir de données quantitatives discrétisées. Dans cette thèse, nous tentons d'apporter des solutions efficaces au problème de l'extraction, contrainte ou non, de motifs séquentiels, dans le cas de données contenant des répétitions consécutives. Celles-ci s'appuient sur une généralisation des listes d'occurences et proposent de condenser les informations qu'elles contiennent, sans perte pour les extractions. Cette nouvelle représentation a donné lieu aux développements d'extracteurs de motifs séquentiels, GoSpade (traitement de la seule contrainte de fréquence minimum) et GoSpec (traitement de contraintes temporelles), particulièrement bien adaptés à la présence de répétitions consécutives dans les données. Les algorithmes correspondants ont respectivement fait l'objet d'une démonstration de justesse et de complétude afin d'assurer la correction des résultats qu'ils retournent. De plus, il a été montré, par des expérimentations sur des jeux de données réelles et synthétiques, que ces extracteurs présentaient une nette amélioration des performances en présence de répétitions consécutives. Les gains obtenus, en terme d'espace mémoire et de temps d'exécution, permettent de travailler sur des volumes de données plus importants et à des seuils de fréquence plus faibles, dans des temps raisonnables. Enfin, une application dans le domaine des marchés financiers, visant à construire une représentation synthétique de différentes tendances boursières sous forme de motifs séquentiels caractéristiques, a été effectuée. Nous avons pu montrer que des motifs fréquents constituant une tendance contiennent une information qui est bien spécifique de la tendance représentée
This PhD Thesis concerns the particular data mining field that is the sequential pattern extractions from event sequence databases (e. G. Customer transaction sequences, web logs, DNA). Among existing algorithms, those based on the use of a representation in memory of the pattern locations (called occurrence lists), present a lost of efficiency when the sequences contain consecutive repetitions. This PhD Thesis proposes some efficient solutions to the sequential pattern extraction in such a context (constraints and repetitions) based on a condensation of informations contained in the occurrence lists, without lost for the extraction process. This new representation leads to new sequential pattern extraction algorithms (GoSpade and GoSpec) particularly well adapted to the presence of consecutive repetitions in the datasets. These algorithms have been proved to be sound and complete and experiments on both real and synthetic datasets enabled to show that the gain in term of memory space and execution time is important and that they increase with the number of consecutive repetitions contained in the datasets. Finally, a financial application has been performed in order to make a condensed representation of market trends by means of frequent sequential patterns
Los estilos APA, Harvard, Vancouver, ISO, etc.
33

Leleu, Marion Boulicaut Jean-François. "Extraction de motifs séquentiels sous contraintes dans des données contenant des répétitions consécutives". Villeurbanne : Doc'INSA, 2005. http://docinsa.insa-lyon.fr/these/pont.php?id=leleu.

Texto completo
Los estilos APA, Harvard, Vancouver, ISO, etc.
34

Shah, Faaiz Hussain. "Gradual Pattern Extraction from Property Graphs". Thesis, Montpellier, 2019. http://www.theses.fr/2019MONTS025/document.

Texto completo
Resumen
Les bases de données orientées graphes (NoSQL par exemple) permettent de gérer des données dans lesquelles les liens sont importants et des requêtes complexes sur ces données à l’aide d’un environnement dédié offrant un stockage et des traitements spécifiquement destinés à la structure de graphe. Un graphe de propriété dans un environnement NoSQL est alors vu comme un graphe orienté étiqueté dans lequel les étiquettes des nœuds et les relations sont des ensembles d’attributs (propriétés) de la forme (clé:valeur). Cela facilite la représentation de données et de connaissances sous la forme de graphes. De nombreuses applications réelles de telles bases de données sont actuellement connues dans le monde des réseaux sociaux, mais aussi des systèmes de recommandation, de la détection de fraudes, du data-journalisme (pour les panama papers par exemple). De telles structures peuvent cependant être assimilées à des bases NoSQL semi-structurées dans lesquelles toutes les propriétés ne sont pas présentes partout, ce qui conduit à des valeurs non présentes de manière homogène, soit parce que la valeur n’est pas connue (l’âge d’une personne par exemple) ou parce qu’elle n’est pas applicable (l’année du service militaire d’une femme par exemple dans un pays et à une époque à laquelle les femmes ne le faisaient pas). Cela gêne alors les algorithmes d’extraction de connaissance qui ne sont pas tous robustes aux données manquantes. Des approches ont été proposées pour remplacer les données manquantes et permettre aux algorithmes d’être appliqués. Cependant,nous considérons que de telles approches ne sont pas satisfaisantes car elles introduisent un biais ou même des erreurs quand aucune valeur n’était applicable. Dans nos travaux, nous nous focalisons sur l’extraction de motifs graduels à partir de telles bases de données. Ces motifs permettent d’extraire automatiquement les informations corrélées. Une première contribution est alors de définir quels sont les motifs pouvant être extraits à partir de telles bases de données. Nous devons, dans un deuxième temps, étendre les travaux existant dans la littérature pour traiter les valeurs manquantes dans les bases de données graphe, comme décrit ci-dessus. L’application de telles méthodes est alors rendue difficile car les propriétés classiquement appliquées en fouille de données (anti-monotonie) ne sont plus valides. Nous proposons donc une nouvelle approche qui est testée sur des données réelles et synthétiques. Une première forme de motif est extrait à partir des propriétés des nœuds et est étendue pour prendre en compte les relations entre nœuds. Enfin, notre approche est étendue au cas des motifs graduels flous afin de mieux prendre en compte la nature imprécise des connaissances présentes et à extraire. Les expérimentations sur des bases synthétiques ont été menées grâce au développement d’un générateur de bases de données de graphes de propriétés synthétiques. Nous en montrons les résultats en termes de temps calcul et consommation mémoire ainsi qu’en nombre de motifs générés
Graph databases (NoSQL oriented graph databases) provide the ability to manage highly connected data and complex database queries along with the native graph-storage and processing. A property graph in a NoSQL graph engine is a labeled directed graph composed of nodes connected through relationships with a set of attributes or properties in the form of (key:value) pairs. It facilitates to represent the data and knowledge that are in form of graphs. Practical applications of graph database systems have been seen in social networks, recommendation systems, fraud detection, and data journalism, as in the case for panama papers. Often, we face the issue of missing data in such kind of systems. In particular, these semi-structured NoSQL databases lead to a situation where some attributes (properties) are filled-in while other ones are not available, either because they exist but are missing (for instance the age of a person that is unknown) or because they are not applicable for a particular case (for instance the year of military service for a girl in countries where it is mandatory only for boys). Therefore, some keys can be provided for some nodes and not for other ones. In such a scenario, when we want to extract knowledge from these new generation database systems, we face the problem of missing data that arise need for analyzing them. Some approaches have been proposed to replace missing values so as to be able to apply data mining techniques. However, we argue that it is not relevant to consider such approaches so as not to introduce biases or errors. In our work, we focus on the extraction of gradual patterns from property graphs that provide end-users with tools for mining correlations in the data when there exist missing values. Our approach requires first to define gradual patterns in the context of NoSQL property graph and then to extend existing algorithms so as to treat the missing values, because anti-monotonicity of the support can not be considered anymore in a simple manner. Thus, we introduce a novel approach for mining gradual patterns in the presence of missing values and we test it on real and synthetic data. Further to this work, we present our approach for mining such graphs in order to extract frequent gradual patterns in the form of ``the more/less $A_1$,..., the more/less $A_n$" where $A_i$ are information from the graph, should it be from the nodes or from the relationships. In order to retrieve more valuable patterns, we consider fuzzy gradual patterns in the form of ``The more/less the A_1 is F_1,...,the more/less the A_n is F_n" where A_i are attributes retrieved from the graph nodes or relationships and F_i are fuzzy descriptions. For this purpose, we introduce the definitions of such concepts, the corresponding method for extracting the patterns, and the experiments that we have led on synthetic graphs using a graph generator. We show the results in terms of time utilization, memory consumption and the number of patterns being generated
Los estilos APA, Harvard, Vancouver, ISO, etc.
35

Hébert, Céline. "Extraction et usages de motifs minimaux en fouille de données, contribution au domaine des hypergraphes". Phd thesis, Université de Caen, 2007. http://tel.archives-ouvertes.fr/tel-00253794.

Texto completo
Resumen
La découverte et l'interprétation de motifs et de règles sont deux tâches centrales en extraction de connaissances dans les bases de données. Cette thèse traite de l'extraction et des usages de motifs minimaux à la fois en fouille de données et dans le domaine des hypergraphes. D'une part, nous proposons une méthode efficace pour la découverte de motifs delta-libres dans les données larges, malgré les difficultés algorithmiques inhérentes à ce type de données. Cette méthode repose sur l'utilisation de l'extension des motifs et d'un nouveau critère d'élagage. D'autre part, nous nous intéressons à la qualité des règles d'associations et nous présentons un cadre générique qui permet de mieux comprendre les similarités et différences entre mesures. Il montre que de nombreuses mesures (appelées SBMs pour Simultaneously Bounded Measures) ont des comportements proches. Ce résultat permet de garantir des valeurs minimales pour toutes les SBMs et la production de règles de qualité par rapport à l'ensemble de ces mesures. Enfin, l'apport des méthodes de type <> pour d'autres domaines est mis en évidence. Nous montrons que notre approche de découverte de motifs dans les données larges est exploitable pour calculer efficacement les traverses minimales d'un hypergraphe, un problème réputé comme particulièrement difficile. Différentes applications, notamment en biologie, montrent l'intérêt pratique de nos méthodes.
Los estilos APA, Harvard, Vancouver, ISO, etc.
36

Teisseire, Maguelonne. "Autour et alentours des motifs séquentiels". Habilitation à diriger des recherches, Université Montpellier II - Sciences et Techniques du Languedoc, 2007. http://tel.archives-ouvertes.fr/tel-00203628.

Texto completo
Resumen
Parmi les techniques utilisées en fouille de données, la recherche de motifs séquentiels permet d'extraire des connaissances sur le comportement des données. Les principaux travaux de recherche autour des motifs s'intéressent à la définition d'algorithmes efficaces pour « passer à l'échelle » et manipuler un espace de recherche volumineux. Même si ces dernières années nous nous sommes également intéressés au facteur temps pour l'extraction de motifs, les travaux présentés dans ce mémoire se focalisent plus particulièrement sur de nouvelles extensions proposées aux motifs afin d'offrir des connaissances correspondant aux attentes du décideur. Tout d'abord nous proposons une représentation des données « classiques » (i.e. booléennes) en développant les définitions de motifs séquentiels que nous avons choisis comme format de description des comportements extraits. Nous répondons ensuite, au travers de l'approche ISE, à la question suivante : comment utiliser une connaissance extraite au préalable pour optimiser la phase d'extraction lorsque de nouvelles données arrivent ? Nous proposons également une représentation moins stricte des comportements et définissons les méthodes d'extraction associées (approche approximative) : SpeedyFuzzy, MiniFuzzy et TotallyFuzzy. Via une composante floue, nous montrons que de nouveaux motifs plus informatifs peuvent être extraits. Nous poursuivons l'utilisation de l'approche approximative pour prendre en compte des contraintes temporelles dans des motifs : GETC. Cette approche complète nos précédents travaux consistant à intégrer très tôt les contraintes dans le processus d'extraction et ainsi optimiser leur prise en compte : GTC.
Lorsque les données manipulées deviennent plus complexes, nous montrons que les motifs s'avèrent être également une représentation adaptée. Nous nous attachons à décrire certaines de nos propositions sur deux types de données complexes : (1) pour les documents textuels, nous proposons une approche de classification supervisée SPAC et (2) pour les données multidimensionnelles, nous présentons deux nouvelles techniques permettant de prendre en compte différentes dimensions d'analyse, M2SP, et la hiérarchie disponible sur les dimensions : HYPE.
Los estilos APA, Harvard, Vancouver, ISO, etc.
37

Al-Najdi, Atheer. "Une approche basée sur les motifs fermés pour résoudre le problème de clustering par consensus". Thesis, Université Côte d'Azur (ComUE), 2016. http://www.theses.fr/2016AZUR4111/document.

Texto completo
Resumen
Le clustering est le processus de partitionnement d’un ensemble de données en groupes, de sorte que les instances du même groupe sont plus semblables les unes aux autres qu’avec celles de tout autre groupe. De nombreux algorithmes de clustering ont été proposés, mais aucun d’entre eux ne s’avère fournir une partitiondes données pertinente dans toutes les situations. Le clustering par consensus vise à améliorer le processus de regroupement en combinant différentes partitions obtenues à partir de divers algorithmes afin d’obtenir une solution de consensus de meilleure qualité. Dans ce travail, une nouvelle méthode de clustering par consensus, appelée MultiCons, est proposée. Cette méthode utilise la technique d’extraction des itemsets fréquents fermés dans le but de découvrir les similitudes entre les différentes solutions de clustering dits de base. Les similitudes identifiées sont représentées sous une forme de motifs de clustering, chacun définissant un accord entre un ensemble de clusters de bases sur le regroupement d’un ensemble d’instances. En traitant ces motifs par groupes, en fonction du nombre de clusters de base qui définissent le motif, la méthode MultiCons génère une solution de consensus pour chaque groupe, générant par conséquence plusieurs consensus candidats. Ces différentes solutions sont ensuite représentées dans une structure arborescente appelée arbre de consensus, ouConsTree. Cette représentation graphique facilite la compréhension du processus de construction des multiples consensus, ainsi que les relations entre les instances et les structures d’instances dans l’espace de données
Clustering is the process of partitioning a dataset into groups, so that the instances in the same group are more similar to each other than to instances in any other group. Many clustering algorithms were proposed, but none of them proved to provide good quality partition in all situations. Consensus clustering aims to enhance the clustering process by combining different partitions obtained from different algorithms to yield a better quality consensus solution. In this work, a new consensus clustering method, called MultiCons, is proposed. It uses the frequent closed itemset mining technique in order to discover the similarities between the different base clustering solutions. The identified similarities are presented in a form of clustering patterns, that each defines the agreement between a set of base clusters in grouping a set of instances. By dividing these patterns into groups based on the number of base clusters that define the pattern, MultiCons generates a consensussolution from each group, resulting in having multiple consensus candidates. These different solutions are presented in a tree-like structure, called ConsTree, that facilitates understanding the process of building the multiple consensuses, and also the relationships between the data instances and their structuring in the data space. Five consensus functions are proposed in this work in order to build a consensus solution from the clustering patterns. Approach 1 is to just merge any intersecting clustering patterns. Approach 2 can either merge or split intersecting patterns based on a proposed measure, called intersection ratio
Los estilos APA, Harvard, Vancouver, ISO, etc.
38

Laurent, Anne. "Fouille de données complexes et logique floue : extraction de motifs à partir de bases de données multidimensionnelles". Habilitation à diriger des recherches, Université Montpellier II - Sciences et Techniques du Languedoc, 2009. http://tel.archives-ouvertes.fr/tel-00413140.

Texto completo
Resumen
Ce mémoire décrit mes activités de recherche et d'animation de recherche depuis ma thèse, soutenue en 2002. Les travaux décrits ici ont été principalement menés au LIRMM (Université Montpellier 2, CNRS UMR 5506), au sein de l'équipe TATOO. Dans ce contexte, je me suis attachée à concilier des visions trop souvent vues comme divergentes au sein des communautés liées à la fouille de données complexes : gérer l'approximation (à la fois dans les données et dans les résultats produits), la fouille de données et les bases de données complexes et volumineuses, notamment les entrepôts de données. Plus précisément, mes travaux visent à montrer qu'il est possible de relever le défi jusqu'à présent non totalement solutionné d'extraire des connaissances exploitables par les experts non informaticiens à partir d'entrepôts de données, en prenant en compte au mieux les particularités de ce domaine. En particulier, j'ai porté d'une part une grande attention à exploiter la dimension temporelle des entrepôts et d'autre part à montrer autant que faire se peut que flou et passage à l'échelle ne sont pas des notions antagonistes. Dans cet objectif, j'ai mené, dirigé, encadré et valorisé à travers des collaborations scientifiques et industrielles des travaux dont je rapporte ici une synthèse.
Los estilos APA, Harvard, Vancouver, ISO, etc.
39

Fabregue, Mickael. "Extraction d'informations synthétiques à partir de données séquentielles : application à l'évaluation de la qualité des rivières". Thesis, Strasbourg, 2014. http://www.theses.fr/2014STRAD016/document.

Texto completo
Resumen
L'exploration des bases de données temporelles à l'aide de méthodes de fouille de données adaptées a fait l'objet de nombreux travaux de recherche. Cependant le volume d'informations extraites est souvent important et la tâche d'analyse reste alors difficile. Dans cette thèse, nous présentons des méthodes pour synthétiser et filtrer l'information extraite. L'objectif est de restituer des résultats qui soient interprétables. Pour cela, nous avons exploité la notion de séquence partiellement ordonnée et nous proposons (1) un algorithme qui extrait l'ensemble des motifs partiellement ordonnés clos; (2) un post-traitement pour filtrer un ensemble de motifs d'intérêt et(3) une approche qui extrait un consensus comme alternative à l'extraction de motifs. Les méthodes proposées ont été testées sur des données hydrobiologiques issues du projet ANR Fresqueau et elles ont été implantées dans un logiciel de visualisation destiné aux hydrobiologistes pour l'analyse de la qualité des cours d'eau
Exploring temporal databases with suitable data mining methods have been the subject of several studies. However, it often leads to an excessive volume of extracted information and the analysis is difficult for the user. We addressed this issue and we specically focused on methods that synthesize and filter extracted information. The objective is to provide interpretable results for humans. Thus, we relied on the notion of partially ordered sequence and we proposed (1) an algorithm that extracts the set of closed partially ordered patterns ; (2) a post-processing to filter some interesting patterns for the user and (3) an approach that extracts a partially ordered consensus as an alternative to pattern extraction. The proposed methods were applied for validation on hydrobiological data from the Fresqueau ANR project. In addition, they have been implemented in a visualization tool designed for hydrobiologists for water course quality analysis
Los estilos APA, Harvard, Vancouver, ISO, etc.
40

Egho, Elias. "Extraction de motifs séquentiels dans des données séquentielles multidimensionnelles et hétérogènes : une application à l'analyse de trajectoires de patients". Thesis, Université de Lorraine, 2014. http://www.theses.fr/2014LORR0066/document.

Texto completo
Resumen
Tous les domaines de la science et de la technologie produisent de gros volume de données hétérogènes. L'exploration de tels volumes de données reste toujours un défi. Peu de travaux ciblent l'exploration et l'analyse de données séquentielles multidimensionnelles et hétérogènes. Dans ce travail, nous proposons une contribution à la découverte de connaissances dans les données séquentielles hétérogènes. Nous étudions trois axes de recherche différents: (i) l'extraction de motifs séquentiels, (ii) la classification et (iii) le clustering des données séquentielles. Tout d'abord, nous généralisons la notion de séquence multidimensionnelle en considérant la structure complexe et hétérogène. Nous présentons une nouvelle approche MMISP pour extraire des motifs séquentiels à partir de données séquentielles multidimensionnelles et hétérogènes. MMISP génère un grand nombre de motifs séquentiels comme cela est généralement le cas pour toues les algorithmes d'énumération des motifs. Pour surmonter ce problème, nous proposons une nouvelle façon de considérer les séquences multidimensionnelles hétérogènes en les associant à des structures de patrons. Nous développons une méthode pour énumérer seulement les motifs qui respectent certaines contraintes. La deuxième direction de recherche est la classification de séquences multidimensionnelles et hétérogènes. Nous utilisons l'analyse formelle de concept (AFC) comme une méthode de classification. Nous montrons l'intérêt des treillis de concepts et de l'indice de stabilité pour classer les séquences et pour choisir quelques groupes intéressants de séquences. La troisième direction de recherche dans cette thèse est préoccupé par le regroupement des données séquentielles multidimensionnelles et hétérogènes. Nous nous basons sur la notion de sous-séquences communes pour définir une mesure de similarité permettant d'évaluer la proximité entre deux séquences formées d'une liste d'ensemble d'items. Nous utilisons cette mesure de similarité pour construire une matrice de similarité entre les séquences et pour les segmenter en plusieurs groupes. Dans ce travail, nous présentons les résultats théoriques et un algorithme de programmation dynamique permettant de compter efficacement toutes les sous-séquences communes à deux séquences sans énumérer toutes les séquences. Le système résultant de cette recherches a été appliqué pour analyser et extraire les trajectoires de soins de santé des patients en cancérologie. Les données sont issues d' une base de données médico-administrative incluant des informations sur des patients hospitalisent en France. Le système permet d'identifier et de caractériser des épisodes de soins pour des ensembles spécifiques de patients. Les résultats ont été discutés et interprétés avec les experts du domaine
All domains of science and technology produce large and heterogeneous data. Although a lot of work was done in this area, mining such data is still a challenge. No previous research work targets the mining of heterogeneous multidimensional sequential data. This thesis proposes a contribution to knowledge discovery in heterogeneous sequential data. We study three different research directions: (i) Extraction of sequential patterns, (ii) Classification and (iii) Clustering of sequential data. Firstly we generalize the notion of a multidimensional sequence by considering complex and heterogeneous sequential structure. We present a new approach called MMISP to extract sequential patterns from heterogeneous sequential data. MMISP generates a large number of sequential patterns as this is usually the case for pattern enumeration algorithms. To overcome this problem, we propose a novel way of considering heterogeneous multidimensional sequences by mapping them into pattern structures. We develop a framework for enumerating only patterns satisfying given constraints. The second research direction is in concern with the classification of heterogeneous multidimensional sequences. We use Formal Concept Analysis (FCA) as a classification method. We show interesting properties of concept lattices and of stability index to classify sequences into a concept lattice and to select some interesting groups of sequences. The third research direction in this thesis is in concern with the clustering of heterogeneous multidimensional sequential data. We focus on the notion of common subsequences to define similarity between a pair of sequences composed of a list of itemsets. We use this similarity measure to build a similarity matrix between sequences and to separate them in different groups. In this work, we present theoretical results and an efficient dynamic programming algorithm to count the number of common subsequences between two sequences without enumerating all subsequences. The system resulting from this research work was applied to analyze and mine patient healthcare trajectories in oncology. Data are taken from a medico-administrative database including all information about the hospitalizations of patients in Lorraine Region (France). The system allows to identify and characterize episodes of care for specific sets of patients. Results were discussed and validated with domain experts
Los estilos APA, Harvard, Vancouver, ISO, etc.
41

Termier, Alexandre. "Pattern mining rock: more, faster, better". Habilitation à diriger des recherches, Université de Grenoble, 2013. http://tel.archives-ouvertes.fr/tel-01006195.

Texto completo
Resumen
Le pattern mining est un domaine du data mining dont le but est l'extraction de régularité dans les données. Ce document présente nos contributions au domaine selon 3 axes : 1. Le domaine du pattern mining est jeune et il y existe encore beaucoup de types de régularités qu'un analyste serait intéressé de découvrir mais qui ne sont pas encore gérées. Nous avons contribué à deux nouveaux types de patterns: les patterns graduels et les patterns périodiques avec "ruptures". Nous avons aussi proposé ParaMiner, un algorithme original pour le pattern mining générique, qui permet à des analystes de spécifier directement le type de patterns qui les intéressent. 2. Le pattern mining demande beaucoup de ressources de calcul. Pour réduire le temps de calcul, nous avons étudié comment exploiter le parallélisme des processeurs multicoeurs. Nos résultats montrent que des techniques classiques en pattern mining sont mal adaptées au parallélisme, et nous avons proposé des solutions. 3. Notre objectif à long terme est de rendre le pattern mining plus facile à utiliser par les analystes. Il y a beaucoup à faire dans ce but, actuellement les analystes doivent travailler sur de longues listes de millions de patterns. Nous présentons nos premiers résultats, dans le contexte de la fouille de traces d'exécution de processeurs.
Los estilos APA, Harvard, Vancouver, ISO, etc.
42

Lisa, Di Jorio. "Recherche de motifs graduels et application aux données médicales". Phd thesis, Université Montpellier II - Sciences et Techniques du Languedoc, 2010. http://tel.archives-ouvertes.fr/tel-00577212.

Texto completo
Resumen
Avec le développement des nouvelles technologies d'analyse (comme par exemple les puces à ADN) et de gestion de l'information (augmentation des capacités de stockage), le domaine de la santé a particulièrement évolué ces dernières années. En effet, des techniques de plus en plus avancées et efficaces sont mises à disposition des chercheurs, et permettent une étude approfondie des paramètres génomiques intervenant dans des problèmes de santé divers (cancer, maladie d'Alzheimer ...) ainsi que la mise en relation avec les paramètres cliniques. Parallèlement, l'évolution des capacités de stockage permet désormais d'accumuler la masse d'information générée par les diverses expériences menées. Ainsi, les avancées en terme de médecine et de prévention passent par l'analyse complète et pertinente de cette quantité de données. Le travail de cette thèse s'inscrit dans ce contexte médical. Nous nous sommes particulièrement intéressé à l'extraction automatique de motifs graduels, qui mettent en évidence des corrélations de variation entre attributs de la forme "plus un patient est âgé, moins ses souvenirs sont précis". Nous décrivons divers types de motifs graduels tels que les itemsets graduels, les itemset multidimensionnels graduels ou encore les motifs séquentiels graduels, ainsi que les sémantiques associées à ces motifs. Chacune de nos approches est testée sur un jeu de données synthétique et/ou réel.
Los estilos APA, Harvard, Vancouver, ISO, etc.
43

Salah, Saber. "Parallel itemset mining in massively distributed environments". Thesis, Montpellier, 2016. http://www.theses.fr/2016MONTT297/document.

Texto completo
Resumen
Le volume des données ne cesse de croître. À tel point qu'on parle aujourd'hui de "Big Data". La principale raison se trouve dans les progrès des outils informatique qui ont offert une grande flexibilité pour produire, mais aussi pour stocker des quantités toujours plus grandes. Les méthodes d'analyse de données ont toujours été confrontées à des quantités qui mettent en difficulté les capacités de traitement, ou qui les dépassent. Pour franchir les verrous technologiques associés à ces questions d'analyse, la communauté peut se tourner vers les techniques de calcul distribué. En particulier, l'extraction de motifs, qui est un des problèmes les plus abordés en fouille de données, présente encore souvent de grandes difficultés dans le contexte de la distribution massive et du parallélisme. Dans cette thèse, nous abordons deux sujets majeurs liés à l'extraction de motifs : les motifs fréquents, et les motifs informatifs (i.e., de forte entropie)
Le volume des données ne cesse de croître. À tel point qu'on parle aujourd'hui de "Big Data". La principale raison se trouve dans les progrès des outils informatique qui ont offert une grande flexibilité pour produire, mais aussi pour stocker des quantités toujours plus grandes.à l'extraction de motifs : les motifs fréquents, et les motifs informatifs (i.e., de forte entropie)
Los estilos APA, Harvard, Vancouver, ISO, etc.
44

Joliveau, Marc. "Réduction de séries chronologiques de trafic routier urbain issues d'un réseau de capteurs géoréférencés et extraction de motifs spatio-temporels". Châtenay-Malabry, Ecole centrale de Paris, 2008. http://www.theses.fr/2008ECAP1087.

Texto completo
Resumen
Dans cette thèse, nous présentons un processus complet permettant de passer de données brutes de trafic routier mesurées par un réseau de capteurs fixes géoréférencé à l'identification de motifs spatio-temporels aidant aux prédictions lorsque le trafic est inhabituel. Dans un premier temps, on se focalise sur la préparation des données. La question du stockage des données est étudiée par la proposition d'une architecture logicielle adaptée au contexte de masse de données spatio-temporelles. Pour réduire la dimension des données, on introduit la méthode Space Time Principal Component Analysis (STPCA) fondée sur l'application simultanée d'une analyse en composantes principales dans les dimensions spatiales et temporelles. Une adaptation de cette méthode à un ensemble de données comportant des valeurs manquantes est ensuite proposée. La définition, à partir de la loi fondamentale du trafic, d'une nouvelle variable d'état de circulation permet également de réduire la dimension en offrant une sémantique intelligible pour le trafic. L'analyse STPCA appliquée aux données d'état de circualtion permettant d'estimer très fidèlement le comportement usuel du trafic aux capteurs. Elle apporte également un très bon outil pour détecter les situations atypiques au sens de l'occurrence. Dans un contexte prévisionnel, on propose d'identifier par la combinaison de l'information mutuelle et de l'algorithme Isomap des motifs spatio-temporels de propagation de cas atypiques. Différentes validations à court et moyens termes, suite à un apprentissage des motifs sur une portion ou la totalité des données sont effectuées afin de mesurer la pertinence de ces motifs.
Los estilos APA, Harvard, Vancouver, ISO, etc.
45

Gay, Dominique. "Calcul de motifs sous contraintes pour la classification supervisée". Phd thesis, Université de Nouvelle Calédonie, 2009. http://tel.archives-ouvertes.fr/tel-00516706.

Texto completo
Resumen
Ces dernières années, l'extraction de motifs locaux (itemsets fréquents et règles d'association) a suscité beaucoup d'entrain pour la classification supervisée. Cette thèse traite du calcul et de l'usage de motifs sous contraintes pour la classification supervisée. Nous nous attaquons à deux problèmes difficiles en classification supervisée à base de motifs et proposons deux contributions méthodologiques : D'un côté, lorsque les attributs sont bruités, les performances des classifieurs peuvent être désastreuses. Les méthodes existantes consistent à corriger les valeurs d'attributs ou supprimer les objets bruités -- ce qui génère une perte d'information. Dans ce mémoire, nous proposons une méthode générique de construction de descripteurs robustes au bruit d'attributs -- sans modifier les valeurs d'attributs ni supprimer les objets bruités. Notre approche se déroule en deux étapes : premièrement nous extrayons l'ensemble des règles delta-fortes de caractérisation. Ces règles offrent des propriétés de corps minimal, de non-redondance et sont basées sur les itemsets delta-libres et leur delta-fermeture -- qui ont déjà fait leur preuve pour la caractérisation de groupements dans des contextes bruités. Deuxièmement, nous construisons un nouveau descripteur numérique robuste pour chaque règle extraite. Les expérimentations menées dans des données bruitées, montrent que des classifieurs classiques sont plus performants en terme de précision sur les données munies des nouveaux descripteurs que sur les données avec les attributs originaux. D'autre part, lorsque la distribution des classes est inégale, les approches existantes de classification à base de motifs ont tendance à être biaisées vers la classe majoritaire. La précision sur la (ou les) classe(s) majoritaire(s) est alors élevée au détriment de la précision sur la (ou les) classe(s) minoritaire(s). Nous montrons que ce problème est dû au fait que les approches existantes ne tiennent pas compte de la répartition des classes et/ou de la fréquence relative des motifs dans chacune des classes de la base. Pour pallier ce problème, nous proposons un nouveau cadre de travail dans lequel nous extrayons un nouveau type de motifs : les règles de caractérisation One-Versus-Each (OVE-règles). Ce nouveau cadre de travail nécessite le paramétrage d'un nombre conséquent de seuils de fréquence et d'infréquence. Pour ce faire, nous proposons un algorithme d'optimisation de paramètres, fitcare ainsi qu'un algorithme d'extraction d'OVE-règles. Les expérimentations menées sur des données UCI multi-classes disproportionnées et sur des données de diagnostic de méningite aigüe, montrent que notre approche fitcare est plus performante que les approches existantes en terme de précision sur les classes mineures. L'application de notre méthode de classification associative à l'analyse de données d'érosion des sols en Nouvelle-Calédonie a mis en évidence l'intérêt de notre proposition pour caractériser les phénomènes d'érosion.
Los estilos APA, Harvard, Vancouver, ISO, etc.
46

Gay, Dominique. "Calcul de motifs sous contraintes pour la classification supervisée". Phd thesis, Nouvelle Calédonie, 2009. http://portail-documentaire.univ-nc.nc/files/public/bu/theses_unc/TheseDominiqueGay2009.pdf.

Texto completo
Resumen
Ces dernières années, l'extraction de motifs locaux (itemsets fréquents et règles d'association) a suscité beaucoup d'entrain pour la classification supervisée. Cette thèse traite du calcul et de l'usage de motifs sous contraintes pour la classification supervisée. Nous nous attaquons à deux problèmes difficiles en classification supervisée à base de motifs et proposons deux contributions méthodologiques : D'un côté, lorsque les attributs sont bruités, les performances des classifieurs peuvent être désastreuses. Les méthodes existantes consistent à corriger les valeurs d'attributs ou supprimer les objets bruités -- ce qui génère une perte d'information. Dans ce mémoire, nous proposons une méthode générique de construction de descripteurs robustes au bruit d'attributs -- sans modifier les valeurs d'attributs ni supprimer les objets bruités. Notre approche se déroule en deux étapes : premièrement nous extrayons l'ensemble des règles delta-fortes de caractérisation. Ces règles offrent des propriétés de corps minimal, de non-redondance et sont basées sur les itemsets delta-libres et leur delta-fermeture -- qui ont déjà fait leur preuve pour la caractérisation de groupements dans des contextes bruités. Deuxièmement, nous construisons un nouveau descripteur numérique robuste pour chaque règle extraite. Les expérimentations menées dans des données bruitées, montrent que des classifieurs classiques sont plus performants en terme de précision sur les données munies des nouveaux descripteurs que sur les données avec les attributs originaux. D'autre part, lorsque la distribution des classes est inégale, les approches existantes de classification à base de motifs ont tendance à être biaisées vers la classe majoritaire. La précision sur la (ou les) classe(s) majoritaire(s) est alors élevée au détriment de la précision sur la (ou les) classe(s) minoritaire(s). Nous montrons que ce problème est dû au fait que les approches existantes ne tiennent pas compte de la répartition des classes et/ou de la fréquence relative des motifs dans chacune des classes de la base. Pour pallier ce problème, nous proposons un nouveau cadre de travail dans lequel nous extrayons un nouveau type de motifs : les règles de caractérisation One-Versus-Each (OVE-règles). Ce nouveau cadre de travail nécessite le paramétrage d'un nombre conséquent de seuils de fréquence et d'infréquence. Pour ce faire, nous proposons un algorithme d'optimisation de paramètres, fitcare ainsi qu'un algorithme d'extraction d'OVE-règles. Les expérimentations menées sur des données UCI multi-classes disproportionnées et sur des données de diagnostic de méningite aigüe, montrent que notre approche fitcare est plus performante que les approches existantes en terme de précision sur les classes mineures. L'application de notre méthode de classification associative à l'analyse de données d'érosion des sols en Nouvelle-Calédonie a mis en évidence l'intérêt de notre proposition pour caractériser les phénomènes d'érosion.
Los estilos APA, Harvard, Vancouver, ISO, etc.
47

Maletzke, André Gustavo. "Uma metodologia para extração de conhecimento em séries temporais por meio da identificação de motifs e da extração de características". Universidade de São Paulo, 2009. http://www.teses.usp.br/teses/disponiveis/55/55134/tde-04062009-201445/.

Texto completo
Resumen
Mineração de dados tem sido cada vez mais aplicada em distintas áreas com o objetivo de extrair conhecimento interessante e relevante de grandes conjuntos de dados. Nesse contexto, aprendizado de máquina fornece alguns dos principais métodos utilizados em mineração de dados. Dentre os métodos empregados em aprendizado de máquina destacam-se os simbólicos que possuem como principal contribuição a interpretabilidade. Entretanto, os métodos de aprendizado de máquina tradicionais, como árvores e regras de decisão, não consideram a informação temporal presente nesses dados. Este trabalho propõe uma metodologia para extração de conhecimento de séries temporais por meio da extração de características e da identificação de motifs. Características e motifs são utilizados como atributos para a extração de conhecimento por métodos de aprendizado de máquina. Essa metodologia foi avaliada utilizando conjuntos de dados conhecidos na área. Foi realizada uma análise comparativa entre a metodologia e a aplicação direta de métodos de aprendizado de máquina sobre as séries temporais. Os resultados mostram que existe diferença estatística significativa para a maioria dos conjuntos de dados avaliados. Finalmente, foi realizado um estudo de caso preliminar referente ao monitoramento ambiental do reservatório da Usina Hidrelétrica Itaipu Binacional. Nesse estudo somente a identificação de motifs foi aplicada. Foram utilizadas séries temporais referentes à temperatura da água coletadas em distintas regiões do reservatório. Nesse estudo observou-se a existência de um padrão na distribuição dos motifs identificados para cada região do reservatório, corroborando com resultados consagrados na literatura
Data mining has been applied to several areas with the objective of extracting interesting and relevant knowledge from large data bases. In this scenario, machine learning provides some of the main methods employed in data mining. Symbolic learning are among the most used machine learning methods since these methods can provide models that can be interpreted by domain experts. However, traditional machine learning methods, such as decision trees and decision rules, do not take into account the temporal information present into data. This work proposes a methodology to extract knowledge from time series data using feature extraction and motif identification. Features and motifs are used as attributes for knowledge extraction performed by machine learning methods. This methodology was evaluated using some well-known data sets. In addition, we compared the proposed methodology to the approach that feeds machine learning algorithms with raw time series data. Results show that there are statistically significant differences for most of the data sets employed in the study. Finally, it is presented a preliminary study with environmental monitoring data from the Itaipu reservoir, made available by Itaipu Binacional. This study is restricted to the application of motif identification. We have used time series of water temperature collected from several regions of the reservoir. In this study, a pattern in motif distribution was observed for each region of the reservoir, agreeing with some well-known literature results
Los estilos APA, Harvard, Vancouver, ISO, etc.
48

Mancheron, Alban. "Extraction de Motifs Communs dans un Ensemble de Séquences.Application à l'identification de sites de liaison aux protéines dans les séquences primaires d'ADN". Phd thesis, Université de Nantes, 2006. http://tel.archives-ouvertes.fr/tel-00257587.

Texto completo
Resumen
L'extraction de motifs ayant une signification biologique, et notamment l'identification de sites de régulation de la synthèse protéique dans les séquences primaires d'ADN est un des enjeux de la recherche en bioinformatique. Une anomalie dans cette régulation peut avoir de graves conséquences sur la santé d'un organisme. Aussi, l'extraction de ces sites permet de mieux comprendre le fonctionnement cellulaire et de soigner certaines pathologies.

Les difficultés posées par ce problème sont le manque d'informations sur les motifs à extraire, ainsi que le volume important des données à traiter. Deux algorithmes polynomiaux -- l'un déterministe et l'autre probabiliste -- permettant de le traiter ont été conçus. Dans ce contexte, nous avons introduit une nouvelle famille de fonctions de score et étudié leurs propriétés statistiques. Nous avons également caractérisé le langage reconnu par la structure d'index appelée "Oracle", et proposé une amélioration la rendant plus efficace.
Los estilos APA, Harvard, Vancouver, ISO, etc.
49

Ozturk, Ozgur. "Feature extraction and similarity-based analysis for proteome and genome databases". The Ohio State University, 2007. http://rave.ohiolink.edu/etdc/view?acc_num=osu1190138805.

Texto completo
Los estilos APA, Harvard, Vancouver, ISO, etc.
50

Mancheron, Alban. "Extraction de motifs communs dans un ensemble de séquences : application à l'identification de sites de liaison aux protéines dans les séquences primaires d'ADN". Nantes, 2006. http://archive.bu.univ-nantes.fr/pollux/show.action?id=ec42cb78-8fc6-4c4d-a3a3-42735a44dafb.

Texto completo
Resumen
L’extraction de motifs ayant une signification biologique, et notamment l’identification de sites de régulation de la synthèse protéique dans les séquences primaires d’ADN, est un des enjeux de la recherche en bioinformatique. Une anomalie dans cette régulation peut avoir de graves conséquences sur la santé d’un organisme. Aussi, l’extraction de ces sites permet de mieux comprendre le fonctionnement cellulaire et de soigner certaines pathologies. Les difficultés posées par ce problème sont le manque d’informations sur les motifs à extraire, ainsi que le volume important des données à traiter. Deux algorithmes polynomiaux – l’un déterministe et l’autre probabiliste – permettant de le traiter ont été conçus. Dans ce contexte, nous avons introduit une nouvelle famille de fonctions de score et étudié leurs propriétés statistiques. Nous avons également caractérisé le langage reconnu par la structure d’index appelée Oracle, et proposé une amélioration la rendant plus efficace
The extraction of significant biological patterns, and in particular the identification of regulation sites of proteinic synthesis in DNA primary sequences, is one of the major issues today in bioinformatics. Indeed any anomaly in proteinic synthesis regulation has detrimental damages on the well-being of certain organisms. Extracting these sites enables to better understand cellular operation or even to remove or cure pathology. What is promblematic is the lack of information on patterns to be extracted, as well as the large volume of data to mine. In ths dissertation, we introduce two polynomial algorithms – the first one is deterministic and the other one is probabilist – to address the issue of pattern extraction. We introduce a new family of score functions and we study theirs statistical properties. We characterize the language which is recognized by the index structure named “Oracle”, and we modifiy this structure in order to make it more efficient
Los estilos APA, Harvard, Vancouver, ISO, etc.
Ofrecemos descuentos en todos los planes premium para autores cuyas obras están incluidas en selecciones literarias temáticas. ¡Contáctenos para obtener un código promocional único!

Pasar a la bibliografía