Дисертації з теми "Exploration des motifs"

Щоб переглянути інші типи публікацій з цієї теми, перейдіть за посиланням: Exploration des motifs.

Оформте джерело за APA, MLA, Chicago, Harvard та іншими стилями

Оберіть тип джерела:

Ознайомтеся з топ-50 дисертацій для дослідження на тему "Exploration des motifs".

Біля кожної праці в переліку літератури доступна кнопка «Додати до бібліографії». Скористайтеся нею – і ми автоматично оформимо бібліографічне посилання на обрану працю в потрібному вам стилі цитування: APA, MLA, «Гарвард», «Чикаго», «Ванкувер» тощо.

Також ви можете завантажити повний текст наукової публікації у форматі «.pdf» та прочитати онлайн анотацію до роботи, якщо відповідні параметри наявні в метаданих.

Переглядайте дисертації для різних дисциплін та оформлюйте правильно вашу бібліографію.

1

Ndiaye, Marie. "Exploration de grands ensembles de motifs." Thesis, Tours, 2010. http://www.theses.fr/2010TOUR4029/document.

Повний текст джерела
Анотація:
L'abondance des motifs générés par les algorithmes d'extraction de connaissances représente un grand problème dans le domaine de fouille de données. Afin de faciliter l'exploration de ces motifs,deux approches sont souvent utilisées : la première consiste à résumer les ensembles de motifs extraits et la seconde approche repose sur la construction de représentations visuelles de ces motifs. Cependant, les résumés ne sont pas structurés et ils sont proposés sans méthode d'exploration. D'autre part, les représentations visuelles n'offrent pas une vue globale des ensembles de motifs. Nous définissons un cadre générique qui combine les avantages des ces deux approches.Il permet de construire des résumés d'ensembles de motifs à plusieurs niveaux de détail. Ces résumés donnent une vue globale des ensembles de motifs. De plus, ils sont structurés sous forme de cubes sur lesquels des opérateurs de navigation OLAP peuvent être appliqués pour explorer les ensembles de motifs. Par ailleurs, nous proposons un algorithme qui fournit un résumé de bonne qualité dont la taille est inférieure à un seuil donné. Enfin, nous instancions notre cadre avec les règles d'association
The abundance of patterns generated by knowledge extraction algorithms is a major problem in data mining. Ta facilitate the exploration of these patterns, two approaches are often used: the first is to summarize the sets of extracted patterns and the second approach relies on the construction of visual representations of the patterns. However, the summaries are not structured and they are proposed without exploration method. Furthermore, visualizations do not provide an overview of the pattern .sets. We define a generic framework that combines the advantages of bath approaches. It allows building summaries of patterns sets at different levels of detail. These summaries provide an overview of the pattern sets and they are structured in the form of cubes on which OLAP navigational operators can be applied in order to explore the pattern sets. Moreover, we propose an algorithm which provides a summary of good quality whose size is below a given threshold. Finally, we instantiate our framework with association rules
Стилі APA, Harvard, Vancouver, ISO та ін.
2

Bahauddin, Azizi Bin. "Contemporary Malaysian art : an exploration of the Songket motifs." Thesis, Sheffield Hallam University, 1999. http://ethos.bl.uk/OrderDetails.do?uin=uk.bl.ethos.287587.

Повний текст джерела
Анотація:
This thesis explores the Malay songket motifs in relation to Malaysia's cultural identity and the transformations of these motifs within the context of the researcher's own art works. An examination of Malaysian government's fixed National Culture policy on identity is contrasted with the reality of identity as dynamic. The identity policy was created and asserted on a multi-racial population based on concept of MalaylBumiputera with no recognition of the 'Other', the nonBumiputera culture. Divisions among the populace were created by the privileges of political, economic and social adjustments given only to the Bumiputera. The lack of addressing the concerns of recognition and acknowledgement of the 'Other' and existence of 'difference' and stereotyping becomes the main interest of this research. In this thesis, the Malay songket motifs were used as a vehicle to demonstrate the Malay's strong association with traditional customs and rituals, a culture that became the focus of the National Culture policy. The motifs symbolises the dominance of the Malays clinging on to power to control the nation, echOing the height of the Malacca Malay Sultanate Empire eight centuries ago. The sense of growth, unity and human spirituality associated with animism was expressed in the songket motifs. However, evidence of the motifs assimilation with Hindu-Buddhist and Islamic influences proved that there is no Malay 'purity' in this art form. The researcher's practice transforms the flat images of the songket motifs into installative art works. Foods, light, shadow, images and sound become the media which express the research findings drawn from documentary, visual and oral sources concerning the songket motifs. His practice differs from the normal practice of Malaysian artists, who literally translate Malay culture into art work. The researcher's practice employs specific references to Malaysian sources free from didactic, cultural-political content. Above all, as a Malaysian working in the UK, the researcher not only engages his theoretical findings to inform his practice, he becomes part of the research. He is both a Malaysian artist himself and a contributor to that part of Malay culture that is examined in this thesis. He contributes to the compilation of the songket motifs information into CD-ROM.
Стилі APA, Harvard, Vancouver, ISO та ін.
3

Méger, Nicolas Boulicaut Jean-François Rigotti Christophe. "Recherche automatique des fenêtres temporelles optimales des motifs séquentiels." Villeurbanne : Doc'INSA, 2005. http://docinsa.insa-lyon.fr/these/pont.php?id=meger.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
4

Méger, Nicolas. "Recherche automatique des fenêtres temporelles optimales des motifs séquentiels." Lyon, INSA, 2004. http://theses.insa-lyon.fr/publication/2004ISAL0095/these.pdf.

Повний текст джерела
Анотація:
Ce mémoire concerne l'extraction sous contraintes de motifs dans une séquence d'événements. Les motifs extraits sont des règles d'épisodes. L'apport principal réside dans la détermination automatique de la fenêtre temporelle optimale de chaque règle d'épisodes. Nous proposons de n'extraire que les règles pour lesquelles il existe une telle fenêtre. Ces règles sont appelées FLM-règles. Nous présentons un algorithme, WinMiner, pour extraire les FLM-règles, sous les contraintes de support minimum, de confiance minimum, et de gap maximum. Les preuves de la correction de cet algorithme sont fournies. Nous proposons également une mesure d'intérêt dédiée qui permet de sélectionner les FLM-règles pour lesquelles il existe une forte dépendance entre corps et tête de règle. Deux applications de cet algorithme sont décrites. L'une concerne des données médicales tandis que l'autre a été réalisée sur des données sismiques
This work addresses the problem of mining patterns under constraints in event sequences. Extracted patterns are episode rules. Our main contribution is an automatic search for optimal time window of each one of the episode rules. We propose to extract only rules having such an optimal time window. These rules are termed FLM-rules. We present an algorithm, WinMiner, that aims to extract FLM-rules, given a minimum support threshold, a minimum confidence threshold and a maximum gap constraint. Proofs of the correctness of this algorithm are supplied. We also propose a dedicated interest measure that aims to select FLM-rules such that their heads and bodies can be considered as dependant. Two applications are described. The first one is about mining medical datasets while the other one deals with seismic datasets
Стилі APA, Harvard, Vancouver, ISO та ін.
5

Fauré, Clément. "Découvertes de motifs pertinents par l'implémentation d'un réseau bayésien : application à l'industrie aéronautique." Lyon, INSA, 2007. http://theses.insa-lyon.fr/publication/2007ISAL0077/these.pdf.

Повний текст джерела
Анотація:
La définition et l'étude d'un processus opérationnel dans un contexte industriel se heurte généralement à l'analyse d'ensemble de données complexes et volumineuses. L'environnement associé à ce processus évoluant constamment au cours du temps, on va constater de manière inévitable l'apparition de différences entre ce qui était attendu – le modèle – et ce qui est réellement observé – les faits. Plus inquiétant, certains comportements peuvent être masqués dans la masse des données. Il faut alors être en mesure de déceler ces différences et, le cas échéant, de mettre à jour le modèle utilisé. Un apport combiné des techniques d'extraction de la connaissance (ECD) et de méthodes issues de l'ingénierie de la connaissance permet de répondre à ce besoin. Dans cette thèse, nous avons envisagé la découverte de règles d'association pertinentes. À partir d'un ensemble de données, on est capable d'extraire un ensemble de motifs décrivant les particularités « locales » des données. Cependant, l'étude de ces résultats d'extraction se révèle souvent laborieuse, de part la complexité des motifs manipulés et de part le manque d'outils qui permettraient de faciliter leur analyse. Dans un premier temps, nous avons étudié une généralisation des approches pour la génération de règles d'association non redondantes. Cela nous a permis de travailler à partir d'ensembles concis, ne contenant pas de redondance intrinsèque. Puis nous avons proposé la mise en place d'un processus de découverte de connaissance qui intègre la définition et l'exploitation d'un réseau bayésien pour faciliter l'analyse de règles extraites. L'évolution de ce modèle est facilitée par la découverte de règles pertinentes, elles-mêmes rendues plus accessibles grâce à l'évolution du modèle. Nous avons également défini le rôle et l'importance de l'expert au sein de ce processus. Enfin, nous avons montré l'application de nos propositions au domaine des interruptions opérationnelles dans l'industrie aéronautique
The study of an operational process often runs up against the analysis of heterogeneous and large data. While the environment associated with this process evolves constantly, one inevitably notices the appearance of differences between what was expected and what is really observed. By using the collected data and available expertise, it is then necessary to detect these differences, and thus to update the model being used. Accordingly, we propose a knowledge discovery process that integrates the definition and the exploitation of a bayesian network to facilitate the analysis of a concise set of association rules. The evolution of this model is controlled by the discovery of relevant rules, themselves made more accessible by the exploitation from the properties of this model. Finally, we show a practical application of our proposals to the field of operational interruptions in the aircraft industry
Стилі APA, Harvard, Vancouver, ISO та ін.
6

Fauré, Clément Boulicaut Jean-François Mille Alain. "Découvertes de motifs pertinents par l'implémentation d'un réseau bayésien application à l'industrie aéronautique /." Villeurbanne : Doc'INSA, 2008. http://docinsa.insa-lyon.fr/these/pont.php?id=faure.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
7

Salleb, Ansaf. "Recherche de motifs fréquents pour l'extraction de règles d'association et de caractérisation." Orléans, 2003. http://www.theses.fr/2003ORLE2064.

Повний текст джерела
Анотація:
La fouille de données est un domaine de recherche en plein essor visant à extraire des connaissances à partir de grandes quantités de données. Dans cette thèse, nous nous intéressons à l'extraction de motifs fréquents dans les bases de données. Cette étape à la fois importante et coûteuse, est commune à plusieurs tâches de fouille de données. Parmi celles-ci, nous avons étudié la recherche de règles d'association et la recherche de règles de caractérisation, fondées l'une comme l'autre sur la recherche de motifs fréquents. D'une part, nous nous sommes intéressés à l'extraction de motifs fréquents dans des bases dites transactionnelles. Ces bases se présentent comme des multi-ensembles de transactions, où chaque transaction est constituée d'un ensemble d'items, appelé itemset. Nous proposons dans ce cadre une approche booléenne pour la recherche des itemsets fréquents. L'idée est de représenter une base de transactions par une fonction à variables booléennes et à valeurs entières. L'étude menée a non seulement montré l'efficacité de l'approche pour représenter et charger les bases de transactions denses en mémoire, mais aussi l'intérêt de l'utilisation de ce format condensé pour l'extraction des itemsets fréquents maximaux. D'autre part, l'extraction des motifs fréquents dans des bases de données représentant des objets et leurs relations, comme par exemple les bases de données relationnelles et géographiques, est un problème non trivial, étant donné la complexité de l'espace de recherche. Ceci nous a poussé à orienter nos recherches vers d'autres types de règles plus ciblées telles que les règles de caractérisation. Nous proposons un cadre général pour la caractérisation d'un ensemble d'objets, appelé ensemble 'cible', en nous basant non seulement sur leurs propriétés propres mais aussi sur les propriétés de tous les objets qui leur sont liés directement ou indirectement.
Стилі APA, Harvard, Vancouver, ISO та ін.
8

Leleu, Marion. "Extraction de motifs séquentiels sous contraintes dans des données contenant des répétitions consécutives." Lyon, INSA, 2004. http://theses.insa-lyon.fr/publication/2004ISAL0001/these.pdf.

Повний текст джерела
Анотація:
Un axe de recherche typique du data mining, et qui nous concerne dans cette thèse, est la recherche de régularités dans des bases de séquences (e. G. , séquences d'achats, de navigation, d'ADN). De nombreux algorithmes ont été proposés pour traiter l'extraction de motifs séquentiels satisfaisant des contraintes variées. Parmi ceux existants, certains exploitent une représentation en mémoire des positions des motifs (listes d'occurences), ce qui permet de réduire les coûts liés aux accès disque lors de l'exécution d'un processus. Cependant, leurs performances peuvent être grandement améliorées lorsque ces données comportent des répétitions consécutives, c'est-à-dire, en quelque sorte, une redondance de certaines informations dans le temps. Par exemple, un client peut acheter plusieurs fois le même article lors d'achats successifs, la même erreur peut se reproduire plusieurs fois d'affilé sur un réseau informatique, ou encore, comme c'est le cas dans notre contexte d'application (traitement de données financières où l'évolution de produits boursiers est représentée par des séquences d'évènements), lorsque les séquences sont construites à partir de données quantitatives discrétisées. Dans cette thèse, nous tentons d'apporter des solutions efficaces au problème de l'extraction, contrainte ou non, de motifs séquentiels, dans le cas de données contenant des répétitions consécutives. Celles-ci s'appuient sur une généralisation des listes d'occurences et proposent de condenser les informations qu'elles contiennent, sans perte pour les extractions. Cette nouvelle représentation a donné lieu aux développements d'extracteurs de motifs séquentiels, GoSpade (traitement de la seule contrainte de fréquence minimum) et GoSpec (traitement de contraintes temporelles), particulièrement bien adaptés à la présence de répétitions consécutives dans les données. Les algorithmes correspondants ont respectivement fait l'objet d'une démonstration de justesse et de complétude afin d'assurer la correction des résultats qu'ils retournent. De plus, il a été montré, par des expérimentations sur des jeux de données réelles et synthétiques, que ces extracteurs présentaient une nette amélioration des performances en présence de répétitions consécutives. Les gains obtenus, en terme d'espace mémoire et de temps d'exécution, permettent de travailler sur des volumes de données plus importants et à des seuils de fréquence plus faibles, dans des temps raisonnables. Enfin, une application dans le domaine des marchés financiers, visant à construire une représentation synthétique de différentes tendances boursières sous forme de motifs séquentiels caractéristiques, a été effectuée. Nous avons pu montrer que des motifs fréquents constituant une tendance contiennent une information qui est bien spécifique de la tendance représentée
This PhD Thesis concerns the particular data mining field that is the sequential pattern extractions from event sequence databases (e. G. Customer transaction sequences, web logs, DNA). Among existing algorithms, those based on the use of a representation in memory of the pattern locations (called occurrence lists), present a lost of efficiency when the sequences contain consecutive repetitions. This PhD Thesis proposes some efficient solutions to the sequential pattern extraction in such a context (constraints and repetitions) based on a condensation of informations contained in the occurrence lists, without lost for the extraction process. This new representation leads to new sequential pattern extraction algorithms (GoSpade and GoSpec) particularly well adapted to the presence of consecutive repetitions in the datasets. These algorithms have been proved to be sound and complete and experiments on both real and synthetic datasets enabled to show that the gain in term of memory space and execution time is important and that they increase with the number of consecutive repetitions contained in the datasets. Finally, a financial application has been performed in order to make a condensed representation of market trends by means of frequent sequential patterns
Стилі APA, Harvard, Vancouver, ISO та ін.
9

Leleu, Marion Boulicaut Jean-François. "Extraction de motifs séquentiels sous contraintes dans des données contenant des répétitions consécutives." Villeurbanne : Doc'INSA, 2005. http://docinsa.insa-lyon.fr/these/pont.php?id=leleu.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
10

Khiari, Mehdi. "Découverte de motifs n-aires utilisant la programmation par contraintes." Caen, 2012. http://www.theses.fr/2012CAEN2015.

Повний текст джерела
Анотація:
La fouille de données et la Programmation Par Contraintes (PPC) sont deux domaines de l'informatique qui ont eu, jusqu’à très récemment, des destins séparés. Cette thèse est l'une des toutes premières à s'intéresser aux liens entre la fouille de données et la PPC, et notamment aux apports de cette dernière à l'extraction de motifs sous contraintes. Différentes méthodes génériques pour la découverte de motifs locaux ont été proposées. Mais, ces méthodes ne prennent pas en onsidération le fait que l'intérêt d'un motif dépend souvent d'autres motifs. Un tel motif est appelé motif n-aire. Très peu de travaux concernant l'extraction de motifs n-aires ont été menés et les méthodes développées sont toutes ad hoc. Cette thèse propose un cadre unifié pour modéliser et résoudre les contraintes n-aires en fouille de données. Tout d'abord, l'extraction de motifs n-aires est modélisée sous forme de problème de satisfaction de contraintes (CSP). Puis, un langage de requêtes à base de contraintes de haut niveau est proposé. Ce langage permet d'exprimer une large panoplie de contraintes n-aires. Plusieurs méthodes de résolution sont développées et comparées. Les apports principaux de ce cadre sont sa déclarativité et sa généricité. Il s'agit du premier cadre générique et flexible permettant la modélisation et la résolution de contraintes n-aires en fouille de données
Until recently, data mining and Constraint Programming have been developed separately one from the other. This thesis is one of the first to address the relationships between these two areas of computer science, in particular using constraint programming techniques for constraint-based mining. The data mining community has proposed generic approaches to discover local patterns under constraints, and this issue is rather well-mastered. However, these approaches do not take into consideration that the interest of a pattern often depends on the other patterns. Such a pattern is called n-ary pattern or pattern set. Few works on mining n-ary patterns were conducted and the proposed approaches are ad hoc. This thesis proposes an unified framework for modeling and solving n-ary constraints in data mining. First, the n-ary pattern extraction problem is modeled as a Constraint Satisfaction Problem (CSP). Then, a high-level declarative language for mining n-ary patterns is proposed. This language allows to express a wide range of n-ary constraints. Several solving methods are developed and compared. The main advantages of this framework are its declarative and generic sides. To the best of our knowledge, it is the first generic and flexible framework for modeling and mining n-ary patterns
Стилі APA, Harvard, Vancouver, ISO та ін.
11

Haas, Ghislaine. "Exploration sémiotique de l'écriture mériméenne." Besançon, 1988. http://www.theses.fr/1988BESA1005.

Повний текст джерела
Анотація:
L'objectif de la thèse est de proposer une description de l'écriture mériméenne dans le cadre théorique de la sémiotique littéraire. Le terme d'écriture est entendu au sens de résultat du travail d'un scripteur sur la langue et les formes narratives de son époque. Cette écriture est d'abord saisie dans sa formation, dans les nouvelles de la période 1829-1834 qui jouent le rôle de laboratoire de recherche. La voix narrative y est l'objet d'un travail spécifique. A l'issue de cette période, une configuration prend forme : un narrateur-témoin contemple et raconte l'aventure le plus souvent fatale d'un héros qui lui ressemble comme un frère. La deuxième partie montre comment les différents éléments de cette configuration sont inscrits dans des réseaux très denses au sein des nouvelles de la maturité. Enfin, dans la dernière partie, une dimension mythique et initiatique est attribuée à la configuration narrative analysée : l'aventure du héros est interprétée en termes de parcours initiatique. Au terme de l'étude, l'auteur conclut que l'écriture mériméenne, par la densité de ses réseaux articules sur le mythe et le folklore atteint une dimension "fabuleuse" et qu'elle a la simplicité et la profondeur symbolique des contes populaires.
Стилі APA, Harvard, Vancouver, ISO та ін.
12

Daurel, Thomas. "Représentations condensées d'ensembles de règles d'association." Lyon, INSA, 2003. http://www.theses.fr/2003ISAL0059.

Повний текст джерела
Анотація:
Ces dernières années, l'utilisation de plus en plus massive des systèmes d'information a donné lieu à l'accroissement important du nombre de bases de données et à l'augmentation de leur taille. Leurs propriétaires ont ressenti de plus en plus fortement la valeur potentielle de ces bases de données. Ils ont alors commencé à essayer de valoriser ces grands volumes de données sans se limiter aux processus d'interrogation classiques, mais en tentant d'extraire des informations à forte valeur ajoutée pouvant aboutir à l'amélioration du niveau de connaissance des utilisateurs de ces bases. De ce problème est né une discipline : l'extraction de motifs fréquents. Beaucoup d’algorithmes de plus en plus performants furent développés pour ce type d’extractions entre 1994 et aujourd’hui. Il est maintenant souvent possible d’extraire de manière quasi exhaustive certains types de motifs fréquents contenus dans une base de données. L'inconvénient majeur rencontré est le suivant : les motifs trouvés sont trop nombreux. Il est difficile de les trier par ordre d'intérêt afin d'en tirer une information intéressante. Dans ce contexte, il nous a semblé particulièrement intéressant de trouver des représentations plus condensées de motifs extraits de manière à assurer une meilleur lecture de ces résultats. Plus précisément, nous avons travaillé sur les motifs appelés règles d'association et nous avons proposé deux représentations synthétiques de jeux de règles d'association. Nous avons conçu et implanté deux algorithmes pour calculer chacune de ces représentations, et nous avons montré leur efficacité en pratique. Enfin nous avons utilisé ces représentations avec des cas réels
Recently, the more and more intense usage of information systems yielded to the growth of the number and the size of the involved databases. The owners felt more and more the potential value of those databases. They started trying to these databases to advantage without being restricted to classical querying processes, but by attempting to extract information enclosing high added value, which could lead to the improvement of the users’ knowledge. This issue led to the creation of a new discipline : frequent pattern extraction. A lot more and more efficient algorithms were developed to address this kind of extraction since 1994. It is now often possible to extract in an exhaustive way in most of the cases certain types of frequent patterns enclosed in a database. The major drawback that met is the following : the discovered patterns are often too numerous. It is therefor difficult to sort them following an interest order in order to derive interesting information. In this context, it appeared that it is particularly interesting to find out more condensed representations of the extracted patterns in order to ensure a better reading of the results. More precisely, we have worked on the patterns called association rules, and we have proposed two global representations of association rules sets. We have designed and implemented tow algorithms for calculating each one of these representations, and we have shown their efficiency and effectiveness in practice. At last, we have conducted tests on real-life datasets
Стилі APA, Harvard, Vancouver, ISO та ін.
13

Holat, Pierre. "Fouille de motifs et modélisation statistique pour l'extraction de connaissances textuelles." Thesis, Sorbonne Paris Cité, 2018. http://www.theses.fr/2018USPCD045.

Повний текст джерела
Анотація:
En traitement automatique des langues, deux grandes approches sont utilisées : l'apprentissage automatique et la fouille de données. Dans ce contexte, croiser les méthodes de fouille de données fondées sur les motifs et les méthodes d’apprentissage automatique statistique est une voie prometteuse mais à peine explorée. Dans cette thèse, nous présentons trois contributions majeures : l'introduction des motifs delta libres,utilisés comme descripteurs de modèle statistiques; l'introduction d'une contrainte de similarité sémantique pour la fouille, calculée grâce à un modèle statistique; l'introduction des règles séquentielles d'étiquetage,crées à partir des motifs et sélectionnées par un modèle statistique
In natural language processing, two main approaches are used : machine learning and data mining. In this context, cross-referencing data mining methods based on patterns and statistical machine learning methods is apromising but hardly explored avenue. In this thesis, we present three major contributions: the introduction of delta-free patterns, used as statistical model features; the introduction of a semantic similarity constraint for the mining, calculated using a statistical model; and the introduction of sequential labeling rules, created from the patterns and selected by a statistical model
Стилі APA, Harvard, Vancouver, ISO та ін.
14

Baker, Nicholas Jackson. "A quantitative exploration of the meso-scale structure of ecological networks." Thesis, University of Canterbury. Biological Sciences, 2015. http://hdl.handle.net/10092/10667.

Повний текст джерела
Анотація:
Analysing ecological communities as complex networks of interactions has become an important tool for ecologists. Understanding how these networks change through time, over landscapes, or in response to disturbances is a primary goal of community ecology. The number of interactions and the way in which those interactions organise themselves as individuals, small groups, and the whole community can play an important role in predicting how ecological communities will respond to disturbances. In this thesis, we investigated variation in network structure at several scales both empirically and in a theoretical context. Our first hypothesis was that the structural role of species in a variable system would show little variation, despite high levels of species turnover and a fragmented landscape. In a collaboration with Riikkaa Kaartinen and Tomas Roslin, we studied the distribution of species’ roles at three scales in host-parasitoid networks collected from a fragmented forest in Finland. We found that species’ roles were remarkably consistent through time and in the presence of species turnover. These results suggest that species’ roles may be an intrinsic property of species and may be predictable over spatial and temporal scales. Our second study investigated the structural variation of simulated ecological networks and the relationship between structural variation and whole-network measures of network organization, such as connectance, nestedness, and modularity. We quantified structural variation of networks at three scales, macro-scale, motif-scale, and participation scale. These scales represent whole-network measures (macro-scale), sub-network measures (motifs – small groups of interacting species), and individual measures (motif participation). We compared the variation in these structures to connectance, nestedness, and modularity. We found that at fixed levels of connectance, nestedness, and modularity, the motif profiles of networks and the distribution of species across those profiles showed remarkable dissimilarity. This result suggests that networks displaying similar macro-scale structural measures can be composed of vastly different motif- and participation-scale structures. Together, the work that makes up this thesis suggests that we should give more attention to the meso-scale structures of ecological networks. As the more detailed perspective of motifs can capture additional detail about the structure of empirical networks, and as a result, provide a clearer picture of ecological communities. In addition, we found that the particular species themselves can have a significant impact on the meso-scale structure and, in some cases, may impose strict limitations on what interactions can occur within a community. This has important implications for our understanding of how ecological networks are built and maintained, and thereby for our understanding of the stability and resilience of ecological communities.
Стилі APA, Harvard, Vancouver, ISO та ін.
15

Li, Dong Haoyuan. "Extraction de séquences inattendues : des motifs séquentiels aux règles d’implication." Montpellier 2, 2009. http://www.theses.fr/2009MON20253.

Повний текст джерела
Анотація:
Les motifs séquentiels peuvent être vus comme une extension de la notion d'itemsets fréquents intégrant diverses contraintes temporelles. La recherche de tels motifs consiste ainsi à extraire des enchaînements d'ensembles d'items, couramment associés sur une période de temps bien spécifiée. La construction de règles à partir de ces motifs séquentiels permet d'étendre la notion de règles d'association pour la pris en compte de la temporalité. En fait, cette recherche met en évidence des associations inter-transactions, contrairement à celle des règles d'association qui extrait des combinaisons intra-transactions. Ce problème, posé à l'origine dans un contexte de marketing, intéresse à présent des domaines aussi variés que les télécommunications, la finance, ou encore la médecine et la bioinformatique. Même s'il existe aujourd'hui de très nombreuses approches efficaces pour extraire des motifs, ces derniers ne sont pas forcément adaptés aux besoins des applications réelles. En fait, les résultats obtenus sont basés sur une mesure statistique et ne tiennent pas compte de la connaissance du domaine. De plus, ces approches sont principalement axées sur la recherche de tendances et ne permettent pas d'extraire des connaissances sur les éléments atypiques ou inattendus. Dans le cadre de cette thèse, nous nous intéressons donc à la problématique de l'extraction de motifs séquentiels et règles inattendus en intégrant la connaissance du domaine. Le travail présenté dans cette thèse comporte la mise en œuvre d'un cadre MUSE pour l'extraction de séquences inattendues par rapport à un système de croyances, des extensions avec la théorie de logique floue, l'intégration des données hi
The sequential patterns can be viewed as an extension of the notion of association rules with integrating temporal constraints, which are effective for representing statistical frequency based behaviors between the elements contained in sequence data, that is, the discovered patterns are interesting because they are frequent. However, with considering prior domain knowledge of the data, another reason why the discovered patterns are interesting is because they are unexpected. In this thesis, we investigate the problems in the discovery of unexpected sequences in large databases with respect to prior domain expertise knowledge. We first methodically develop the framework Muse with integrating the approaches to discover the three forms of unexpected sequences. We then extend the framework Muse by adopting fuzzy set theory for describing sequence occurrence. We also propose a generalized framework SoftMuse with respect to the concept hierarchies on the taxonomy of data. We further propose the notions of unexpected sequential patterns and unexpected implication rules, in order to evaluate the discovered unexpected sequences by using a self-validation process. We finally propose the discovery and validation of unexpected sentences in free format text documents. The usefulness and effectiveness of our proposed approaches are shown with the experiments on synthetic data, real Web server access log data, and text document classification
Стилі APA, Harvard, Vancouver, ISO та ін.
16

Fancett, Anna. "The exploration of familial myths and motifs in selected novels by Jane Austen and Walter Scott." Thesis, University of Aberdeen, 2014. http://digitool.abdn.ac.uk:80/webclient/DeliveryManager?pid=225725.

Повний текст джерела
Анотація:
Taking the subject of the exploration of familial tropes in the novels of Walter Scott and Jane Austen, this thesis opens by investigating the literary context in which the two authors worked, as well as offering an explanation of the methodology used, and an exploration of criticism on the topic. An in-depth analysis of the historical state of the family provides this thesis with its social and historic background, and is offered in section two. Section three explores conventional presentations of the family in the novels, and contends that even such conventional interpretations are open to complex and fluid readings. In particular, this section explores the nuances surrounding the role of marriage as a symbol of comedy, and also as the fulfilment of a bildungsroman narrative. It also contends that social virtues are key in establishing the representation of familial roles and in this context inheritance and lineage are also explored. The ways in which familial representation may be employed for subversive or controversial purposes are the subject of section four. This thesis posits that subversive readings do not negate conventional ones but rather that alternate representations of the family create multiple, not hierarchal meanings. Marriage, children, inheritance, lineage, siblingship, incest, illegitimacy and widowhood are all part of section four's investigation. Abstract! Anna Fancett Section five works as a short coda to the thesis and raises questions about the role of the narratorial voice. In particular, it argues that although some critics have assumed that the author's authority is present in any direct, unnamed third-person narrator, the voice of the narrator must never be conflated with that of the author or implied author. This section postulates that the narratorial voice destabilises both the conventional and subversive use of the family in these novels and suggests that the texts generate multiple readings. Overall this thesis demonstrates that the social, cultural and literary pressures which operated on the concept of the family in the Romantic period are manifested in a parallel complexity in the ways in which familial tropes operate in the work of Scott and Austen. However, it also shows that these two authors move beyond a merely representational engagement with social structures to provide a new and dynamic engagement with the idea of the family in the Romantic novel.
Стилі APA, Harvard, Vancouver, ISO та ін.
17

Kafaru, Abiodun Babatunde. "An exploration of painting aesthetics, signs, symbols, motifs and patterns of coastal Yoruba land of Nigeria." Thesis, University of Northampton, 2014. http://nectar.northampton.ac.uk/8864/.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
18

Voravuthikunchai, Winn. "Représentation des images au moyen de motifs fréquents et émergents pour la classification et la recherche d'images." Caen, 2013. http://www.theses.fr/2013CAEN2084.

Повний текст джерела
Анотація:
Cette thèse a pour but d'améliorer les performances sur différentes tâches de vision par ordinateur en se focalisant sur l'étape de représentation des images. Notre idée clé est d'intégrer des relations entre les descripteurs de l'image à sa représentation originelle, ces relations apportant une information additionnelle par exemple pour discriminer des images. La recherche de telles relations n'est pas simple compte-tenu de la grande combinatoire entre descripteurs. Nous proposons d'employer des techniques de fouille de données fondées sur la recherche de motifs pour mettre en évidence des relations pertinentes entre les descripteurs d'images. En effet, le fouille de données est appropriée pour l'analyse de grandes quantités de données et la découverte des motifs intéressants traduisant des dépendances, le regroupement de données, la détection d'anomalies. Un premier obstacle à l'emploi de techniques de fouille de données en vision par ordinateur porte sur le recordage des descripteurs des images. Ces dernières possèdent usuellement des valeurs réelles alors que les méthodes d'extraction de motifs sont appropriées aux données discrètes. Pour traiter ce problème, nous proposons des techniques fondées sur des seuillages locaux. Le nombre de motifs extraits étant élevés, ceux-ci ne peuvent pas être directement utilisés dans une tâche comme la classification supervisée. Aussi, nous présentons une méthode d'agrégation des motifs permettant d' obtenir une représentation compacte évitant le sur-apprentissage. Les résultats expérimentaux sur de nombreuses bases d'images montrent que notre approche est largement au niveau de l'état de l'art. Nous montrons que les caractéristiques de la fouille de données sont aussi propices à d'autres tâches de vision par ordinateur. Ainsi, nous avons conçu une méthode de détection de doublons reposant sur l'utilisation de motifs fermés dans de grandes bases d'images. Nous avons testé notre méthode sur une base de 1 million d'images obtenues avec Google image : les doublons sont découverts en moins de 3 minutes. Enfin, nous avons développé une méthode de re-classer d'images fondée sur le nombre de motifs fréquents que chaque image supporte, cette méthode permet d'améliorer le classement initial
In this thesis, our aim is to achieve better results in several tasks in computer vision by focusing on the image representation part. Our idea is to integrate feature dependencies to the original feature representation. Although feature dependencies can give additional useful information to discriminate images, it is a nontrivial task to select a subset of feature combinations from the power set of the features which has an excessively large cardinality. We employ pattern mining techniques to efficiently produce a tractable set of effective combinations. Pattern mining is a process that can analyze large quantities of data and extract interesting patterns such as groups of data records (cluster analysis), unusual records (anomaly detection) and dependencies (association rule mining). The first encountered problem is how to encode image features which are typically real valued as binary transaction items suitable for pattern mining algorithms. We propose some solutions based on local thresholding. The number of extracted patterns is still very high and to use them directly as new features for inferring a supervised classification models leads to overfitting. A solution by aggregating the patterns and have a compact representation which does not overfit to the training data is presented. We have achieved state-of-the-art results on several image classification benchmarks. Along the path of exploration, we realize pattern mining algorithms are suitable especially for large scale tasks as they are very efficient and scale gracefully to the number of images. We have found two suitable applications. The first one is to detect groups of duplicates in very large dataset. In order to run our experiment, we created a database of one million images. The images are randomly downloaded from Google. We have discovered the duplicate groups in less than three minutes. Another application that we found suitable for applying pattern mining techniques is image re-ranking. Our method can improves the original ranking score by a large margin and compare favorably to existing approaches
Стилі APA, Harvard, Vancouver, ISO та ін.
19

Khanjari, Miyaneh Eynollah. "Un cadre générique pour les modèles globaux fondés sur les motifs locaux." Thesis, Tours, 2009. http://www.theses.fr/2009TOUR4020/document.

Повний текст джерела
Анотація:
La construction de modèles globaux est une tâche centrale pour l'extraction de connaissances dans les bases de données. En particulier, les modèles globaux fondés sur des motifs locaux tels que les règles d'association apportent une description compréhensive et succincte des données. La multiplicité des points de vue, des objectifs et des données engendre une grande diversité de modèles et de leurs méthodes de construction. Cette thèse propose un cadre unificateur pour la formalisation et la manipulation de modèles globaux fondés sur les motifs locaux. Dans ce cadre, de très nombreuses méthodes de construction existantes en classification supervisée et non-supervisée, se modélisent simplement de manière déclarative. Nous apportons un algorithme générique permettant à l'utilisateur de s'affranchir des spécificités techniques, notamment lié à la forme des motifs locaux mis en jeux ou à leur extraction. Par ailleurs, nous proposons également des optimisations de cet algorithme en fonction des paramètres. Enfin, notre cadre en isolant les principales fonctionnalités des méthodes de construction existantes en facilite la comparaison
The construction of global models is a significant field of Knowledge Discovery in Databases. In particular, global models based on local patterns such as association rules provide a succinct and understandable description of data. The numerous viewpoints, aims and domain-specific data require a wide range of global models and associated construction methods. This thesis proposes a generic framework for formalizing and manipulating global models based on local patterns. In this framework, a lot of the existing construction methods dedicated to classification, clustering and summarization are easily formulated in a declarative way. We provide a generic algorithm enabling to leave aside technical aspects, for instance the kind of used patterns and associated mining approach. Moreover, we also optimize this algorithm according to the specified parameters. Finally, our framework facilitates the comparison of existing construction methods by highlighting their main features
Стилі APA, Harvard, Vancouver, ISO та ін.
20

Pinçonnat, Crystel. "New York dans le roman français : appropriation, exploration et manipulations d'un mythe moderne (1945-1992)." Paris 3, 1995. http://www.theses.fr/1996PA030010.

Повний текст джерела
Анотація:
L'objet de cette recherche est d'etudier new york en tant que mythe litteraire dans le roman francais de 1945 a nos jours. Pour saisir l'evolution de ce mythe,nous avons distingue trois modalites : l'appropriation, l'integration et l'hybridation. Dans la mesure ou il s'agissait en effet d'un element nouveau et etranger, diverses strategies ont ete utilisees par les romanciers francais pour assimiler ce mythe au sein de la litterature nationale. Dans la periode d'appropriation, new york est represente grace a deux principaux procedes : la transposition sur la scene new-yorkaise de formes heritees de la tradition (figure du naif, periple odysseen, tragedie antique et roman allegorique), et l'imitation de sous-genres paralitteraires d'origine americaine comme le roman noir et la science-fiction dans lesquels new york intervient de facon quasi generique. Alors que les romans de la transposition font de new york la capitale moderne de la depossession, dans la paralitterature en revanche, la ville represente le territoire du heros, le lieu de ses victoires. Ces premieres strategies s'epuisant progressivement, l'integration a permis de deployer un nouveau regard sur new york : un regard "du dedans", celui du marginal, qui transforme l'univers urbain en un univers insulaire. A travers l'exploration des marginalites, new york devient une figure moderne de l'anti-arche, une hyperbole de l'exil interurbain. L'hybridation, enfin, consacre l'une des grandes tendances du roman francais de cadre new-yorkais. Le repertoire new-yorkais, stock iconographique et litteraire enrichi des apports du cinema, de la bande dessinee et des arts plastiques, prend le pas sur le referent urbain. Il suscite toutes sortes de manipulations. L'ecriture de new york rompt definitivement avec la tradition exotique et donne lieu a des experiences poetiques. La metropole s'offre en tant que chaos mythique de la modernite, horizon fabuleux du roman francais, son "palais d'images"
This dissertation intends to study new york as a literary myth in the french novel from 1945 to the present. To analyse the evolution of this myth, three notions have been defined : appropriation, integration and hybridization. Being a new and foreign element, this myth had to be assimilated through different strategies into national literature by french novelists. In the appropriation period, new york was represented through two major ways : the transposition of forms inherited from tradition (character of the naive stranger, odyssean journey, antic tragedy and allegorical novel), and the imitation of american paraliterary sub-genres like the detective novel and the science-fiction in which new york appeared like a generic component. Whereas transposition makes new york the modern capital of dispossession, in paraliterature on the contrary, it is the territory of the hero, his winning battlefield. These first strategies gradually exhausted, integration allows a new look at new york, a look from "the inside" : the marginal's one, which transforms urban universe into an insular world. New york becomes a modern form of the anti-ark, a hyperbole for interurban exile. Eventually, hybridization defines the main trend of the french novel with a new york setting : the new york repertory - iconographic and literary stock enriched with the contributions of movies, comics and art - prevails over the urban referent. This repertory offers a rich source for manipulation. The use of new york in fiction definitely breaks with the exotic tradition and engages poetic experiments. The metropolis becomes the mythical chaos of modernity, the fabulous horizon of the french novel, its "image palace"
Стилі APA, Harvard, Vancouver, ISO та ін.
21

Salle, Paola. "Les motifs séquentiels pour les données issues des puces ADN." Thesis, Montpellier 2, 2010. http://www.theses.fr/2010MON20239/document.

Повний текст джерела
Анотація:
L'émergence des biotechnologies, telles que les puces ADN, a permis l'acquisition d'énormes quantités de données d'une cellule à un instant donné et sous certaines conditions. Elles sont devenues incontournables lorsqu'il s'agit de comprendre une maladie qui proviendrait d'une anomalie génomique perturbant le développement naturel entre la croissance, la division et la mort des cellules. En utilisant cette biotechnologie, l'objectif est d'identifier les gènes impliqués dans la maladie étudiée. Mais chaque puce donne l'information de plus de 19 000 gènes rendant difficile toute exploitation et analyse des résultats. La fouille de données a longtemps été étudiée pour mettre en évidence des corrélations non triviales à partir de grande base de données. Initialement proposées pour répondre aux interrogations des décideurs lorsqu'il s'agissait de mieux connaître le comportement des clients d'un supermarché, ces méthodes connaissent aujourd'hui un tel succès qu'elles ont été utilisées et adaptées dans divers domaines d'applications allant du marketing jusqu'à la santé. L'étude que nous proposons de mener est de proposer de nouvelles méthodes de fouille de données pour aider les biologistes à déduire de nouvelles connaissances à partir des données obtenues par l'analyse des puces ADN. Plus précisément, nous proposons de mettre en évidence des gènes fréquemment ordonnés selon leurs expressions et nous étudions l'apport de ce type d'information comme nouveau matériel d'étude pour les biologistes
The emergence of biotechnology, such as DNA chips, has acquired huge amounts of data in a cell at a given moment and under certain conditions. They are used in order to understand a disease whose origin is a genomic abnormality disrupting the natural development between growth, division and cell death. Using this biotechnology, the aim is to identify the genes involved in disease studied. But each chip gives information on more than 19,000 genes then it is difficult to use and to analyse the results. Methods of Data mining are used in order to find interesting correlations from large database. Initially proposed to address questions about the behavior of customers of a supermarket, these methods are now used and adapted in various fields of applications ranging marketing to health. In this study, we propose new methods in order to help biologists to deduce new knowledge from data obtained by DNA microarray analysis. Specifically, we propose to identify genes frequently ordered by their expressions and we study the contribution of such information as the new study material for biologists
Стилі APA, Harvard, Vancouver, ISO та ін.
22

Albert-Lorincz, Hunor. "Contributions aux techniques de prise de décision et de valorisation financière." Lyon, INSA, 2007. http://theses.insa-lyon.fr/publication/2007ISAL0039/these.pdf.

Повний текст джерела
Анотація:
Nous travaillons dans le contexte général de la prise de décision financière. Nous considérons d’abord le problème algorithmique de l’extraction de motifs séquentiels, par exemple depuis des séries temporelles discrètes décrivant des évolutions de cours. Nous introduisons la famille des contraintes bien partitionnées qui permettent une décomposition hiérarchique des espaces de recherche. Le cas particulier de la conjonction d’une contrainte de fréquence et d’une contrainte d’expression régulière est détaillé. On peut alors réaliser des stratégies d’élagages adaptatives qui trouvent des compromis entre l’exploitation active de contraintes non anti-monotones (e. G. , les expressions) sans pour autant se priver des possibilités d’élagage des contraintes anti-monotones (e. G. La fréquence). Nous présentons ensuite deux développements dédiés à la prise de décision financière. Nous proposons d’abord d’améliorer le pouvoir prédictif des indicateurs techniques en introduisant des signatures pour les configurations de marché et ainsi améliorer les performances des automates de trading. Ensuite, nous étudions la valorisation d’une classe particulière de produits dérivés où l’un des contreparties a le droit de rompre l’accord à une série de dates prédéterminées. Il est alors nécessaire de calculer des espérances conditionnelles à un futur état de monde, ce qui se fait traditionnellement par une double simulation Monte Carlo très gourmande en temps de calcul. Nous proposons une nouvelle technique baptisée neighbourhood Monte Carlo qui est plus que 20 fois plus rapide que les méthodes précédentes
This thesis investigates and develops tools for flnancial decision making. Our first contribution is aimed at the extraction of frequents sequential patterns from, for example, discretized flnancial lime series. We introduce well partitioned constraints that allow a hierarchical structuration of the search space for increased efficiency. In particular, we look at the conjunction of a minimal frequency constraint and a regular expression constraint. It becomes possible to build adaptative strategies that find a good balance between the pruning based on the anti-monotonic frequency and the pruning based on the regular expression constraint which is generally neither monotonie nor antimonotonic. Then, we develop two financial applications. At first, we use frequent patterns to characterise market configurations by means of signatures in order to improve some technical indicators functions for automated trading strategies. Then, we look at the pricing of Bermudan options, i. E. , a financial derivative product which allows to terminate an agreement between two parties at a set of pre-defined dates. This requires to compute double conditional expectations at a high computational cos!. Our new method, neighbourhood Monte Carlo can be up to 20 times faster th an the traditional methods
Стилі APA, Harvard, Vancouver, ISO та ін.
23

Albert-Lorincz, Hunor Boulicaut Jean-François. "Contributions aux techniques de prise de décision et de valorisation financière." Villeurbanne : Doc'INSA, 2007. http://docinsa.insa-lyon.fr/these/pont.php?id=albert-lorincz.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
24

Di, Jorio Lisa. "Recherche de motifs graduels et application aux données médicales." Thesis, Montpellier 2, 2010. http://www.theses.fr/2010MON20112.

Повний текст джерела
Анотація:
Avec le développement des nouvelles technologies d'analyse (comme par exemple les puces à ADN) et de gestion de l'information (augmentation des capacités de stockage), le domaine de la santé a particulièrement évolué ces dernières années. En effet, des techniques de plus en plus avancées et efficaces sont mises à disposition des chercheurs, et permettent une étude approfondie des paramètres génomiques intervenant dans des problèmes de santé divers (cancer, d'Alzheimer ...) ainsi que la mise en relation avec les paramètres cliniques. Parallèlement, l'évolution des capacités de stockage permet désormais d'accumuler la masse d'information générée par les diverses expériences menées. Ainsi, les avancées en terme de médecine et de prévention passent par l'analyse complète et pertinente de cette quantité de données. Le travail de cette thèse s'inscrit dans ce contexte médical. Nous nous sommes particulièrement intéressé à l'extraction automatique de motifs graduels, qui mettent en évidence des corrélations de variation entre attributs de la forme "plus un patient est âgé, moins ses souvenirs sont précis". Nous décrivons divers types de motifs graduels tels que les itemsets graduels, les itemset multidimensionnels graduels ou encore les motifs séquentiels graduels, ainsi que les sémantiques associées à ces motifs. Chacune de nos approches est testée sur un jeu de données synthétique et/ou réel
With the raise of new biological technologies, as for example DNA chips, and IT technologies (e.g. storage capacities), health care domain has evolved through the last years. Indeed, new high technologies allow for the analysis of thousands of genomic parameters related to various deseases (as cancer, Alzheimer), and how to link them to clinical parameters. In parallel, storage evolutions enable nowadays researchers to gather a huge amount of data generated by biological experiments. This Ph.D thesis is strongly related to medical data mining. We tackle the problem of extracting gradual patterns of the form « the older a patient, the less his memories are accurate ». To handle different types of information, we propose to extract gradualness for an extensive range of patterns: gradual itemsets, gradual multidimensionnal itemsets, gradual sequencial patterns. Every contribution is experimented on a synthetic or real datasets
Стилі APA, Harvard, Vancouver, ISO та ін.
25

Khiari, Medhi. "Découverte de motifs n-aires utilisant la programmation par contraintes." Phd thesis, Université de Caen, 2012. http://tel.archives-ouvertes.fr/tel-01023102.

Повний текст джерела
Анотація:
La fouille de données et la Programmation Par Contraintes (PPC) sont deux domaines de l'informatique qui ont eu, jusqu'à très récemment, des destins séparés. Cette thèse est l'une des toutes premières à s'intéresser aux liens entre la fouille de données et la PPC, et notamment aux apports de cette dernière à l'extraction de motifs sous contraintes. Différentes méthodes génériques pour la découverte de motifs locaux ont été proposées. Mais, ces méthodes ne prennent pas en considération le fait que l'intérêt d'un motif dépend souvent d'autres motifs. Un tel motif est appelé motif n-aire. Très peu de travaux concernant l'extraction de motifs n-aires ont été menés et les méthodes développées sont toutes ad hoc. Cette thèse propose un cadre unifié pour modéliser et résoudre les contraintes n-aires en fouille de données. Tout d'abord, l'extraction de motifs n-aires est modélisée sous forme de problème de satisfaction de contraintes (CSP). Puis, un langage de requêtes à base de contraintes de haut niveau est proposé. Ce langage permet d'exprimer une large panoplie de contraintes n-aires. Plusieurs méthodes de résolution sont développées et comparées. Les apports principaux de ce cadre sont sa déclarativité et sa généricité. Il s'agit du premier cadre générique et flexible permettant la modélisation et la résolution de contraintes n-aires en fouille de données.
Стилі APA, Harvard, Vancouver, ISO та ін.
26

Soulet, Arnaud. "Un cadre générique de découverte de motifs sous contraintes fondées sur des primitives." Phd thesis, Université de Caen, 2006. http://tel.archives-ouvertes.fr/tel-00123185.

Повний текст джерела
Анотація:
La découverte de motifs est une tâche centrale pour
l'extraction de connaissances dans les bases de données. Cette thèse
traite de l'extraction de motifs locaux sous contraintes. Nous
apportons un éclairage nouveau avec un cadre combinant des primitives
monotones pour définir des contraintes quelconques. La variété de ces
contraintes exprime avec précision l'archétype des motifs recherchés
par l'utilisateur au sein d'une base de données. Nous proposons alors
deux types d'approche d'extraction automatique et générique malgré les
difficultés algorithmiques inhérentes à cette tâche. Leurs efficacités
reposent principalement sur l'usage de conditions nécessaires pour
approximer les variations de la contrainte. D'une part, des méthodes
de relaxations permettent de ré-utiliser les nombreux algorithmes
usuels du domaines. D'autre part, nous réalisons des méthodes
d'extraction directes dédiées aux motifs ensemblistes pour les données
larges ou corrélées en exploitant des classes d'équivalences. Enfin,
l'utilisation de nos méthodes ont permi la découverte de phénomènes
locaux lors d'applications industrielles et médicales.
Стилі APA, Harvard, Vancouver, ISO та ін.
27

Vigneron, Vincent. "Programmation par contraintes et découverte de motifs sur données séquentielles." Thesis, Angers, 2017. http://www.theses.fr/2017ANGE0028/document.

Повний текст джерела
Анотація:
Des travaux récents ont montré l’intérêt de la programmation par contraintes pour la fouille de données. Dans cette thèse, nous nous intéressons à la recherche de motifs sur séquences, et en particulier à la caractérisation, à l’aide de motifs, de classes de séquences pré-établies. Nous proposons à cet effet un langage de modélisation à base de contraintes qui suppose une représentation matricielle du jeu de séquences. Un motif s’y définit comme un ensemble de caractères (ou de patrons) et pour chacun une localisation dans différentes séquences. Diverses contraintes peuvent alors s’appliquer : validité des localisations, couverture d’une classe de séquences, ordre sur les localisations des caractères commun aux séquences, etc. Nous formulons deux problèmes de caractérisation NP-complets : la caractérisation par motif totalement ordonné (e.g. sous-séquence exclusive à une classe) ou partiellement ordonné. Nous en donnons deux modélisations CSP qui intègrent des contraintes globales pour la preuve d’exclusivité. Nous introduisons ensuite un algorithme mémétique pour l’extraction de motifs partiellement ordonnés qui s’appuie sur la résolution CSP lors des phases d’initialisation et d’intensification. Cette approche hybride se révèle plus performante que l’approche CSP pure sur des séquences biologiques. La mise en forme matricielle de jeux de séquences basée sur une localisation des caractères peut être de taille rédhibitoire. Nous proposons donc de localiser des patrons plutôt que des caractères. Nous présentons deux méthodes ad-hoc, l’une basée sur un parcours de treillis et l’autre sur la programmation dynamique
Recent works have shown the relevance of constraint programming to tackle data mining tasks. This thesis follows this approach and addresses motif discovery in sequential data. We focus in particular, in the case of classified sequences, on the search for motifs that best fit each individual class. We propose a language of constraints over matrix domains to model such problems. The language assumes a preprocessing of the data set (e.g., by pre-computing the locations of each character in each sequence) and views a motif as the choice of a sub-matrix (i.e., characters, sequences, and locations). We introduce different matrix constraints (compatibility of locations with the database, class covering, location-based character ordering common to sequences, etc.) and address two NP-complete problems: the search for class-specific totally ordered motifs (e.g., exclusive subsequences) or partially ordered motifs. We provide two CSP models that rely on global constraints to prove exclusivity. We then present a memetic algorithm that uses this CSP model during initialisation and intensification. This hybrid approach proves competitive compared to the pure CSP approach as shown by experiments carried out on protein sequences. Lastly, we investigate data set preprocessing based on patterns rather than characters, in order to reduce the size of the resulting matrix domain. To this end, we present and compare two alternative methods, one based on lattice search, the other on dynamic programming
Стилі APA, Harvard, Vancouver, ISO та ін.
28

Joliveau, Marc. "Réduction de séries chronologiques de trafic routier urbain issues d'un réseau de capteurs géoréférencés et extraction de motifs spatio-temporels." Châtenay-Malabry, Ecole centrale de Paris, 2008. http://www.theses.fr/2008ECAP1087.

Повний текст джерела
Анотація:
Dans cette thèse, nous présentons un processus complet permettant de passer de données brutes de trafic routier mesurées par un réseau de capteurs fixes géoréférencé à l'identification de motifs spatio-temporels aidant aux prédictions lorsque le trafic est inhabituel. Dans un premier temps, on se focalise sur la préparation des données. La question du stockage des données est étudiée par la proposition d'une architecture logicielle adaptée au contexte de masse de données spatio-temporelles. Pour réduire la dimension des données, on introduit la méthode Space Time Principal Component Analysis (STPCA) fondée sur l'application simultanée d'une analyse en composantes principales dans les dimensions spatiales et temporelles. Une adaptation de cette méthode à un ensemble de données comportant des valeurs manquantes est ensuite proposée. La définition, à partir de la loi fondamentale du trafic, d'une nouvelle variable d'état de circulation permet également de réduire la dimension en offrant une sémantique intelligible pour le trafic. L'analyse STPCA appliquée aux données d'état de circualtion permettant d'estimer très fidèlement le comportement usuel du trafic aux capteurs. Elle apporte également un très bon outil pour détecter les situations atypiques au sens de l'occurrence. Dans un contexte prévisionnel, on propose d'identifier par la combinaison de l'information mutuelle et de l'algorithme Isomap des motifs spatio-temporels de propagation de cas atypiques. Différentes validations à court et moyens termes, suite à un apprentissage des motifs sur une portion ou la totalité des données sont effectuées afin de mesurer la pertinence de ces motifs.
Стилі APA, Harvard, Vancouver, ISO та ін.
29

Hébert, Céline. "Extraction et usages de motifs minimaux en fouille de données, contribution au domaine des hypergraphes." Phd thesis, Université de Caen, 2007. http://tel.archives-ouvertes.fr/tel-00253794.

Повний текст джерела
Анотація:
La découverte et l'interprétation de motifs et de règles sont deux tâches centrales en extraction de connaissances dans les bases de données. Cette thèse traite de l'extraction et des usages de motifs minimaux à la fois en fouille de données et dans le domaine des hypergraphes. D'une part, nous proposons une méthode efficace pour la découverte de motifs delta-libres dans les données larges, malgré les difficultés algorithmiques inhérentes à ce type de données. Cette méthode repose sur l'utilisation de l'extension des motifs et d'un nouveau critère d'élagage. D'autre part, nous nous intéressons à la qualité des règles d'associations et nous présentons un cadre générique qui permet de mieux comprendre les similarités et différences entre mesures. Il montre que de nombreuses mesures (appelées SBMs pour Simultaneously Bounded Measures) ont des comportements proches. Ce résultat permet de garantir des valeurs minimales pour toutes les SBMs et la production de règles de qualité par rapport à l'ensemble de ces mesures. Enfin, l'apport des méthodes de type <> pour d'autres domaines est mis en évidence. Nous montrons que notre approche de découverte de motifs dans les données larges est exploitable pour calculer efficacement les traverses minimales d'un hypergraphe, un problème réputé comme particulièrement difficile. Différentes applications, notamment en biologie, montrent l'intérêt pratique de nos méthodes.
Стилі APA, Harvard, Vancouver, ISO та ін.
30

Abboud, Yacine. "Fouille de motifs : entre accessibilité et robustesse." Thesis, Université de Lorraine, 2018. http://www.theses.fr/2018LORR0176/document.

Повний текст джерела
Анотація:
L'information occupe désormais une place centrale dans notre vie quotidienne, elle est à la fois omniprésente et facile d'accès. Pourtant, l'extraction de l'information à partir des données est un processus souvent inaccessible. En effet, même si les méthodes de fouilles de données sont maintenant accessibles à tous, les résultats de ces fouilles sont souvent complexes à obtenir et à exploiter pour l'utilisateur. La fouille de motifs combinée à l'utilisation de contraintes est une direction très prometteuse de la littérature pour à la fois améliorer l'efficience de la fouille et rendre ses résultats plus appréhendables par l'utilisateur. Cependant, la combinaison de contraintes désirée par l'utilisateur est souvent problématique car, elle n'est pas toujours adaptable aux caractéristiques des données fouillées tel que le bruit. Dans cette thèse, nous proposons deux nouvelles contraintes et un algorithme pour pallier ce problème. La contrainte de robustesse permet de fouiller des données bruitées en conservant la valeur ajoutée de la contrainte de contiguïté. La contrainte de clôture allégée améliore l'appréhendabilité de la fouille de motifs tout en étant plus résistante au bruit que la contrainte de clôture classique. L'algorithme C3Ro est un algorithme générique de fouille de motifs séquentiels intégrant de nombreuses contraintes, notamment les deux nouvelles contraintes que nous avons introduites, afin de proposer à l'utilisateur la fouille la plus efficiente possible tout en réduisant au maximum la taille de l'ensemble des motifs extraits. C3Ro rivalise avec les meilleurs algorithmes de fouille de motifs de la littérature en termes de temps d'exécution tout en consommant significativement moins de mémoire. C3Ro a été expérimenté dans le cadre de l’extraction de compétences présentes dans les offres d'emploi sur le Web
Information now occupies a central place in our daily lives, it is both ubiquitous and easy to access. Yet extracting information from data is often an inaccessible process. Indeed, even though data mining methods are now accessible to all, the results of these mining are often complex to obtain and exploit for the user. Pattern mining combined with the use of constraints is a very promising direction of the literature to both improve the efficiency of the mining and make its results more apprehensible to the user. However, the combination of constraints desired by the user is often problematic because it does not always fit with the characteristics of the searched data such as noise. In this thesis, we propose two new constraints and an algorithm to overcome this issue. The robustness constraint allows to mine noisy data while preserving the added value of the contiguity constraint. The extended closedness constraint improves the apprehensibility of the set of extracted patterns while being more noise-resistant than the conventional closedness constraint. The C3Ro algorithm is a generic sequential pattern mining algorithm that integrates many constraints, including the two new constraints that we have introduced, to provide the user the most efficient mining possible while reducing the size of the set of extracted patterns. C3Ro competes with the best pattern mining algorithms in the literature in terms of execution time while consuming significantly less memory. C3Ro has been experienced in extracting competencies from web-based job postings
Стилі APA, Harvard, Vancouver, ISO та ін.
31

Makhalova, Tatiana. "Contributions à la fouille d'ensembles de motifs : des données complexes à des ensembles de motifs signifiants et réutilisables." Electronic Thesis or Diss., Université de Lorraine, 2021. http://www.theses.fr/2021LORR0124.

Повний текст джерела
Анотація:
Nous étudions différents aspects de l’exploration ou fouille de motifs dans des jeux de données tabulaires binaires et numériques. L’objectif de l’exploration de motifs est de découvrir un petit ensemble de motifs non redondants qui peuvent recouvrir presque entièrement un ensemble de données et être interprétés comme des unités de connaissances significatives et utiles. Nous nous concentrons sur les questions clés telles que la définition formelle de l’intérêt des motifs, la minimisation de l’explosion combinatoire des motifs, la définition de mesures pour évaluer les performances des méthodes d’exploration de motifs, et le rapprochement entre l’intérêt et la qualité des ensembles de motifs. Nous proposons une structure dite “de niveaux de fermetures” et l’algorithme GDPM qui la calcule. Cette structure nous permet d’estimer à la fois la complexité des données et celle des motifs. En pratique, cette structure peut être utilisée pour représenter la topologie des données par rapport à une mesure d’intérêt. Du point de vue conceptuel, cette structure autorise un analyste à comprendre la configuration intrinsèque des données avant de sélectionner une mesure d’intérêt plutôt que de comprendre les données au moyen d’une mesure d’intérêt choisie arbitrairement. Nous discutons également de la différence entre l’intérêt et la qualité des ensembles de motifs. Nous proposons d’adopter les bonnes pratiques de l’apprentissage supervisé et de les adapter à la fouille de motifs. Ainsi, nous avons développé un algorithme d’exploration d’ensembles de motifs appelé KeepItSimple, qui met en relation l’intérêt et la qualité des ensembles de motifs et qui permet de retrouver de façon efficace un ensemble de motifs intéressants sans craindre d’explosion combinatoire. De plus, nous proposons un algorithme glouton d’énumération de motifs susceptibles d’intérêt qui remplace les méthodes classiques d’énumération de motifs fermés fréquents lorsque les motifs sont trop nombreux. Enfin une dernière contribution porte sur le développement d’un algorithme qui s’appuie sur le principe MDL appelé Mint qui a pour objectif d’extraire des ensembles de motifs dans les données numériques. Il repose sur des bases théoriques solides tout en ayant l’objectif pratique de retourner un ensemble concis de motifs numériques qui sont non redondants et informatifs. Les expérimentations montrent que Mint surpasse généralement ses concurrents en efficacité et qualité des motifs retournés
In this thesis, we study different aspects of pattern mining in binary and numerical tabular datasets. The objective of pattern mining is to discover a small set of non-redundant patterns that may cover entirely a given dataset and be interpreted as useful and significant knowledge units. We focus on some key issues such as (i) formal definition of pattern interestingness, (ii) the minimization of pattern explosion, (iii) measure for evaluating the performance of pattern mining, and (iv) the discrepancy between interestingness and quality of the discovered pattern sets. Moreover, we go beyond the typical perspectives of pattern mining and investigate the intrinsic structure underlying a tabular dataset. The main contributions of this research work are theoretical, conceptual, and practical. Regarding the theoretical novelty, we propose a so-called closure structure and the GDPM algorithm for its computing. The closure structure allows us to estimate both the data and pattern complexity. Furthermore, practically the closure structure may be used to represent the data topology w.r.t. an interestingness measure. Conceptually, the closure structure allows an analyst to understand the intrinsic data configuration before selecting any interestingness measure rather than to understand the data by means of an arbitrarily selected interestingness measure. In this research work, we also discuss the difference between interestingness and quality of pattern sets. We propose to adopt the best practices of supervised learning in pattern mining. Based on that, we developed an algorithm for itemset mining, called KeepItSimple, which relates interestingness and the quality of pattern sets. In practice, KeepItSimple allows us to efficiently mine a set of interesting and good-quality patterns without any pattern explosion. In addition, we propose an algorithm for a greedy enumeration of likely-occurring itemsets that can be used when frequent closed itemset miners return too many itemsets. The last practical contribution consists in developing an MDL-based algorithm called Mint for mining pattern sets in numerical data. The Mint algorithm relies on a strong theoretical foundation and at the same time has a practical objective in returning a small set of numerical, non-redundant, and informative patterns. The experiments show that Mint has very good behavior in practice and usually outperforms its competitors
Стилі APA, Harvard, Vancouver, ISO та ін.
32

Vroland, Christophe. "Algorithmique pour la recherche de motifs approchée et application à la recherche de cibles de microARN." Thesis, Lille 1, 2016. http://www.theses.fr/2016LIL10110/document.

Повний текст джерела
Анотація:
La recherche de motifs approchée consiste à identifier les occurrences d’un motif modulo une certaine distance au sein d’un texte. Ce problème trouve de nombreuses applications en bio-informatique pour l’analyse de séquences biologiques. Par exemple, les microARN sont des petits ARN qui régulent l’expression des gènes par reconnaissance d’un motif similaire. Comprendre le mode d’action des microARN demande de pouvoir localiser de courts motifs, environ 21 nucléotides, comprenant jusqu’à 3 ou 4 erreurs dans un texte de l’ordre de 108 à 109 nucléotides, représentant un génome. Dans cette thèse, nous proposons un algorithme efficace pour la recherche de motifs approchée, qui se base sur la définition d’un nouveau type de graines avec erreurs, les graines 01*0, et qui exploite une structure d’index compressée, le FM-index. Cet algorithme a été mis en œuvre dans un logiciel librement disponible, appelé Bwolo. Nous démontrons expérimentalement l’avantage de cette approche en nous comparant à l’état de l’art des outils existants. Nous montrons également comment utiliser Bwolo pour mettre en place une analyse originale sur l’étude de la distribution des cibles potentielles de miARN dans deux génomes de plantes, Arabidopsis thaliana et Arabidopsis lyrata
Approximate string matching consists in identifying the occurrences of a motif within a text, modulo a given distance. This problem has many applications in bioinformatics for the analysis of biological sequences. For instance, microRNAs are short RNA molecules regulating the expression of genes by specific recognition of their sequence motif on the target gene. Understanding the mode of action of microRNAs requires the ability to identify short motifs, around 21 nucleotides in size, comprising up to 3-4 errors in a text whose size is in the order of 108-109 , representing a genome. In this thesis, I have proposed an efficient algorithm for the approximate search of short motifs. This algorithm is based on a new type of seeds containing errors, the 01*0 seeds, and uses a compressed index structure, the FM-index. I have implemented this algorithm in a freely available software, Bwolo. I demonstrate experimentally the advantage of this approach and compare it to the state of the art of existing tools. I also show how Bwolo can be used and have set up an original study on the distribution of potential miRNA target sites in two plant genomes, Arabidopsis thaliana and Arabidopsis lyrata
Стилі APA, Harvard, Vancouver, ISO та ін.
33

Patoyt, Claire. "La poésie d'Emily Dickinson (1830-1886) à la lumière des traductions : une étude des rapports entre énonciation métaphorique et exploration métaphysique." Paris 7, 2013. http://www.theses.fr/2013PA070056.

Повний текст джерела
Анотація:
Cette thèse vise à mettre au jour les liens étroits qui se tissent entre énonciation métaphorique et exploration métaphysique dans la poésie d'Emily Dickinson (1830¬1886). À partir d'analyses approfondies de poèmes confrontés avec leurs traductions en langue française, elle met en lumière le rapport consubstantiel entre pensée et mouvement. Elle examine par ailleurs le rôle fondamental de celui-ci dans la relation du poète aux concepts métaphysiques et au monde spirituel. En quoi la « métaphore vive » est-t-elle une dynamique énonciative propre à prendre en charge les efforts conjonctifs ou les impulsions critiques de la pensée? Quels enjeux recouvre l'exploration métaphysique qu'elle réalise? Dans quelle mesure peut-on dire qu'une « métaphysique du mouvement » façonne et anime la poétique dickinsonienne? Cette étude montre que l'écriture métaphorique d'Emily Dickinson se situe dans le passage d'une conception, héritée de la mystique et de la théologie, de la métaphore comme figure comblant l'écart entre le terrestre et le céleste, à une approche de la métaphore comme pouvoir de re-description du réel et de création de nouvelles relations référentielles faisant primer l'imagination créatrice et la vitalité de la parole poétique. Elle dégage également les principaux héritages formels des métaphores dickinsoniennes. En parallèle, elle offre une approche originale des poèmes via le dialogue dynamique avec les traductions qui agissent comme un « contrepoint herméneutique » permettant de pénétrer en profondeur dans les strates signifiantes des énoncés métaphoriques. L'épaisseur philosophique de la pensée poétique reçoit ainsi un nouvel éclairage
This dissertation aims at revealing the intimate links between metaphorical enunciation and metaphysical exploration in the poetry of Emily Dickinson (1830¬1886). Based on close readings and comparative analyses of several poems alongside their French translations, it highlights the inextricable nature of thought and movement. It also examines the essential role such movement plays in the poet's relationship to metaphysical concepts and to the spiritual reaim. What makes the « living metaphor » an enunciative dynamics fit for conveying the conjunctive aspirations or critical impulses of the poet's thought? What is at stake in the metaphysical exploration it carries out? To what extent can it be said that a « metaphysics of movement » shapes and animates Dickinson's poetics? This study shows that Emily Dickinson's metaphorical writing moves from a conception of metaphor inherited from mystical poetry and theology, in which metaphors are seen as bridges between the earthly and the celestial, to an approach in which metaphor serves as a force for re- describing reality and bringing about new referential relationships that give priority to creative imagination and the vitality of poetic language. It also points out the main formai legacy of Dickinson's metaphors. In parallel, it offers an original approach to the poems by engaging in a dynamic dialogue with the translations which here act as a « hermeneutic counterpoint » to the originals, a means of exploring in greater depth the layers of meaning contained in Dickinson's metaphorical utterances. A new analytical light is thus shed on the philosophical depths of the poet's thought
Стилі APA, Harvard, Vancouver, ISO та ін.
34

Gosselin, Stéphane. "Recherche de motifs fréquents dans une base de cartes combinatoires." Phd thesis, Université Claude Bernard - Lyon I, 2011. http://tel.archives-ouvertes.fr/tel-00838571.

Повний текст джерела
Анотація:
Une carte combinatoire est un modèle topologique qui permet de représenter les subdivisions de l'espace en cellules et les relations d'adjacences et d'incidences entre ces cellules en n dimensions. Cette structure de données est de plus en plus utilisée en traitement d'images, mais elle manque encore d'outils pour les analyser. Notre but est de définir de nouveaux outils pour les cartes combinatoires nD. Nous nous intéressons plus particulièrement à l'extraction de sous-cartes fréquentes dans une base de cartes. Nous proposons deux signatures qui sont également des formes canoniques de cartes combinatoires. Ces signatures ont chacune leurs avantages et leurs inconvénients. La première permet de décider de l'isomorphisme entre deux cartes en temps linéaire, en contrepartie le coût de stockage en mémoire est quadratique en la taille de la carte. La seconde signature a un coût de stockage en mémoire linéaire en la taille de la carte, cependant le temps de calcul de l'isomorphisme est quadratique. Elles sont utilisables à la fois pour des cartes connexes, non connexes, valuées ou non valuées. Ces signatures permettent de représenter une base de cartes combinatoires et de rechercher un élément de manière efficace. De plus, le temps de recherche ne dépend pas du nombre de cartes présent dans la base. Ensuite, nous formalisons le problème de recherche de sous-cartes fréquentes dans une base de cartes combinatoires nD. Nous implémentons deux algorithmes pour résoudre ce problème. Le premier algorithme extrait les sous-cartes fréquentes par une approche en largeur tandis que le second utilise une approche en profondeur. Nous comparons les performances de ces deux algorithmes sur des bases de cartes synthétiques. Enfin, nous proposons d'utiliser les motifs fréquents dans une application de classification d'images. Chaque image est décrite par une carte qui est transformée en un vecteur représentant le nombre d'occurrences des motifs fréquents. À partir de ces vecteurs, nous utilisons des techniques classiques de classification définies sur les espaces vectoriels. Nous proposons des expérimentations en classification supervisée et non supervisée sur deux bases d'images.
Стилі APA, Harvard, Vancouver, ISO та ін.
35

Salah, Saber. "Parallel itemset mining in massively distributed environments." Thesis, Montpellier, 2016. http://www.theses.fr/2016MONTT297/document.

Повний текст джерела
Анотація:
Le volume des données ne cesse de croître. À tel point qu'on parle aujourd'hui de "Big Data". La principale raison se trouve dans les progrès des outils informatique qui ont offert une grande flexibilité pour produire, mais aussi pour stocker des quantités toujours plus grandes. Les méthodes d'analyse de données ont toujours été confrontées à des quantités qui mettent en difficulté les capacités de traitement, ou qui les dépassent. Pour franchir les verrous technologiques associés à ces questions d'analyse, la communauté peut se tourner vers les techniques de calcul distribué. En particulier, l'extraction de motifs, qui est un des problèmes les plus abordés en fouille de données, présente encore souvent de grandes difficultés dans le contexte de la distribution massive et du parallélisme. Dans cette thèse, nous abordons deux sujets majeurs liés à l'extraction de motifs : les motifs fréquents, et les motifs informatifs (i.e., de forte entropie)
Le volume des données ne cesse de croître. À tel point qu'on parle aujourd'hui de "Big Data". La principale raison se trouve dans les progrès des outils informatique qui ont offert une grande flexibilité pour produire, mais aussi pour stocker des quantités toujours plus grandes.à l'extraction de motifs : les motifs fréquents, et les motifs informatifs (i.e., de forte entropie)
Стилі APA, Harvard, Vancouver, ISO та ін.
36

Bu, Daher Julie. "Sequential Pattern Generalization for Mining Multi-source Data." Electronic Thesis or Diss., Université de Lorraine, 2020. http://www.theses.fr/2020LORR0204.

Повний текст джерела
Анотація:
La digitalisation de notre monde est souvent associée à une production de grandes quantités de données. Ainsi, des outils de collecte et de stockage de données ont dû être développés, à des fins d’exploitation en recherche ou dans l’industrie. Les données collectées peuvent provenir de plusieurs sources, formant ainsi de gros corpus de données hétérogènes. Ces corpus peuvent être analysés pour extraire de l’information. C’est l’objet de la fouille de données, qui fait l’objet d’un intérêt grandissant depuis de nombreuses années. Différentes approches de fouille de données ont été proposées, parmi lesquelles la très populaire fouille de motifs. La fouille de motifs, qui inclut la fouille de motifs séquentiels, vise à extraire des motifs ordonnés fréquents dans les données.Dans le cadre de sources de données multiples, les données peuvent représenter des points de vue différents sur le phénomène représenté. Par ailleurs, la présence de similarité entre certains éléments de données est une caractéristique classique, qui mène à la perte d’information lors du processus de fouille. L’objectif de cette thèse est de concevoir un algorithme de fouille des motifs dans des données multi-source dans le but d’extraire une information pertinente tout en compensant la perte de motifs due à la similarité entre éléments et en limitant la redondance entre motifs. Plusieurs approches ont été proposées dans la littérature. Certaines fusionnent l’ensemble des sources dans un seul ensemble de données et exploitent un algorithme classique de fouille de motifs, ce qui mène à un algorithme complexe qui extrait un grand nombre de motifs redondants. D’autres fouillent les sources séparément ce qui peut mener à une perte potentielle de motifs. Nous proposons G_SPM, un algorithme de fouille de motifs séquentiels qui tire avantage des multiples sources de données à disposition dans le but de pallier le problème de la similarité entre éléments, en formant des motifs généraux. G_SPM adopte une stratégie de fouille sélective de sources, ce qui lui permet d’avoir une complexité limitée. Par ailleurs, G_SPM fouille dans un premier temps une unique source de données, celle qui lui permet d’avoir des motifs séquentiels les plus précis possibles. Les expérimentations menées confirment que G_SPM identifie des motifs généraux avec un temps d’exécution limité, il permet donc de gérer la similarité entre les éléments en compensant l’éclatement des occurrences sur plusieurs motifs
Huge amounts of digital data have been created across years due to the increasing digitization in our everyday life. As a consequence, fast data collection and storage tools have been developed and data can be collected in huge volumes for various research and business purposes. The collected data can come from multiple data sources and can be of heterogeneous kinds thus forming heterogeneous multi-source datasets, and they can be analyzed to extract valuable information. Data mining is an important task in discovering interesting information from datasets. Different approaches in this domain have been proposed, among which pattern mining is the most important one. Pattern mining, including sequential pattern mining, discovers statistically relevant patterns (or sequential patterns) among data. The challenges of this domain include discovering important patterns with a limited complexity and by avoiding redundancy among the resulting patterns. Multi-source data could represent descriptive and sequential data, making the mining process complex. There could be problems of data similarity on one source level which leads to a limited number of extracted patterns. The aim of the thesis is to mine multi-source data to obtain valuable information and compensate the loss of patterns due to the problem of similarity with a limited complexity and by avoiding pattern redundancy. Many approaches have been proposed to mine multi-source data. These approaches either integrate multi-source data and perform a single mining process which increases the complexity and generates a redundant set of sequential patterns, or they mine sources separately and integrate the results which could lead to a loss of patterns. We propose G_SPM, a general sequential pattern mining algorithm that takes advantage of multi-source data to mine general patterns which compensates the loss of patterns caused by the problem of data similarity. These rich patterns contain various kinds of information and have higher data coverage than traditional patterns. G_SPM adopts a selective mining strategy of data sources where a main source is first mined, and other sources are mined only when similarity among patterns is detected, which limits the complexity and avoids pattern redundancy. The experimental results confirm that G_SPM succeeds in mining general patterns with a limited complexity. In addition, it outperforms traditional approaches in terms of runtime and pattern redundancy
Стилі APA, Harvard, Vancouver, ISO та ін.
37

Simard, Mélissa. "Théâtre, culture et société haïtienne : une exploration interartistique et interculturelle de "La mort de soi dans sa longue robe de Mariée" de Guy Régis Jr." Thesis, Université Laval, 2012. http://www.theses.ulaval.ca/2012/29411/29411.pdf.

Повний текст джерела
Анотація:
Le présent essai propose un retour sur un processus de recherche-création entourant la mise en scène du texte La mort de soi dans sa longue robe de Mariée, de l'auteur haïtien exilé à Paris, Guy Régis Jr. La représentation théâtrale eut lieu en avril 2011, au LANTISS de l'Université Laval. Elle a réuni une équipe de création composée de comédiens et musiciens, amateurs et professionnels, d'origines brésilienne, centrafricaine, haïtienne et québécoise. La recherche entourant la réalisation de ce projet a été guidée par un besoin de réflexion sur un élément déterminant de la culture haïtienne, la mythologie vaudou comme inspiration du texte dramatique de La mort de soi dans sa longue robe de Mariée. L’analyse de la création est donc basée sur certaines études culturelles entourant le théâtre populaire haïtien, le théâtre rituel et le théâtre anthropologique. Dans un second temps, l'essai couvre la diffusion de la culture populaire et l'affirmation de l'identité (imaginaire collectif/ histoire) comme conditions essentielles de résistance contre le néo-colonialisme mondial et la globalisation culturelle. Finalement, l'essai se penche sur le métissage et la créolisation comme systèmes de communication interculturelle au théâtre.
Стилі APA, Harvard, Vancouver, ISO та ін.
38

Kane, Mouhamadou bamba. "Extraction et sélection de motifs émergents minimaux : application à la chémoinformatique." Thesis, Normandie, 2017. http://www.theses.fr/2017NORMC223/document.

Повний текст джерела
Анотація:
La découverte de motifs est une tâche importante en fouille de données. Cemémoire traite de l’extraction des motifs émergents minimaux. Nous proposons une nouvelleméthode efficace qui permet d’extraire les motifs émergents minimaux sans ou avec contraintede support ; contrairement aux méthodes existantes qui extraient généralement les motifs émergentsminimaux les plus supportés, au risque de passer à côté de motifs très intéressants maispeu supportés par les données. De plus, notre méthode prend en compte l’absence d’attributqui apporte une nouvelle connaissance intéressante.En considérant les règles associées aux motifs émergents avec un support élevé comme desrègles prototypes, on a montré expérimentalement que cet ensemble de règles possède unebonne confiance sur les objets couverts mais malheureusement ne couvre pas une bonne partiedes objets ; ce qui constitue un frein pour leur usage en classification. Nous proposons uneméthode de sélection à base de prototypes qui améliore la couverture de l’ensemble des règlesprototypes sans pour autant dégrader leur confiance. Au vu des résultats encourageants obtenus,nous appliquons cette méthode de sélection sur un jeu de données chimique ayant rapport àl’environnement aquatique : Aquatox. Cela permet ainsi aux chimistes, dans un contexte declassification, de mieux expliquer la classification des molécules, qui sans cette méthode desélection serait prédites par l’usage d’une règle par défaut
Pattern discovery is an important field of Knowledge Discovery in Databases.This work deals with the extraction of minimal emerging patterns. We propose a new efficientmethod which allows to extract the minimal emerging patterns with or without constraint ofsupport ; unlike existing methods that typically extract the most supported minimal emergentpatterns, at the risk of missing interesting but less supported patterns. Moreover, our methodtakes into account the absence of attribute that brings a new interesting knowledge.Considering the rules associated with emerging patterns highly supported as prototype rules,we have experimentally shown that this set of rules has good confidence on the covered objectsbut unfortunately does not cover a significant part of the objects ; which is a disavadntagefor their use in classification. We propose a prototype-based selection method that improvesthe coverage of the set of the prototype rules without a significative loss on their confidence.We apply our prototype-based selection method to a chemical data relating to the aquaticenvironment : Aquatox. In a classification context, it allows chemists to better explain theclassification of molecules, which, without this method of selection, would be predicted by theuse of a default rule
Стилі APA, Harvard, Vancouver, ISO та ін.
39

Boukhetta, Salah Eddine. "Analyse de séquences avec GALACTIC – Approche générique combinant analyse formelle des concepts et fouille de motifs." Electronic Thesis or Diss., La Rochelle, 2022. http://www.theses.fr/2022LAROS035.

Повний текст джерела
Анотація:
Une séquence est une suite d’éléments ordonnés comme par exemple les trajectoires de déplacement ou les séquences d’achats de produits dans un supermarché. La fouille de séquences est un domaine de la fouille de données qui vise à extraire des motifs séquentiels fréquents à partir d’un ensemble de séquences, où ces motifs sont le plus souvent des sous-séquences. Plusieurs algorithmes ont été proposés pour l’extraction des motifs séquentiels fréquents. Avec l’évolution des capacités de calcul, la tâche d’extraction des motifs séquentiels fréquents est devenue plus rapide. La difficulté réside alors dans le trop grand nombre de motifs séquentiels extraits, qui en rend difficile la lisibilité et donc l’interprétation. On parle de déluge de motifs. L’Analyse Formelle de Concepts (AFC) est un domaine d’analyse de données permettant d’identifier des relations à partir d’un ensemble de données binaires. Les structures de motifs étendent l’AFC pour traiter des données complexes comme les séquences. La plateforme GALACTIC implémente l’algorithme Next Priority Concept qui propose une approche d’extraction de motifs pour des données hétérogènes et complexes. Il permet un calcul de motifs génériques à travers des descriptions spécifiques d’objets par des prédicats monadiques. Il propose également de raffiner un ensemble d’objets à travers des stratégies d’explorations spécifiques, ce qui permet de réduire le nombre de motifs. Dans ce travail, nous nous intéressons à l’analyse de données séquentielles en utilisant GALACTIC. Nous proposons plusieurs descriptions et stratégies adaptées aux séquences. Nous proposons également des mesures de qualité non supervisées pour pouvoir comparer entre les motifs obtenus. Une analyse qualitative et quantitative est menée sur des jeux de données réels et synthétiques afin de montrer l’efficacité de notre approche
A sequence is a sequence of ordered elements such as travel trajectories or sequences of product purchases in a supermarket. Sequence mining is a domain of data mining that aims an extracting frequent sequential patterns from a set of sequences, where these patterns are most often common subsequences. Support is a monotonic measure that defines the proportion of data sharing a sequential pattern. Several algorithms have been proposed for frequent sequential pattern extraction. With the evolution of computing capabilities, the task of frequent sequential pattern extraction has become faster. The difficulty then lies in the large number of extracted sequential patterns, which makes it difficult to read and therefore to interpret. We speak about "deluge of patterns". Formal Concept Analysis (FCA) is a field of data analysis for identifying relationships in a set of binary data. Pattern structures extend FCA to handle complex data such as sequences. The GALACTIC platform implements the Next Priority Concept algorithm which proposes a pattern extraction approach for heterogeneous and complex data. It allows a generic pattern computation through specific descriptions of objects by monadic predicates. It also proposes to refine a set of objects through specific exploration strategies, which allows to reduce the number of patterns. In this work, we are interested in the analysis of sequential data using GALACTIC. We propose several descriptions and strategies adapted to sequences. We also propose unsupervised quality measures to be able to compare between the obtained patterns. A qualitative and quantitative analysis is conducted on real and synthetic datasets to show the efficiency of our approach
Стилі APA, Harvard, Vancouver, ISO та ін.
40

Cadot, Martine. "Extraire et valider les relations complexes en sciences humaines : statistiques, motifs et règles d'association." Phd thesis, Université de Franche-Comté, 2006. http://tel.archives-ouvertes.fr/tel-00594174.

Повний текст джерела
Анотація:
Cette thèse concerne la fouille de données en sciences humaines. Cette branche récente de l'intelligence artificielle consiste en un ensemble de méthodes visant à extraire de la connaissance à partir de données stockées sur des supports informatiques. Parmi celles-ci, l'extraction de motifs et de règles d'association est une méthode de traitement des données qui permet de représenter de façon symbolique la structure des données, comme le font les méthodes statistiques classiques, mais qui, contrairement à celles-ci, reste opérationnelle en cas de données complexes, volumineuses. Toutefois ce modèle informatique des données, construit à partir de comptages de cooccurrences, n'est pas directement utilisable par les chercheurs en sciences humaines : il est essentiellement dédié aux données dichotomiques (vrai/faux), ses résultats directs, très morcelés, sont difficiles à interpréter, et sa validité peut paraître douteuse aux chercheurs habitués à la démarche statistique. Nous proposons des techniques que nous avons construites puis expérimentées sur des données réelles dans le but de réduire les difficultés d'utilisation que nous venons de décrire : 1) un test de randomisation à base d'échanges en cascade dans la matrice sujets x propriétés permet d'obtenir les liaisons statistiquement significatives entre deux propriétés, 2) une extension floue de la méthode d'extraction classique des motifs, qui produit des règles d'association floues généralisant les règles binaires et proches des règles floues définies par les chercheurs poursuivant les travaux de Zadeh, 3) MIDOVA, un algorithme extrayant les interactions n-aires entre variables - problème peu connu, peu abordé en informatique, et abordé avec de fortes limitations en statistiques - et 4) des méta-règles pour nettoyer le jeu de règles d'association de ses principales contradictions et redondances.
Стилі APA, Harvard, Vancouver, ISO та ін.
41

Cavadenti, Olivier. "Contribution de la découverte de motifs à l’analyse de collections de traces unitaires." Thesis, Lyon, 2016. http://www.theses.fr/2016LYSEI084/document.

Повний текст джерела
Анотація:
Dans le contexte manufacturier, un ensemble de produits sont acheminés entre différents sites avant d’être vendus à des clients finaux. Chaque site possède différentes fonctions : création, stockage, mise en vente, etc. Les données de traçabilités décrivent de manière riche (temps, position, type d’action,…) les événements de création, acheminement, décoration, etc. des produits. Cependant, de nombreuses anomalies peuvent survenir, comme le détournement de produits ou la contrefaçon d’articles par exemple. La découverte des contextes dans lesquels surviennent ces anomalies est un objectif central pour les filières industrielles concernées. Dans cette thèse, nous proposons un cadre méthodologique de valorisation des traces unitaires par l’utilisation de méthodes d’extraction de connaissances. Nous montrons comment la fouille de données appliquée à des traces transformées en des structures de données adéquates permet d’extraire des motifs intéressants caractéristiques de comportements fréquents. Nous démontrons que la connaissance a priori, celle des flux de produits prévus par les experts et structurée sous la forme d’un modèle de filière, est utile et efficace pour pouvoir classifier les traces unitaires comme déviantes ou non, et permettre d’extraire les contextes (fenêtre de temps, type de produits, sites suspects,…) dans lesquels surviennent ces comportements anormaux. Nous proposons de plus une méthode originale pour détecter les acteurs de la chaîne logistique (distributeurs par exemple) qui auraient usurpé une identité (faux nom). Pour cela, nous utilisons la matrice de confusion de l’étape de classification des traces de comportement pour analyser les erreurs du classifieur. L’analyse formelle de concepts (AFC) permet ensuite de déterminer si des ensembles de traces appartiennent en réalité au même acteur
In a manufacturing context, a product is moved through different placements or sites before it reaches the final customer. Each of these sites have different functions, e.g. creation, storage, retailing, etc. In this scenario, traceability data describes in a rich way the events a product undergoes in the whole supply chain (from factory to consumer) by recording temporal and spatial information as well as other important elements of description. Thus, traceability is an important mechanism that allows discovering anomalies in a supply chain, like diversion of computer equipment or counterfeits of luxury items. In this thesis, we propose a methodological framework for mining unitary traces using knowledge discovery methods. We show how the process of data mining applied to unitary traces encoded in specific data structures allows extracting interesting patterns that characterize frequent behaviors. We demonstrate that domain knowledge, that is the flow of products provided by experts and compiled in the industry model, is useful and efficient for classifying unitary traces as deviant or not. Moreover, we show how data mining techniques can be used to provide a characterization for abnormal behaviours (When and how did they occur?). We also propose an original method for detecting identity usurpations in the supply chain based on behavioral data, e.g. distributors using fake identities or concealing them. We highlight how the knowledge discovery in databases, applied to unitary traces encoded in specific data structures (with the help of expert knowledge), allows extracting interesting patterns that characterize frequent behaviors. Finally, we detail the achievements made within this thesis with the development of a platform of traces analysis in the form of a prototype
Стилі APA, Harvard, Vancouver, ISO та ін.
42

Adda, Mehdi. "Intégration des connaissances ontologiques dans la fouille de motifs séquentiels avec application à la personnalisation web." Phd thesis, Université des Sciences et Technologie de Lille - Lille I, 2008. http://tel.archives-ouvertes.fr/tel-00842475.

Повний текст джерела
Анотація:
La fouille de données vise à extraire des connaissances à partir d'un grand volume de données. Lorsque les associations et l'ordre chronologique d'apparition des items sont recherchés, les connaissances extraites sont appelées motifs séquentiels. Les travaux de recherche existants ont porté principalement sur l'étude de motifs séquentiels composés d'objets et dans un certain nombre de cas, de catégories d'objets (concepts). Alors que les motifs d'objets sont trop spécifiques, et de ce fait peuvent être peu fréquents, les motifs de concepts ont divers niveaux d'abstraction et risquent d'être moins précis. La prise en compte d'une ontologie du domaine dans le processus de fouille de données permet de découvrir des motifs plus compacts et plus pertinents qu'en l'absence d'une telle source de connaissance. En outre, les objets peuvent non seulement être décrits par les concepts auxquels ils se rattachent mais aussi par les liens sémantiques qui existent entre concepts. Cependant, les approches de fouille existantes restent restrictives par rapport aux modes d'expression offerts par une ontologie. La contribution de ce travail est de définir la syntaxe et la sémantique d'un langage de motifs qui prend en considération les connaissances incorporées dans une ontologie lors de la fouille de motifs séquentiels. Ce langage offre un ensemble de primitives pour la description et la manipulation de motifs. La méthode de fouille sous-jacente procède au parcours de l'espace de motifs par niveau en se basant sur un ensemble de primitives de navigation. Ces primitives tiennent compte de la relation de généralisation/spécialisation qui existe entre les concepts (et les relations) des motifs. Afin de valider notre approche et analyser la performance et la mise à l'échelle de l'algorithme proposé, nous avons développé la plateforme OntoMiner. Tout au long de la thèse, le potentiel de notre approche de fouille a été illustré à travers un cas de recom- mandation Web. Il ressort que l'inclusion des concepts et des relations dans le processus de fouille permet d'avoir des motifs plus pertinents et de meilleures recommandations que les approches classiques de fouille de motifs séquentiels ou de recommandation.
Стилі APA, Harvard, Vancouver, ISO та ін.
43

Egho, Elias. "Extraction de motifs séquentiels dans des données séquentielles multidimensionnelles et hétérogènes : une application à l'analyse de trajectoires de patients." Thesis, Université de Lorraine, 2014. http://www.theses.fr/2014LORR0066/document.

Повний текст джерела
Анотація:
Tous les domaines de la science et de la technologie produisent de gros volume de données hétérogènes. L'exploration de tels volumes de données reste toujours un défi. Peu de travaux ciblent l'exploration et l'analyse de données séquentielles multidimensionnelles et hétérogènes. Dans ce travail, nous proposons une contribution à la découverte de connaissances dans les données séquentielles hétérogènes. Nous étudions trois axes de recherche différents: (i) l'extraction de motifs séquentiels, (ii) la classification et (iii) le clustering des données séquentielles. Tout d'abord, nous généralisons la notion de séquence multidimensionnelle en considérant la structure complexe et hétérogène. Nous présentons une nouvelle approche MMISP pour extraire des motifs séquentiels à partir de données séquentielles multidimensionnelles et hétérogènes. MMISP génère un grand nombre de motifs séquentiels comme cela est généralement le cas pour toues les algorithmes d'énumération des motifs. Pour surmonter ce problème, nous proposons une nouvelle façon de considérer les séquences multidimensionnelles hétérogènes en les associant à des structures de patrons. Nous développons une méthode pour énumérer seulement les motifs qui respectent certaines contraintes. La deuxième direction de recherche est la classification de séquences multidimensionnelles et hétérogènes. Nous utilisons l'analyse formelle de concept (AFC) comme une méthode de classification. Nous montrons l'intérêt des treillis de concepts et de l'indice de stabilité pour classer les séquences et pour choisir quelques groupes intéressants de séquences. La troisième direction de recherche dans cette thèse est préoccupé par le regroupement des données séquentielles multidimensionnelles et hétérogènes. Nous nous basons sur la notion de sous-séquences communes pour définir une mesure de similarité permettant d'évaluer la proximité entre deux séquences formées d'une liste d'ensemble d'items. Nous utilisons cette mesure de similarité pour construire une matrice de similarité entre les séquences et pour les segmenter en plusieurs groupes. Dans ce travail, nous présentons les résultats théoriques et un algorithme de programmation dynamique permettant de compter efficacement toutes les sous-séquences communes à deux séquences sans énumérer toutes les séquences. Le système résultant de cette recherches a été appliqué pour analyser et extraire les trajectoires de soins de santé des patients en cancérologie. Les données sont issues d' une base de données médico-administrative incluant des informations sur des patients hospitalisent en France. Le système permet d'identifier et de caractériser des épisodes de soins pour des ensembles spécifiques de patients. Les résultats ont été discutés et interprétés avec les experts du domaine
All domains of science and technology produce large and heterogeneous data. Although a lot of work was done in this area, mining such data is still a challenge. No previous research work targets the mining of heterogeneous multidimensional sequential data. This thesis proposes a contribution to knowledge discovery in heterogeneous sequential data. We study three different research directions: (i) Extraction of sequential patterns, (ii) Classification and (iii) Clustering of sequential data. Firstly we generalize the notion of a multidimensional sequence by considering complex and heterogeneous sequential structure. We present a new approach called MMISP to extract sequential patterns from heterogeneous sequential data. MMISP generates a large number of sequential patterns as this is usually the case for pattern enumeration algorithms. To overcome this problem, we propose a novel way of considering heterogeneous multidimensional sequences by mapping them into pattern structures. We develop a framework for enumerating only patterns satisfying given constraints. The second research direction is in concern with the classification of heterogeneous multidimensional sequences. We use Formal Concept Analysis (FCA) as a classification method. We show interesting properties of concept lattices and of stability index to classify sequences into a concept lattice and to select some interesting groups of sequences. The third research direction in this thesis is in concern with the clustering of heterogeneous multidimensional sequential data. We focus on the notion of common subsequences to define similarity between a pair of sequences composed of a list of itemsets. We use this similarity measure to build a similarity matrix between sequences and to separate them in different groups. In this work, we present theoretical results and an efficient dynamic programming algorithm to count the number of common subsequences between two sequences without enumerating all subsequences. The system resulting from this research work was applied to analyze and mine patient healthcare trajectories in oncology. Data are taken from a medico-administrative database including all information about the hospitalizations of patients in Lorraine Region (France). The system allows to identify and characterize episodes of care for specific sets of patients. Results were discussed and validated with domain experts
Стилі APA, Harvard, Vancouver, ISO та ін.
44

Pham, Quang-Khai. "Time Sequence Summarization: Theory and Applications." Phd thesis, Université de Nantes, 2010. http://tel.archives-ouvertes.fr/tel-00538512.

Повний текст джерела
Анотація:
Les domaines de la médecine, du web, du commerce ou de la nance génèrent et stockent de grandes masses d'information sous la forme de séquences d'événements. Ces archives représentent des sources d'information très riches pour des analystes avides d'y découvrir des perles de connaissance. Par exemple, les biologistes cherchent à découvrir les facteurs de risque d'une maladie en analysant l'historique des patients, les producteurs de contenu web et les bureaux de marketing examinent les habitudes de consommation des clients et les opérateurs boursiers suivent les évolutions du marché pour mieux l'anticiper. Cependant, ces applications requièrent l'exploration de séquences d'événements très volumineuses, par exemple, la nance génère quotidiennement des millions d'événements, où les événements peuvent être décrits par des termes extraits de riches contenus textuels. La variabilité des descripteurs peut alors être très grande. De ce fait, découvrir des connaissances non triviales à l'aide d'approches classiques de fouille de données dans ces sources d'information prolixes est un problème dicile. Une étude récente montre que les approches classiques de fouille de données peuvent tirer prot de formes condensées de ces données, telles que des résultats d'agrégation ou encore des résumés. La connaissance ainsi extraite est qualiée de connaissance d'ordre supérieur. À partir de ce constat, nous présentons dans ces travaux le concept de résumé de séquence d'événements dont le but est d'amener les applications dépendantes du temps à gagner un facteur d'échelle sur de grandes masses de données. Un résumé s'obtient en transformant une séquence d'événements où les événements sont ordonnés chronologiquement. Chaque événement est précisément décrit par un ensemble ni de descripteurs symboliques. Le résumé produit est alors une séquence d'événements, plus concise que la séquence initiale, et pouvant s'y substituer dans les applications. Nous proposons une première méthode de construction guidée par l'utilisateur, appelée TSaR. Il s'agit d'un processus en trois phases : i) une généralisation, ii) un regroupement et iii) une formation de concepts. TSaR utilise des connaissances de domaine exprimées sous forme de taxonomies pour généraliser les descripteurs d'événements. Une fenêtre temporelle est donnée pour contrôler le processus de regroupement selon la proximité temporelle des événements. Dans un second temps, pour rendre le processus de résumé autonome, c'est- à-dire sans paramétrage, nous proposons une redénition du problème de résumé en un nouveau problème de classication. L'originalité de ce problème de classication tient au fait que la fonction objective à optimiser dépend simultanément du contenu des événements et de leur proximité dans le temps. Nous proposons deux algorithmes gloutons appelés G-BUSS et GRASS pour répondre à ce problème. Enn, nous explorons et analysons l'aptitude des résumés de séquences d'événements à contribuer à l'extraction de motifs séquentiels d'ordre supérieur. Nous analysons les caractéristiques des motifs fréquents extraits des résumés et proposons une méthodologie qui s'appuie sur ces motifs pour en découvrir d'autres, à granularité plus ne. Nous évaluons et validons nos approches de résumé et notre méthodologie par un ensemble d'expériences sur un jeu de données réelles extraites des archives d'actualités nancières produites par Reuters.
Стилі APA, Harvard, Vancouver, ISO та ін.
45

Hamrouni, Tarek. "Fouille de représentations concises des motifs fréquents à travers les espaces de recherche conjonctif et disjonctif." Phd thesis, Université d'Artois, 2009. http://tel.archives-ouvertes.fr/tel-00465733.

Повний текст джерела
Анотація:
Durant ces dernières années, les quantités de données collectées, dans divers domaines d'application de l'informatique, deviennent de plus en plus importantes. Cela suscite le besoin d'analyser et d'interpréter ces données afin d'en extraire des connaissances utiles. Dans cette situation, le processus d'Extraction de Connaissances à partir des Données est un processus complet visant à extraire des connaissances cachées, nouvelles et potentiellement utiles à partir de grands volumes de données. Parmi ces étapes, la fouille de données offre les outils et techniques permettant une telle extraction. Plusieurs travaux de recherche en fouille de données concernent la découverte des règles d'association, permettant d'identifier des liens entre ensembles de descripteurs (ou attributs ou items) décrivant un ensemble d'objets (ou individus ou transactions). Les règles d'association ont montré leur utilité dans plusieurs domaines d'application tels que la gestion de la relation client en grande distribution (analyse du panier de la ménagère pour déterminer les produits souvent achetés simultanément, et agencer les rayons et organiser les promotions en conséquence), la biologie moléculaire (analyse des associations entre gènes), etc. De manière générale, la construction des règles d'association s'effectue en deux étapes : l'extraction des ensembles d'items (ou itemsets) fréquents, puis la génération des règles d'association à partir de des itemsets fréquents. Dans la pratique, le nombre de motifs (itemsets fréquents ou règles d'associations) extraits ou générés, peut être très élevé, ce qui rend difficile leur exploitation pertinente par les utilisateurs. Pour pallier ce problème, certains travaux de recherche proposent l'usage d'un noyau de motifs, appelés représentations concises, à partir desquels les motifs redondants peuvent être régénérés. Le but de telles représentations est de condenser les motifs extraits tout en préservant autant que possible les informations cachées et intéressantes sur des données. Dans la littérature, beaucoup de représentations concises des motifs fréquents ont été proposées, explorant principalement l'espace de recherche conjonctif. Dans cet espace, les itemsets sont caractérisés par la fréquence de leur co-occurrence. Ceci fait l'objet de la première partie de ce travail. Une étude détaillée proposée dans cette thèse prouve que les itemsets fermés et les générateurs minimaux sont un moyen de représenter avec concision les itemsets fréquents et les règles d'association. Les itemsets fermés structurent l'espace de recherche dans des classes d'équivalence tels que chaque classe regroupe les itemsets apparaissant dans le même sous-ensemble (appelé aussi objets ou transactions) des données. Un itemset fermé inclut l'expression la plus spécifique décrivant les transactions associées, alors qu'un générateur minimal inclut une des expressions les plus générales. Cependant, une redondance combinatoire intra-classe résulte logiquement de l'absence inhérente d'un seul générateur minimal associé à un itemset fermé donné. Ceci nous amotivé à effectuer une étude approfondie visant à maintenir seulement les générateurs minimaux irréductibles dans chaque classe d'équivalence, et d'élaguer les autres. À cet égard, il est proposé une réduction sans perte d'information de l'ensemble des générateurs minimaux grâce à un nouveau processus basé sur la substitution. Une étude complète des propriétés associées aux familles obtenues est présentée. Les résultats théoriques sont ensuite étendus au cadre de règles d'association afin de réduire autant que possible le nombre de règles maintenues sans perte d'information. Puis, est présentée une étude formelle complète du mécanisme d'inférence permettant de dériver toutes les règles d'association redondantes, à partir de celles maintenues. Afin de valider l'approche proposée, les algorithmes de construction de ces représentations concises de motifs sont présentés ainsi que les résultats des expérimentations réalisées en terme de concision et de temps de calcul. La seconde partie de ce travail est consacrée à une exploration complète de l'espace de recherche disjonctif des itemsets, où ceux-ci sont caractérisés par leurs supports disjonctifs. Ainsi dans l'espace disjonctif, un itemset vérifie une transaction si au moins un de ses items y est présent. Les itemsets disjonctifs véhiculent ainsi une connaissance au sujet des occurrences complémentaires d'items dans un ensemble de données. Cette exploration est motivée par le fait que, dans certaines applications, une telle information peut être utile aux utilisateurs. Lors de l'analyse d'une séquence génétique par exemple, le fait d'engendrer une information telle que " présence d'un gène X ou la présence d'un gène Y ou ... " présente un intérêt pour le biologiste. Afin d'obtenir une représentation concise de l'espace de recherche disjonctif, une solution intéressante consiste à choisir un seul élément pour représenter les itemsets couvrant le même ensemble de données. Deux itemsets sont équivalents si leurs items respectifs couvrent le même ensemble de données. À cet égard, un nouvel opérateur consacré à cette tâche, a été introduit. Dans chaque classe d'équivalence induite, les éléments minimaux sont appelés itemsets essentiels, alors que le plus grand élément est appelé itemset fermé disjonctif. L'opérateur présenté est alors à la base de nouvelles représentations concises des itemsets fréquents. L'espace de recherche disjonctif est ensuite exploité pour dériver des règles d'association généralisées. Ces dernières règles généralisent les règles classiques pour offrir également des connecteurs de disjonction et de négation d'items, en plus de celui conjonctif. Des outils (algorithme et programme) dédiés ont été alors conçus et mis en application pour extraire les itemsets disjonctifs et les règles d'association généralisées. Les résultats des expérimentations effectuées ont montré l'utilité de notre exploration et ont mis en valeur la concision des représentations concises proposées.
Стилі APA, Harvard, Vancouver, ISO та ін.
46

Pennerath, Frédéric. "Méthodes d'extraction de connaissances à partir de données modélisables par des graphes : Application à des problèmes de synthèse organique." Phd thesis, Université Henri Poincaré - Nancy I, 2009. http://tel.archives-ouvertes.fr/tel-00436568.

Повний текст джерела
Анотація:
Des millions de réactions chimiques sont décrites dans des bases de données sous la forme de transformations de graphes moléculaires. Cette thèse propose différentes méthodes de fouille de donnés pour extraire des motifs pertinents contenus dans ces graphes et ainsi aider les chimistes à améliorer leurs connaissances des réactions chimiques et des molécules. Ainsi on commence par montrer comment le problème central de la recherche des schémas de réactions fréquents peut se résoudre à l'aide de méthodes existantes de recherche de sous-graphes fréquents. L'introduction du modèle général des motifs les plus informatifs permet ensuite de restreindre l'analyse de ces motifs fréquents à un nombre réduit de motifs peu redondants et représentatifs des données. Si l'application du modèle aux bases de réactions permet d'identifier de grandes familles de réactions, le modèle est inadapté pour extraire les schémas caractéristiques de méthodes de synthèse (schémas CMS) dont la fréquence est trop faible. Afin de surmonter cet obstacle, est ensuite introduite une méthode de recherche heuristique fondée sur une contrainte d'intervalle entre graphes et adaptée à l'extraction de motifs de très faible fréquence. Cette méthode permet ainsi de déterminer à partir d'exemples de réactions et sous certaines conditions le schéma CMS sous-jacent à une réaction donnée. La même approche est ensuite utilisée pour traiter le problème de la classification supervisée de sommets ou d'arêtes fondée sur leurs environnements puis exploitée pour évaluer la formabilité des liaisons d'une molécule. Les résultats produits ont pu être analysés par des experts de la synthèse organique et sont très encourageants.
Стилі APA, Harvard, Vancouver, ISO та ін.
47

Szathmary, Laszlo. "Méthodes symboliques de fouille de données avec la plate-forme Coron." Phd thesis, Université Henri Poincaré - Nancy I, 2006. http://tel.archives-ouvertes.fr/tel-00336374.

Повний текст джерела
Анотація:
Le sujet principal de cette thèse est l'extraction de connaissances dans les bases de données (ECBD). Plus précisément, nous avons étudié deux des plus importantes tâches d'ECBD actuelles, qui sont l'extraction de motifs et la génération de règles d'association. Tout au long de notre travail, notre objectif a été de trouver des règles d'associations intéressantes selon plusieurs points de vue : dans un but de fouille efficace, pour réduire au minimum l'ensemble des règles extraites et pour trouver des unités de connaissances intelligibles (et facilement interprétables). Pour atteindre ce but, nous avons développé et adapté des algorithmes spécifiques.
Les contributions principales de cette thèse sont : (1) nous avons développé et adapté des algorithmes pour trouver les règles d'association minimales non-redondantes ; (2) nous avons défini une nouvelle base pour les règles d'associations appelée “règles fermées” ; (3) nous avons étudié un champ de l'ECBD important mais relativement peu étudié, à savoir l'extraction des motifs rares et des règles d'association rares ; (4) nous avons regroupé nos algorithmes et une collection d'autres algorithmes ainsi que d'autres opérations auxiliaires d'ECBD dans une boîte à outils logicielle appelée Coron.
Стилі APA, Harvard, Vancouver, ISO та ін.
48

Fabregue, Mickael. "Extraction d'informations synthétiques à partir de données séquentielles : application à l'évaluation de la qualité des rivières." Thesis, Strasbourg, 2014. http://www.theses.fr/2014STRAD016/document.

Повний текст джерела
Анотація:
L'exploration des bases de données temporelles à l'aide de méthodes de fouille de données adaptées a fait l'objet de nombreux travaux de recherche. Cependant le volume d'informations extraites est souvent important et la tâche d'analyse reste alors difficile. Dans cette thèse, nous présentons des méthodes pour synthétiser et filtrer l'information extraite. L'objectif est de restituer des résultats qui soient interprétables. Pour cela, nous avons exploité la notion de séquence partiellement ordonnée et nous proposons (1) un algorithme qui extrait l'ensemble des motifs partiellement ordonnés clos; (2) un post-traitement pour filtrer un ensemble de motifs d'intérêt et(3) une approche qui extrait un consensus comme alternative à l'extraction de motifs. Les méthodes proposées ont été testées sur des données hydrobiologiques issues du projet ANR Fresqueau et elles ont été implantées dans un logiciel de visualisation destiné aux hydrobiologistes pour l'analyse de la qualité des cours d'eau
Exploring temporal databases with suitable data mining methods have been the subject of several studies. However, it often leads to an excessive volume of extracted information and the analysis is difficult for the user. We addressed this issue and we specically focused on methods that synthesize and filter extracted information. The objective is to provide interpretable results for humans. Thus, we relied on the notion of partially ordered sequence and we proposed (1) an algorithm that extracts the set of closed partially ordered patterns ; (2) a post-processing to filter some interesting patterns for the user and (3) an approach that extracts a partially ordered consensus as an alternative to pattern extraction. The proposed methods were applied for validation on hydrobiological data from the Fresqueau ANR project. In addition, they have been implemented in a visualization tool designed for hydrobiologists for water course quality analysis
Стилі APA, Harvard, Vancouver, ISO та ін.
49

El, Ouassouli Amine. "Discovering complex quantitative dependencies between interval-based state streams." Thesis, Lyon, 2020. http://www.theses.fr/2020LYSEI061.

Повний текст джерела
Анотація:
Les avancées significatives qu’ont connu les technologies de capteurs, leur utilisation croissante ainsi que leur intégration dans les systèmes d’information permettent d’obtenir des descriptions temporelles riches d’environnements réels. L’information générée par de telles sources de données peut être qualifiée d’hétérogène sur plusieurs plans: types de mesures physiques, domaines et primitives temporelles, modèles de données etc. Dans ce contexte, l’application de méthodes de fouille de motifs constitue une opportunité pour la découverte de relations temporelles non-triviales, directement utilisables et facilement interprétables décrivant des phénomènes complexes. Nous proposons d’utiliser un ensemble d’abstraction temporelles pour construire une représentation unifiée, sous forme des flux d’intervalles (ou états), de l’information générée par un système hétérogène. Cette approche permet d’obtenir une description temporelle de l’environnent étudié à travers des attributs (ou états), dits de haut niveau, pouvant être utilisés dans la construction des motifs temporelles. A partir de cette représentation, nous nous intéressons à la découverte de dépendances temporelles quantitatives (avec information de délais) entre plusieurs flux d’intervalles. Nous introduisons le modèle de dépendances Complex Temporal Dependency (CTD) défini de manière similaire à une forme normale conjonctive. Ce modèle permets d’exprimer un ensemble riche de relations temporelles complexes. Pour ce modèle de dépendances nous proposons des algorithmes efficaces de découverte : CTD-Miner et ITLD - Interval Time Lag Discovery. Finalement, nous évaluons les performances de notre proposition ainsi que la qualité des résultats obtenus à travers des données issues de simulations ainsi que des données réelles collectées à partir de caméras et d’analyse vidéo
The increasing utilization of sensor devices in addition to human-given data make it possible to capture real world systems complexity through rich temporal descriptions. More precisely, the usage of a multitude of data sources types allows to monitor an environment by describing the evolution of several of its dimensions through data streams. One core characteristic of such configurations is heterogeneity that appears at different levels of the data generation process: data sources, time models and data models. In such context, one challenging task for monitoring systems is to discover non-trivial temporal knowledge that is directly actionable and suitable for human interpretation. In this thesis, we firstly propose to use a Temporal Abstraction (TA) approach to express information given by heterogeneous raw data streams with a unified interval-based representation, called state streams. A state reports on a high level environment configuration that is of interest for an application domain. Such approach solves problems introduced by heterogeneity, provides a high level pattern vocabulary and also permits also to integrate expert(s) knowledge into the discovery process. Second, we introduced the Complex Temporal Dependencies (CTD) that is a quantitative interval-based pattern model. It is defined similarly to a conjunctive normal form and allows to express complex temporal relations between states. Contrary to the majority of existing pattern models, a CTD is evaluated with automatic statistical assessment of streams intersection avoiding the use of any significance user-given parameter. Third, we proposed CTD-Miner a first efficient CTD mining framework. CTD-Miner performs an incremental dependency construction. CTD-Miner benefits from pruning techniques based on a statistical correspondence relationship that aims to accelerate the exploration search space by reducing redundant information and provide a more usable result set. Finally, we proposed the Interval Time Lag Discovery (ITLD) algorithm. ITLD is based on a confidence variation heuristic that permits to reduce the complexity of the pairwise dependency discovery process from quadratic to linear w.r.t a temporal constraint Δ on time lags. Experiments on simulated and real world data showed that ITLD provides efficiently more accurate results in comparison with existing approaches. Hence, ITLD enhances significantly the accuracy, performances and scalability of CTD-Miner. The encouraging results given by CTD-Miner on our real world motion data set suggests that it is possible to integrate insights given by real time video processing approaches in a knowledge discovery process opening interesting perspectives for monitoring smart environments
Стилі APA, Harvard, Vancouver, ISO та ін.
50

Shah, Faaiz Hussain. "Gradual Pattern Extraction from Property Graphs." Thesis, Montpellier, 2019. http://www.theses.fr/2019MONTS025/document.

Повний текст джерела
Анотація:
Les bases de données orientées graphes (NoSQL par exemple) permettent de gérer des données dans lesquelles les liens sont importants et des requêtes complexes sur ces données à l’aide d’un environnement dédié offrant un stockage et des traitements spécifiquement destinés à la structure de graphe. Un graphe de propriété dans un environnement NoSQL est alors vu comme un graphe orienté étiqueté dans lequel les étiquettes des nœuds et les relations sont des ensembles d’attributs (propriétés) de la forme (clé:valeur). Cela facilite la représentation de données et de connaissances sous la forme de graphes. De nombreuses applications réelles de telles bases de données sont actuellement connues dans le monde des réseaux sociaux, mais aussi des systèmes de recommandation, de la détection de fraudes, du data-journalisme (pour les panama papers par exemple). De telles structures peuvent cependant être assimilées à des bases NoSQL semi-structurées dans lesquelles toutes les propriétés ne sont pas présentes partout, ce qui conduit à des valeurs non présentes de manière homogène, soit parce que la valeur n’est pas connue (l’âge d’une personne par exemple) ou parce qu’elle n’est pas applicable (l’année du service militaire d’une femme par exemple dans un pays et à une époque à laquelle les femmes ne le faisaient pas). Cela gêne alors les algorithmes d’extraction de connaissance qui ne sont pas tous robustes aux données manquantes. Des approches ont été proposées pour remplacer les données manquantes et permettre aux algorithmes d’être appliqués. Cependant,nous considérons que de telles approches ne sont pas satisfaisantes car elles introduisent un biais ou même des erreurs quand aucune valeur n’était applicable. Dans nos travaux, nous nous focalisons sur l’extraction de motifs graduels à partir de telles bases de données. Ces motifs permettent d’extraire automatiquement les informations corrélées. Une première contribution est alors de définir quels sont les motifs pouvant être extraits à partir de telles bases de données. Nous devons, dans un deuxième temps, étendre les travaux existant dans la littérature pour traiter les valeurs manquantes dans les bases de données graphe, comme décrit ci-dessus. L’application de telles méthodes est alors rendue difficile car les propriétés classiquement appliquées en fouille de données (anti-monotonie) ne sont plus valides. Nous proposons donc une nouvelle approche qui est testée sur des données réelles et synthétiques. Une première forme de motif est extrait à partir des propriétés des nœuds et est étendue pour prendre en compte les relations entre nœuds. Enfin, notre approche est étendue au cas des motifs graduels flous afin de mieux prendre en compte la nature imprécise des connaissances présentes et à extraire. Les expérimentations sur des bases synthétiques ont été menées grâce au développement d’un générateur de bases de données de graphes de propriétés synthétiques. Nous en montrons les résultats en termes de temps calcul et consommation mémoire ainsi qu’en nombre de motifs générés
Graph databases (NoSQL oriented graph databases) provide the ability to manage highly connected data and complex database queries along with the native graph-storage and processing. A property graph in a NoSQL graph engine is a labeled directed graph composed of nodes connected through relationships with a set of attributes or properties in the form of (key:value) pairs. It facilitates to represent the data and knowledge that are in form of graphs. Practical applications of graph database systems have been seen in social networks, recommendation systems, fraud detection, and data journalism, as in the case for panama papers. Often, we face the issue of missing data in such kind of systems. In particular, these semi-structured NoSQL databases lead to a situation where some attributes (properties) are filled-in while other ones are not available, either because they exist but are missing (for instance the age of a person that is unknown) or because they are not applicable for a particular case (for instance the year of military service for a girl in countries where it is mandatory only for boys). Therefore, some keys can be provided for some nodes and not for other ones. In such a scenario, when we want to extract knowledge from these new generation database systems, we face the problem of missing data that arise need for analyzing them. Some approaches have been proposed to replace missing values so as to be able to apply data mining techniques. However, we argue that it is not relevant to consider such approaches so as not to introduce biases or errors. In our work, we focus on the extraction of gradual patterns from property graphs that provide end-users with tools for mining correlations in the data when there exist missing values. Our approach requires first to define gradual patterns in the context of NoSQL property graph and then to extend existing algorithms so as to treat the missing values, because anti-monotonicity of the support can not be considered anymore in a simple manner. Thus, we introduce a novel approach for mining gradual patterns in the presence of missing values and we test it on real and synthetic data. Further to this work, we present our approach for mining such graphs in order to extract frequent gradual patterns in the form of ``the more/less $A_1$,..., the more/less $A_n$" where $A_i$ are information from the graph, should it be from the nodes or from the relationships. In order to retrieve more valuable patterns, we consider fuzzy gradual patterns in the form of ``The more/less the A_1 is F_1,...,the more/less the A_n is F_n" where A_i are attributes retrieved from the graph nodes or relationships and F_i are fuzzy descriptions. For this purpose, we introduce the definitions of such concepts, the corresponding method for extracting the patterns, and the experiments that we have led on synthetic graphs using a graph generator. We show the results in terms of time utilization, memory consumption and the number of patterns being generated
Стилі APA, Harvard, Vancouver, ISO та ін.
Ми пропонуємо знижки на всі преміум-плани для авторів, чиї праці увійшли до тематичних добірок літератури. Зв'яжіться з нами, щоб отримати унікальний промокод!

До бібліографії