Dissertations / Theses on the topic 'Exploration de données cachées'

To see the other types of publications on this topic, follow the link: Exploration de données cachées.

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Exploration de données cachées.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Hayat, Khizar. "Visualisation 3D adaptée par insertion synchronisée de données cachées." Phd thesis, Université Montpellier II - Sciences et Techniques du Languedoc, 2009. http://tel.archives-ouvertes.fr/tel-00400762.

Full text
Abstract:
L'objectif principal de ces travaux de thèse est d'unifier différentes informations 2D et 3D afin de réaliser une visualisation adaptée dans un environnement client/serveur hétérogène en termes de réseau, de traitement et de ressources mémoire. Dans ce contexte, nous avons exploité la nature multi-résolution de la transformée en ondelettes discrètes (TOD) du codeur JPEG2000. L'unification des données est réalisée par insertion aveugle, synchrone ou partiellement synchrone, des données cachées dans le domaine des ondelettes. Une visualisation 3D classique nécessite au moins deux types de données : une image 2D d'intensité, appelé texture, et une forme 3D pouvant être représentée par une image, un modèle 3D ombré ou un maillage de points. Ce type d'image, parfois également appelé carte de profondeur est une image dans laquelle la valeur des pixels reflète la distance du capteur à la surface par imagerie. La texture est une image 2D couleur qui est apposée sur le modèle 3D après triangulation. Au niveau de l'insertion des données cachées, la carte de profondeur est d'abord transformée dans le domaine des ondelettes tandis que la texture est insérée dans le codeur JPEG2000. Le processus de codage JPEG2000 de la texture est interrompue, et les coefficients 3D sont insérés dans la totalité ou dans un sous-ensemble des sous-bandes de la texture. Les données sont re-intégrées dans le codeur standard de JPEG2000 à l'endroit où l'interruption a été faite. Le fichier résultant peut alors être envoyé à travers tous types de canal de communication comme un autre fichier standard issu du codeur JPEG2000. Les différents niveaux de résolution et le caractère synchronisé de nos algorithmes permettent une visualisation en 3D, même avec peu de sous-bandes de résolution suite à un transfert partiel ou retardé. La méthode permet ainsi d'effectuer une visualisation à partir uniquement d'une fraction des données. Dans ce cas nous remplaçons par des zéros les coefficients des sous-bandes manquantes. La première phase de ce travail a concerné l'imperceptibilité; c'est la raison pour laquelle l'insertion a été réalisée dans les bits de poids plus faibles. La deuxième phase de ces travaux a concerné la robustesse, c'est pourquoi une stratégie d'insertion par étalement de spectres a été utilisée. Au cours de la seconde phase, l'imperceptibilité n'a pas été complètement ignorée, du fait que l'insertion des données est effaçable après l'extraction. Les deux applications principales sont la visualisation 3D de modèles numériques de terrains et de visages. Dans la troisième et dernière phase de ces travaux de thèse, nous avons élargi le problème en essayant de prendre en compte le problème d'assemblage de dalles de niveaux de résolutions différentes sans soudure apparente. Ceci a eté assuré par des fonctions de lissage dans le domaine des ondelettes.
APA, Harvard, Vancouver, ISO, and other styles
2

Meuel, Peter. "Insertion de données cachées dans des vidéos au format H. 264." Montpellier 2, 2009. http://www.theses.fr/2009MON20218.

Full text
Abstract:
Cette thèse adresse deux problèmes majeurs rencontrés par l'adoption massive du format vidéo H. 264: la protection de la vie privée dans la vidéo-surveillance et le besoin de méthodes sûres pour le tatouage robuste. Une première contribution pour la t permet d'obtenir un unique flux vidéo compatible H. 264 qui restreint l'accès aux visages filmées aux seules personnes détentrices d'une clé de chiffrement. La performance des résultats obtenus valident la possibilité d'utilisation en temps-réel dans des caméras de vidéo-surveillance Une seconde contribution concernant le tatouage robuste a pour base l'état de l'art du tatouage dit sûr appliqué aux vidéos. A l'inverse d'un chiffrement, la sécurité de la méthode provient directement de l'insertion de données dans un espace secret. Les travaux détaillent toutes les étapes d'adaptation et d'optimisation de cette méthode aux vidéos au format H. 264
This thesis targets two major issues cause by the massive adoption of the H. 264 video format: the privacy issue with closed-circuit television and the need of secure and robust watermarking methods for the video content. A first contribution adresses the privacy issue achieve the creation of a single video flow wich restraint the visual information of the filmed faces only to persons with the appropriate key. Performances of the results show the usability of the method in video-camera. The second contribution about the robust watermarking uses the secure watermarking state-of-the-art applied to video. On the opposite of crypting, the security of the method relies on the secret subspace for the insertion. The work explains the entire process for an adaptation to the H. 264 video format
APA, Harvard, Vancouver, ISO, and other styles
3

Liu, Zhenjiao. "Incomplete multi-view data clustering with hidden data mining and fusion techniques." Electronic Thesis or Diss., Institut polytechnique de Paris, 2023. http://www.theses.fr/2023IPPAS011.

Full text
Abstract:
Le regroupement de données multivues incomplètes est un axe de recherche majeur dans le domaines de l'exploration de données et de l'apprentissage automatique. Dans les applications pratiques, nous sommes souvent confrontés à des situations où seule une partie des données modales peut être obtenue ou lorsqu'il y a des valeurs manquantes. La fusion de données est une méthode clef pour l'exploration d'informations multivues incomplètes. Résoudre le problème de l'extraction d'informations multivues incomplètes de manière ciblée, parvenir à une collaboration flexible entre les vues visibles et les vues cachées partagées, et améliorer la robustesse sont des défis. Cette thèse se concentre sur trois aspects : l'exploration de données cachées, la fusion collaborative et l'amélioration de la robustesse du regroupement. Les principales contributions sont les suivantes:1) Exploration de données cachées pour les données multi-vues incomplètes : les algorithmes existants ne peuvent pas utiliser pleinement l'observation des informations dans et entre les vues, ce qui entraîne la perte d'une grande quantité d'informations. Nous proposons donc un nouveau modèle de regroupement multi-vues incomplet IMC-NLT (Incomplete Multi-view Clustering Based on NMF and Low-Rank Tensor Fusion) basé sur la factorisation de matrices non négatives et la fusion de tenseurs de faible rang. IMC-NLT utilise d'abord un tenseur de faible rang pour conserver les caractéristiques des vues avec une dimension unifiée. En utilisant une mesure de cohérence, IMC-NLT capture une représentation cohérente à travers plusieurs vues. Enfin, IMC-NLT intègre plusieurs apprentissages dans un modèle unifié afin que les informations cachées puissent être extraites efficacement à partir de vues incomplètes. Des expériences sur cinq jeux de données ont validé les performances d'IMC-NLT.2) Fusion collaborative pour les données multivues incomplètes : notre approche pour résoudre ce problème est le regroupement multivues incomplet par représentation à faible rang. L'algorithme est basé sur une représentation éparse de faible rang et une représentation de sous-espace, dans laquelle les données manquantes sont complétées en utilisant les données d'une modalité et les données connexes d'autres modalités. Pour améliorer la stabilité des résultats de clustering pour des données multi-vues avec différents degrés de manquants, CCIM-SLR utilise le modèle Γ-norm, qui est une méthode de représentation à faible rang ajustable. CCIM-SLR peut alterner entre l'apprentissage de la vue cachée partagée, la vue visible et les partitions de clusters au sein d'un cadre d'apprentissage collaboratif. Un algorithme itératif avec convergence garantie est utilisé pour optimiser la fonction objective proposée.3) Amélioration de la robustesse du regroupement pour les données multivues incomplètes : nous proposons une fusion de la convolution graphique et des goulots d'étranglement de l'information (apprentissage de la représentation multivues incomplète via le goulot d'étranglement de l'information). Nous introduisons la théorie du goulot d'étranglement de l'information afin de filtrer les données parasites contenant des détails non pertinents et de ne conserver que les éléments les plus pertinents. Nous intégrons les informations sur la structure du graphe basées sur les points d'ancrage dans les informations sur le graphe local. Le modèle intègre des représentations multiples à l'aide de goulets d'étranglement de l'information, réduisant ainsi l'impact des informations redondantes dans les données. Des expériences approfondies sont menées sur plusieurs ensembles de données du monde réel, et les résultats démontrent la supériorité de IMRL-AGI. Plus précisément, IMRL-AGI montre des améliorations significatives dans la précision du clustering et de la classification, même en présence de taux élevés de données manquantes par vue (par exemple, 10,23 % et 24,1% respectivement sur l'ensemble de données ORL)
Incomplete multi-view data clustering is a research direction that attracts attention in the fields of data mining and machine learning. In practical applications, we often face situations where only part of the modal data can be obtained or there are missing values. Data fusion is an important method for incomplete multi-view information mining. Solving incomplete multi-view information mining in a targeted manner, achieving flexible collaboration between visible views and shared hidden views, and improving the robustness have become quite challenging. This thesis focuses on three aspects: hidden data mining, collaborative fusion, and enhancing the robustness of clustering. The main contributions are as follows:1. Hidden data mining for incomplete multi-view data: existing algorithms cannot make full use of the observation of information within and between views, resulting in the loss of a large amount of valuable information, and so we propose a new incomplete multi-view clustering model IMC-NLT (Incomplete Multi-view Clustering Based on NMF and Low-Rank Tensor Fusion) based on non-negative matrix factorization and low-rank tensor fusion. IMC-NLT first uses a low-rank tensor to retain view features with a unified dimension. Using a consistency measure, IMC-NLT captures a consistent representation across multiple views. Finally, IMC-NLT incorporates multiple learning into a unified model such that hidden information can be extracted effectively from incomplete views. We conducted comprehensive experiments on five real-world datasets to validate the performance of IMC-NLT. The overall experimental results demonstrate that the proposed IMC-NLT performs better than several baseline methods, yielding stable and promising results.2. Collaborative fusion for incomplete multi-view data: our approach to address this issue is Incomplete Multi-view Co-Clustering by Sparse Low-Rank Representation (CCIM-SLR). The algorithm is based on sparse low-rank representation and subspace representation, in which jointly missing data is filled using data within a modality and related data from other modalities. To improve the stability of clustering results for multi-view data with different missing degrees, CCIM-SLR uses the Γ-norm model, which is an adjustable low-rank representation method. CCIM-SLR can alternate between learning the shared hidden view, visible view, and cluster partitions within a co-learning framework. An iterative algorithm with guaranteed convergence is used to optimize the proposed objective function. Compared with other baseline models, CCIM-SLR achieved the best performance in the comprehensive experiments on the five benchmark datasets, particularly on those with varying degrees of incompleteness.3. Enhancing the clustering robustness for incomplete multi-view data: we offer a fusion of graph convolution and information bottlenecks (Incomplete Multi-view Representation Learning Through Anchor Graph-based GCN and Information Bottleneck - IMRL-AGI). First, we introduce the information bottleneck theory to filter out the noise data with irrelevant details and retain only the most relevant feature items. Next, we integrate the graph structure information based on anchor points into the local graph information of the state fused into the shared information representation and the information representation learning process of the local specific view, a process that can balance the robustness of the learned features and improve the robustness. Finally, the model integrates multiple representations with the help of information bottlenecks, reducing the impact of redundant information in the data. Extensive experiments are conducted on several real-world datasets, and the results demonstrate the superiority of IMRL-AGI. Specifically, IMRL-AGI shows significant improvements in clustering and classification accuracy, even in the presence of high view missing rates (e.g. 10.23% and 24.1% respectively on the ORL dataset)
APA, Harvard, Vancouver, ISO, and other styles
4

Rouan, Lauriane. "Apports des chaînes de Markov cachées à l'analyse de données de capture-recapture." Montpellier 2, 2007. http://www.theses.fr/2007MON20188.

Full text
APA, Harvard, Vancouver, ISO, and other styles
5

Eng, Catherine. "Développement de méthodes de fouille de données basées sur les modèles de Markov cachés du second ordre pour l'identification d'hétérogénéités dans les génomes bactériens." Thesis, Nancy 1, 2010. http://www.theses.fr/2010NAN10041/document.

Full text
Abstract:
Les modèles de Markov d’ordre 2 (HMM2) sont des modèles stochastiques qui ont démontré leur efficacité dans l’exploration de séquences génomiques. Cette thèse explore l’intérêt de modèles de différents types (M1M2, M2M2, M2M0) ainsi que leur couplage à des méthodes combinatoires pour segmenter les génomes bactériens sans connaissances a priori du contenu génétique. Ces approches ont été appliquées à deux modèles bactériens afin d’en valider la robustesse : Streptomyces coelicolor et Streptococcus thermophilus. Ces espèces bactériennes présentent des caractéristiques génomiques très distinctes (composition, taille du génome) en lien avec leur écosystème spécifique : le sol pour les S. coelicolor et le milieu lait pour S. thermophilus
Second-order Hidden Markov Models (HMM2) are stochastic processes with a high efficiency in exploring bacterial genome sequences. Different types of HMM2 (M1M2, M2M2, M2M0) combined to combinatorial methods were developed in a new approach to discriminate genomic regions without a priori knowledge on their genetic content. This approach was applied on two bacterial models in order to validate its achievements: Streptomyces coelicolor and Streptococcus thermophilus. These bacterial species exhibit distinct genomic traits (base composition, global genome size) in relation with their ecological niche: soil for S. coelicolor and dairy products for S. thermophilus. In S. coelicolor, a first HMM2 architecture allowed the detection of short discrete DNA heterogeneities (5-16 nucleotides in size), mostly localized in intergenic regions. The application of the method on a biologically known gene set, the SigR regulon (involved in oxidative stress response), proved the efficiency in identifying bacterial promoters. S. coelicolor shows a complex regulatory network (up to 12% of the genes may be involved in gene regulation) with more than 60 sigma factors, involved in initiation of transcription. A classification method coupled to a searching algorithm (i.e. R’MES) was developed to automatically extract the box1-spacer-box2 composite DNA motifs, structure corresponding to the typical bacterial promoter -35/-10 boxes. Among the 814 DNA motifs described for the whole S. coelicolor genome, those of sigma factors (B, WhiG) could be retrieved from the crude data. We could show that this method could be generalized by applying it successfully in a preliminary attempt to the genome of Bacillus subtilis
APA, Harvard, Vancouver, ISO, and other styles
6

Itier, Vincent. "Nouvelles méthodes de synchronisation de nuages de points 3D pour l'insertion de données cachées." Thesis, Montpellier, 2015. http://www.theses.fr/2015MONTS017/document.

Full text
Abstract:
Cette thèse aborde les problèmes liés à la protection de maillages d'objets 3D. Ces objets peuvent, par exemple, être créés à l'aide d'outil de CAD développés par la société STRATEGIES. Dans un cadre industriel, les créateurs de maillages 3D ont besoin de disposer d'outils leur permettant de vérifier l'intégrité des maillages, ou de vérifier des autorisations pour l'impression 3D par exemple. Dans ce contexte nous étudions l'insertion de données cachées dans des maillages 3D. Cette approche permet d'insérer de façon imperceptible et sécurisée de l'information dans un maillage. Il peut s'agir d'un identifiant, de méta-informations ou d'un contenu tiers, par exemple, pour transmettre de façon secrète une texture. L'insertion de données cachées permet de répondre à ces problèmes en jouant sur le compromis entre la capacité, l'imperceptibilité et la robustesse. Généralement, les méthodes d'insertion de données cachées se composent de deux phases, la synchronisation et l'insertion. La synchronisation consiste à trouver et ordonner les éléments disponibles pour l'insertion. L'un des principaux challenges est de proposer une méthode de synchronisation 3D efficace qui définit un ordre sur les composants des maillages. Dans nos travaux, nous proposons d'utiliser les sommets du maillage, plus précisément leur représentation géométrique dans l'espace comme composants de base pour la synchronisation et l'insertion. Nous présentons donc trois nouvelles méthodes de synchronisation de la géométrie des maillages basées sur la construction d'un chemin hamiltonien dans un nuage de sommets. Deux de ces méthodes permettent de manière conjointe de synchroniser les sommets et de cacher un message. Cela est possible grâce à deux nouvelles méthodes d'insertion haute capacité (de $3$ à $24$ bits par sommet) qui s'appuient sur la quantification des coordonnées. Dans ces travaux nous mettons également en évidence les contraintes propres à ce type de synchronisation. Nous discutons des différentes approches proposées dans plusieurs études expérimentales. Nos travaux sont évalués sur différents critères dont la capacité et l'imperceptibilité de la méthode d'insertion. Nous portons également notre attention aux aspects sécurité des méthodes
This thesis addresses issues relating to the protection of 3D object meshes. For instance, these objects can be created using CAD tool developed by the company STRATEGIES. In an industrial context, 3D meshes creators need to have tools in order to verify meshes integrity, or check permission for 3D printing for example.In this context we study data hiding on 3D meshes. This approach allows us to insert information in a secure and imperceptible way in a mesh. This may be an identifier, a meta-information or a third-party content, for instance, in order to transmit secretly a texture. Data hiding can address these problems by adjusting the trade-off between capacity, imperceptibility and robustness. Generally, data hiding methods consist of two stages, the synchronization and the embedding. The synchronization stage consists of finding and ordering available components for insertion. One of the main challenges is to propose an effective synchronization method that defines an order on mesh components. In our work, we propose to use mesh vertices, specifically their geometric representation in space, as basic components for synchronization and embedding. We present three new synchronisation methods based on the construction of a Hamiltonian path in a vertex cloud. Two of these methods jointly perform the synchronization stage and the embedding stage. This is possible thanks to two new high-capacity embedding methods (from 3 to 24 bits per vertex) that rely on coordinates quantization. In this work we also highlight the constraints of this kind of synchronization. We analyze the different approaches proposed with several experimental studies. Our work is assessed on various criteria including the capacity and imperceptibility of the embedding method. We also pay attention to security aspects of the proposed methods
APA, Harvard, Vancouver, ISO, and other styles
7

Lazrak, El Ghali. "Fouille de données stochastique pour la compréhension des dynamiques temporelles et spatiales des territoires agricoles. Contribution à une agronomie numérique." Phd thesis, Université de Lorraine, 2012. http://tel.archives-ouvertes.fr/tel-00782768.

Full text
Abstract:
L'agriculture est l'activité humaine qui utilise et transforme la plus grande partie de la surface terrestre. Son intensification et son uniformisation ont engendré plusieurs problèmes écologiques et environnementaux. Comprendre les dynamiques passées et actuelles des territoires agricoles à des échelles régionales, compatibles avec les échelles où s'expriment les services environnementaux et écologiques, est nécessaire pour mieux gérer l'évolution future des territoires agricoles. Pourtant, la plupart des travaux qui ont étudié les dynamiques agricoles à des échelles régionales ne distinguent pas les dynamiques liées au fonctionnement régulier de l'activité agricole de celles liées à des changements dans son fonctionnement. Les autres travaux rapportés dans la littérature qui font cette distinction présentent toutefois l'inconvénient d'être difficilement reproductibles. Cette thèse vise ainsi à développer une méthode générique de modélisation des dynamiques passées et actuelles de l'organisation territoriale de l'activité agricole (OTAA). Nous avons développé une méthode de modélisation stochastique fondée sur des modèles de Markov cachés qui permet de fouiller un corpus de données spatio-temporelles d'occupations du sol (OCS) en vue de le segmenter et de révéler des dynamiques agricoles cachées. Nous avons testé cette méthode sur des corpus d'OCS issus de sources variées (relevés de terrain, télédétection) et appartenant à deux territoires agricoles de dimensions régionales : le site d'étude de Chizé (430 km², Poitou-Charentes) et le bassin versant du Yar (60 km², Bretagne). Cette méthode apporte 3 contributions à la modélisation de l'OTAA : (i) la description de l'OTAA suivant une approche temporo-spatiale qui identifie des régularités temporelles, puis les localise en segmentant le territoire agricole en zones compactes de régularités temporelles similaires; (ii) la fouille des voisinages des successions d'OCS et de leurs dynamiques; (iii) l'articulation des régularités révélées par notre approche de fouille de données à l'échelle régionale avec des règles identifiées par des experts en agronomie et en écologie à des échelles plus locales en vue d'expliquer les régularités et de valider les hypothèses des experts. Nous avons testé la généricité de la première contribution sur les deux territoires d'études. Les deux dernières contributions ont été développées et testées sur le site d'étude de Chizé. Nos résultats valident l'hypothèse que l'OTAA se prête bien à la représentation par un champs de Markov de successions. Cette thèse ouvre la voie à une nouvelle approche de modélisation de l'OTAA explorant le couplage entre régularités et règles, et exploitant davantage les outils d'intelligence artificielle. Elle constituerait les prémices de ce qui pourrait devenir une agronomie numérique des territoires.
APA, Harvard, Vancouver, ISO, and other styles
8

Negre, Elsa. "Exploration collaborative de cubes de données." Thesis, Tours, 2009. http://www.theses.fr/2009TOUR4023/document.

Full text
Abstract:
Data warehouses store large volumes of consolidated and historized multidimensional data to be explored and analysed by various users. The data exploration is a process of searching relevant information in a dataset. In this thesis, the dataset to explore is a data cube which is an extract of the data warehouse that users query by launching sequences of OLAP (On-Line Analytical Processing) queries. However, this volume of information can be very large and diversified, it is thus necessary to help the user to face this problem by guiding him/her in his/her data cube exploration in order to find relevant information. The present work aims to propose recommendations, as OLAP queries, to a user querying a data cube. This proposal benefits from what the other users did during their previous explorations of the same data cube. We start by presenting an overview of the used framework and techniques in Information Retrieval, Web Usage Mining or e-commerce. Then, inspired by this framework, we present a state of the art on collaborative assistance for data exploration in (relationnal and multidimensional) databases. It enables us to release work axes in the context of multidimensional databases. Thereafter, we propose thus a generic framework to generate recommendations, generic in the sense that the three steps of the process are customizable. Thus, given a set of sequences of queries, corresponding to the previous explorations of various users, and given the sequence of queries of the current user, our framework proposes a set of queries as recommendations following his/her sequence. Then, various instantiations of our framework are proposed. Then, we present a Java prototype allowing a user to specify his/her current sequence of queries and it returns a set of recommendations. This prototype validates our approach and its effectiveness thanks to an experimentations collection. Finally, in order to improve this data cube exploration collaborative assistance and, in particular, to share, navigate or annotate the launched queries, we propose a framework to manage queries. Thus, an instantiation to manage recommendations is presented
Les entrepôts de données stockent de gros volumes de données multidimensionnelles, consolidées et historisées dans le but d'être explorées et analysées par différents utilisateurs. L'exploration de données est un processus de recherche d'informations pertinentes au sein d'un ensemble de données. Dans le cadre de nos travaux, l'ensemble de données à explorer est un cube de données qui est un extrait de l'entrepôt de données que les utilisateurs interrogent en lançant des séquences de requêtes OLAP (On-Line Analytical Processing). Cependant, cette masse d'informations à explorer peut être très importante et variée, il est donc nécessaire d'aider l'utilisateur à y faire face en le guidant dans son exploration du cube de données afin qu'il trouve des informations pertinentes. Le travail présenté dans cette thèse a pour objectif de proposer des recommandations, sous forme de requêtes OLAP, à un utilisateur interrogeant un cube de données. Cette proposition tire parti de ce qu'ont fait les autres utilisateurs lors de leurs précédentes explorations du même cube de données. Nous commençons par présenter un aperçu du cadre et des techniques utilisés en Recherche d'Informations, Exploration des Usages du Web ou e-commerce. Puis, en nous inspirant de ce cadre, nous présentons un état de l'art sur l'aide à l'exploration des bases de données (relationnelles et multidimensionnelles). Cela nous permet de dégager des axes de travail dans le contexte des bases de données multidimensionnelles. Par la suite, nous proposons donc un cadre générique de génération de recommandations, générique dans le sens où les trois étapes du processus sont paramétrables. Ainsi, à partir d'un ensemble de séquences de requêtes, correspondant aux explorations du cube de données faites précédemment par différents utilisateurs, et de la séquence de requêtes de l'utilisateur courant, notre cadre propose un ensemble de requêtes pouvant faire suite à la séquence de requêtes courante. Puis, diverses instanciations de ce cadre sont proposées. Nous présentons ensuite un prototype écrit en Java. Il permet à un utilisateur de spécifier sa séquence de requêtes courante et lui renvoie un ensemble de recommandations. Ce prototype nous permet de valider notre approche et d'en vérifier l'efficacité avec un série d'expérimentations. Finalement, afin d'améliorer cette aide collaborative à l'exploration de cubes de données et de permettre, notamment, le partage de requêtes, la navigation au sein des requêtes posées sur le cube de données, ou encore de les annoter, nous proposons un cadre d'organisation de requêtes. Ainsi, une instanciation adaptée à la gestion des recommandations est présentée
APA, Harvard, Vancouver, ISO, and other styles
9

Gaumer, Gaëtan. "Résumé de données en extraction de connaissances à partir des données (ECD) : application aux données relationnelles et textuelles." Nantes, 2003. http://www.theses.fr/2003NANT2025.

Full text
Abstract:
Les travaux présentés dans cette thèse ont été réalisés dans le cadre d'un contrat CNET JMINER, dont le but est l'étude de pré-traitement et post-traitements en extraction de connaissances à partir des données, appliqués aux lettres de réclamation de France Télécom. Les caractéristiques particulières des données de cette application ont orienté nos travaux de recherche. Nous nous sommes tout d'abord intéressés aux problèmes liés à l'extraction de connaissances à partir de très importants volumes de données. Nous proposons, pour résoudre ces problèmes, de remplacer les données à traiter par un résumé de ces données possédant les mêmes caractéristiques. Cette proposition s'est concrétisée par le développement du logiciel CFSUMM, un système de création de résumés de données utilisant des mesures de similarités et d'indiscernabilités entre instances. Nous montrons pourquoi et comment les caractéristiques de ce logiciel le destine particulièrementà la réduction d'importants volumes de données, qu'ils soient issus de bases de données relationnelles ou d'indexation de documents non structurés (texte, html, etc). . .
APA, Harvard, Vancouver, ISO, and other styles
10

Maitre, Julien. "Détection et analyse des signaux faibles. Développement d’un framework d’investigation numérique pour un service caché Lanceurs d’alerte." Thesis, La Rochelle, 2022. http://www.theses.fr/2022LAROS020.

Full text
Abstract:
Ce manuscrit s’inscrit dans le cadre du développement d’une plateforme d’analyse automatique de documents associée à un service sécurisé lanceurs d’alerte, de type GlobalLeaks. Nous proposons une chaine d’extraction à partir de corpus de document, d’analyse semi-automatisée et de recherche au moyen de requêtes Web pour in fine, proposer des tableaux de bord décrivant les signaux faibles potentiels. Nous identifions et levons un certain nombre de verrous méthodologiques et technologiques inhérents : 1) à l’analyse automatique de contenus textuels avec un minimum d’a priori, 2) à l’enrichissement de l’information à partir de recherches Web 3) à la visualisation sous forme de tableau de bord et d’une représentation dans un espace 3D interactif. Ces approches, statique et dynamique, sont appliquées au contexte du data journalisme, et en particulier, au traitement, analyse et hiérarchisation d’informations hétérogènes présentes dans des documents. Cette thèse propose également une étude de faisabilité et de prototypage par la mise en œuvre d’une chaine de traitement sous forme d’un logiciel. La construction de celui-ci a nécessité la caractérisation d’un signal faible pour lequel nous avons proposé une définition. Notre objectif est de fournir un outil paramétrable et générique à toute thématique. La solution que nous proposons repose sur deux approches : statique et dynamique. Dans l’approche statique, contrairement aux approches existantes nécessitant la connaissance de termes pertinents dans un domaine spécifique, nous proposons une solution s’appuyant sur des techniques nécessitant une intervention moindre de l’expert du domaine. Dans ce contexte, nous proposons une nouvelle approche de modélisation thématique multi-niveaux. Cette méthode d’approche conjointe combine une modélisation thématique, un plongement de mots et un algorithme où le recours à un expert du domaine permet d’évaluer la pertinence des résultats et d’identifier les thèmes porteurs de signaux faibles potentiels. Dans l’approche dynamique, nous intégrons une solution de veille à partir des signaux faibles potentiels trouvées dans les corpus initiaux et effectuons un suivi pour étudier leur évolution. Nous proposons donc une solution d’agent mining combinant data mining et système multi-agents où des agents animés par des forces d’attraction/répulsion représentant documents et mots se déplacent. La visualisation des résultats est réalisée sous forme de tableau de bord et de représentation dans un espace 3D interactif dans unclient Unity. Dans un premier temps, l’approche statique a été évaluée dans une preuve de concept sur des corpus synthétiques et réelles utilisés comme vérité terrain. L’ensemble de la chaine de traitement (approches statique et dynamique), mise en œuvre dans le logiciel WILD, est dans un deuxième temps appliquée sur des données réelles provenant de bases documentaires
This manuscript provides the basis for a complete chain of document analysis for a whistleblower service, such as GlobalLeaks. We propose a chain of semi-automated analysis of text document and search using websearch queries to in fine present dashboards describing weak signals. We identify and solve methodological and technological barriers inherent to : 1) automated analysis of text document with minimum a priori information,2) enrichment of information using web search 3) data visualization dashboard and 3D interactive environment. These static and dynamic approaches are used in the context of data journalism for processing heterogeneous types of information within documents. This thesis also proposed a feasibility study and prototyping by the implementation of a processing chain in the form of a software. This construction requires a weak signal definition. Our goal is to provide configurable and generic tool. Our solution is based on two approaches : static and dynamic. In the static approach, we propose a solution requiring less intervention from the domain expert. In this context, we propose a new approach of multi-leveltopic modeling. This joint approach combines topic modeling, word embedding and an algorithm. The use of a expert helps to assess the relevance of the results and to identify topics with weak signals. In the dynamic approach, we integrate a solution for monitoring weak signals and we follow up to study their evolution. Wetherefore propose and agent mining solution which combines data mining and multi-agent system where agents representing documents and words are animated by attraction/repulsion forces. The results are presented in a data visualization dashboard and a 3D interactive environment in Unity. First, the static approach is evaluated in a proof-of-concept with synthetic and real text corpus. Second, the complete chain of document analysis (static and dynamic) is implemented in a software and are applied to data from document databases
APA, Harvard, Vancouver, ISO, and other styles
11

El, Ghaziri Angélina. "Relation entre tableaux de données : exploration et prédiction." Thesis, Nantes, Ecole nationale vétérinaire, 2016. http://www.theses.fr/2016ONIR088F/document.

Full text
Abstract:
La recherche développée dans le cadre de cette thèse aborde différents aspects relevant de l’analyse statistique de données. Dans un premier temps, une analyse de trois indices d’associations entre deux tableaux de données est développée. Par la suite, des stratégies d’analyse liées à la standardisation de tableaux de données avec des applications en analyse en composantes principales (ACP) et en régression, notamment la régression PLS sont présentées. La première stratégie consiste à proposer une standardisation continuum des variables. Une standardisation plus générale est aussi abordée consistant à réduire de manière graduelle non seulement les variances des variables mais également les corrélations entre ces variables. De là, une approche continuum de régression a été élaborée regroupant l’analyse des redondances et la régression PLS. Par ailleurs, cette dernière standardisation a inspiré une démarche de régression biaisée dans le cadre de régression linéaire multiple. Les propriétés d’une telle démarche sont étudiées et les résultats sont comparés à ceux de la régression Ridge. Dans le cadre de l’analyse de plusieurs tableaux de données, une extension de la méthode ComDim pour la situation de K+1 tableaux est développée. Les propriétés de cette méthode, appelée P-ComDim, sont étudiées et comparées à celles de Multiblock PLS. Enfin, la situation où il s’agit d’évaluer l’effet de plusieurs facteurs sur des données multivariées est considérée et une nouvelle stratégie d’analyse est proposée
The research developed in this thesis deals with several statistical aspects for analyzing datasets. Firstly, investigations of the properties of several association indices commonly used by practitioners are undergone. Secondly, different strategies related to the standardization of the datasets with application to principal component analysis (PCA) and regression, especially PLS-regression were developed. The first strategy consists of a continuum standardization of the variables. The interest of such standardization in PCA and PLS-regression is emphasized.A more general standardization is also discussed which consists in reducing gradually not only the variances of the variables but also their correlations. Thereafter, a continuum approach was developed combining Redundancy Analysis and PLS-regression. Moreover, this new standardization inspired a biased regression model in multiple linear regression. Properties related to this approach are studied and the results are compared on the basis of case studies with those of Ridge regression. In the context of the analysis of several datasets in an exploratory perspective, the method called ComDim, has certainly raised interest among practitioners. An extension of this method for the analysis of K+1 datasets was developed. Properties related to this method, called P-ComDim, are studied and compared to Multiblock PLS. Finally, for the analysis of datasets depending on several factors, a new approach based on PLS regression is proposed
APA, Harvard, Vancouver, ISO, and other styles
12

Rommel, Cédric. "Exploration de données pour l'optimisation de trajectoires aériennes." Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLX066/document.

Full text
Abstract:
Cette thèse porte sur l'utilisation de données de vols pour l'optimisation de trajectoires de montée vis-à-vis de la consommation de carburant.Dans un premier temps nous nous sommes intéressé au problème d'identification de modèles de la dynamique de l'avion dans le but de les utiliser pour poser le problème d'optimisation de trajectoire à résoudre. Nous commençont par proposer une formulation statique du problème d'identification de la dynamique. Nous l'interpretons comme un problème de régression multi-tâche à structure latente, pour lequel nous proposons un modèle paramétrique. L'estimation des paramètres est faite par l'application de quelques variations de la méthode du maximum de vraisemblance.Nous suggérons également dans ce contexte d'employer des méthodes de sélection de variable pour construire une structure de modèle de régression polynomiale dépendant des données. L'approche proposée est une extension à un contexte multi-tâche structuré du bootstrap Lasso. Elle nous permet en effet de sélectionner les variables du modèle dans un contexte à fortes corrélations, tout en conservant la structure du problème inhérente à nos connaissances métier.Dans un deuxième temps, nous traitons la caractérisation des solutions du problème d'optimisation de trajectoire relativement au domaine de validité des modèles identifiés. Dans cette optique, nous proposons un critère probabiliste pour quantifier la proximité entre une courbe arbitraire et un ensemble de trajectoires échantillonnées à partir d'un même processus stochastique. Nous proposons une classe d'estimateurs de cette quantitée et nous étudions de façon plus pratique une implémentation nonparamétrique basé sur des estimateurs à noyau, et une implémentation paramétrique faisant intervenir des mélanges Gaussiens. Ce dernier est introduit comme pénalité dans le critère d'optimisation de trajectoire dans l'objectif l'intention d'obtenir directement des trajectoires consommant peu sans trop s'éloigner des régions de validité
This thesis deals with the use of flight data for the optimization of climb trajectories with relation to fuel consumption.We first focus on methods for identifying the aircraft dynamics, in order to plug it in the trajectory optimization problem. We suggest a static formulation of the identification problem, which we interpret as a structured multi-task regression problem. In this framework, we propose parametric models and use different maximum likelihood approaches to learn the unknown parameters.Furthermore, polynomial models are considered and an extension to the structured multi-task setting of the bootstrap Lasso is used to make a consistent selection of the monomials despite the high correlations among them.Next, we consider the problem of assessing the optimized trajectories relatively to the validity region of the identified models. For this, we propose a probabilistic criterion for quantifying the closeness between an arbitrary curve and a set of trajectories sampled from the same stochastic process. We propose a class of estimators of this quantity and prove their consistency in some sense. A nonparemetric implementation based on kernel density estimators, as well as a parametric implementation based on Gaussian mixtures are presented. We introduce the later as a penalty term in the trajectory optimization problem, which allows us to control the trade-off between trajectory acceptability and consumption reduction
APA, Harvard, Vancouver, ISO, and other styles
13

Saffar, Imen. "Vers une agentification de comportements observés : une approche originale basée sur l’apprentissage automatique pour la simulation d’un environnement réel." Thesis, Lille 1, 2013. http://www.theses.fr/2013LIL10190/document.

Full text
Abstract:
La conception d'outils de simulation capables de reproduire la dynamique et l'évolution de phénomènes complexes réels est une tâche difficile. La modélisation de ces phénomènes par des approches analytiques est souvent impossible, obligeant le concepteur à s'orienter vers des approches comportementales. Dans ce contexte, les simulations multi-agents représentent aujourd'hui une alternative crédible aux simulations classiques. Elles restent cependant délicates à mettre en œuvre. En effet, le concepteur de la simulation doit être capable de transcrire en comportement d'agents la dynamique du phénomène qu'il observe. Cette étape requiert généralement les compétences d'un spécialiste possédant une certaine expertise du phénomène à simuler. Dans cette thèse, nous proposons une manière originale de traiter l'observation de comportements réels à simuler, sans avoir recours à l'aide d'un expert.Il s'agit de s'appuyer sur des techniques d'apprentissage non supervisé pour identifier et extraire des comportements et ainsi faciliter l'agentification de la simulation. Notre approche constitue, de ce fait, un pas vers la conception automatique de simulations multi-agents reproduisant des phénomènes observables. Cette approche est motivée par un cadre applicatif visant la simulation de comportements de clients à l'intérieur d'un espace de vente
The design of simulation tools, which are able to reproduce the dynamics and evolution of complex real phenomena, is hard. Modeling these phenomena by analytical approaches is often unsuitable, forcing the designer to turn towards behavioral approaches. In this context, multi-agent simulations are now a credible alternative to the classical simulations. However, they remain difficult to implement. In fact, the designer of the simulation must be able to transcribe the dynamic of the phenomenon being observed in agents behavior. This step usually requires the skills of a specialist with some expertise in the phenomenon to be simulated. In this thesis, we propose a novel way to treat observing real behaviors to simulate, without resorting to the help of an expert.It is relying on unsupervised learning techniques to identify and extract behavior and facilitate the agentification. Our approach is, therefore, a step towards the automatic design of multi-agent simulations reproducing observable phenomena. This approach is motivated by an application context aiming the simulation of customers’ behavior within a retail space
APA, Harvard, Vancouver, ISO, and other styles
14

Turmeaux, Teddy. "Contraintes et fouille de données." Orléans, 2004. http://www.theses.fr/2004ORLE2048.

Full text
Abstract:
La fouille de données est un domaine de recherche actif, visant à découvrir des connaissances implicites dans des bases de données. Nous étudions ici l'intérêt de formalismes issus de la logique du premier ordre pour la fouille de données. En particulier, nous examinons l'intérêt des contraintes, vues comme des formules du premier ordre et interprétées sur un domaine particulier. Un point important de tout formalisme utilisé en ECD est la définition d'une relation de généralité qui permet de structurer l'espace des motifs, et de faciliter ainsi la recherche de motifs intéressants. Nous nous intéressons tout d'abord aux bases de données contraintes qui étendent à la fois les bases de données relationnelles, déductives et spatiales, et qui permettent la définition d'ensembles infinis grâce à la notion de tuples généralisés. Nous étudions ensuite le formalisme des clauses contraintes utilisées en Programmation Logique avec Contraintes. Nous reprenons la définition classique de généralité entre clauses contraintes et nous déterminons dans ce cadre le moindre généralisé, le moindre spécialisé et des opérateurs de raffinement. Nous montrons comment les calculer en pratique sur plusieurs domaines de contraintes spécifiques. Enfin nous introduisons un nouveau motif: les règles caractéristiques. Ces règles sont la combinaison d'un chemin quantifié et d'une contrainte et permettent de capturer la notion de lien entre entités et de contraintes sur ces entités. Nous montrons l'intérêt de telles règles dans le cadre de bases de données géographiques, notamment sur des données géologiques fournies par le Bureau de Recherche Géologique et Minières.
APA, Harvard, Vancouver, ISO, and other styles
15

Djedaini, Mahfoud. "Automatic assessment of OLAP exploration quality." Thesis, Tours, 2017. http://www.theses.fr/2017TOUR4038/document.

Full text
Abstract:
Avant l’arrivée du Big Data, la quantité de données contenues dans les bases de données était relativement faible et donc plutôt simple à analyser. Dans ce contexte, le principal défi dans ce domaine était d’optimiser le stockage des données, mais aussi et surtout le temps de réponse des Systèmes de Gestion de Bases de Données (SGBD). De nombreux benchmarks, notamment ceux du consortium TPC, ont été mis en place pour permettre l’évaluation des différents systèmes existants dans des conditions similaires. Cependant, l’arrivée de Big Data a complètement changé la situation, avec de plus en plus de données générées de jour en jour. Parallèlement à l’augmentation de la mémoire disponible, nous avons assisté à l’émergence de nouvelles méthodes de stockage basées sur des systèmes distribués tels que le système de fichiers HDFS utilisé notamment dans Hadoop pour couvrir les besoins de stockage technique et le traitement Big Data. L’augmentation du volume de données rend donc leur analyse beaucoup plus difficile. Dans ce contexte, il ne s’agit pas tant de mesurer la vitesse de récupération des données, mais plutôt de produire des séquences de requêtes cohérentes pour identifier rapidement les zones d’intérêt dans les données, ce qui permet d’analyser ces zones plus en profondeur, et d’extraire des informations permettant une prise de décision éclairée
In a Big Data context, traditional data analysis is becoming more and more tedious. Many approaches have been designed and developed to support analysts in their exploration tasks. However, there is no automatic, unified method for evaluating the quality of support for these different approaches. Current benchmarks focus mainly on the evaluation of systems in terms of temporal, energy or financial performance. In this thesis, we propose a model, based on supervised automatic leaming methods, to evaluate the quality of an OLAP exploration. We use this model to build an evaluation benchmark of exploration support sys.terns, the general principle of which is to allow these systems to generate explorations and then to evaluate them through the explorations they produce
APA, Harvard, Vancouver, ISO, and other styles
16

Syla, Burhan. "Relais de perte de synchronisme par exploration de données." Thesis, Université Laval, 2012. http://www.theses.ulaval.ca/2012/29102/29102.pdf.

Full text
Abstract:
Le but de ce document est de vérifier la faisabilité d’un relais de protection de synchronisme en utilisant la fouille de données et les arbres de décisions. En utilisant EMTP-RV, 180 simulations ont été effectuées sur le réseau Anderson en variant l’endroit auquel survient le court-circuit, la durée, le type, ainsi que le load-flow. Pour chacune de ces simulations, 39 mesures électriques ainsi que huit mesures mécaniques sont sauvegardées. Ces simulations sont ensuite classées stables et instables en utilisant le centre d’inertie d’angle et de vitesse. Trente-trois nouvelles autres variables sont déduites des 39 premières et sont ajoutées en utilisant MATLAB. Avec le logiciel KNIME, les arbres de décision de type C4.5, CART, ADABoost, ADTree et les forêts aléatoires sont modélisées et leurs performances en fonction de la période d’échantillonnage sont comparées. Une réduction de variable par filtre de type Consistency Subset Eval, Symmetrical Uncert Attribute Set Eval et Correlation-based Feature Subset Selection est ensuite appliquée. Les simulations sont visualisées en utilisant l’ensemble de validation. Les résultats montrent que l’utilisation d’une fréquence de 240 [Hz] et 28 variables est suffisante pour obtenir, en moyenne, une aire sous la courbe de 0.9591 pour l’ensemble de test et de validation des 4 générateurs.
The goal of this document is to verify the feasability of an out-of-step relay using data mining and decision trees. Using EMTP-RV and the Anderson network, 180 simulations were done while changing the place of the short circuit, the length, the type and the load-flow. For these simulations, 39 electrical measures and 8 mechanical measures were made. These simulations were then classified as stable or instable using the center of inertia of angle and speed. With MATLAB, 33 new other variables were created by using the first 39, and then with KNIME, decisions trees such as C4.5, CART, ADABoost, ADTree and random forest were simulated and the sampling time versus the performances were compared. Using Consistency Subset Eval, Symmetrical Uncert Attribute Set Eval and Correlation-based Feature Subset Selection, the features were reduced and the simulations were visualised using the validation set. Results show that with a sampling frequency of 240 [Hz] and 28 variables is enough to obtain a mean area under the curve of 0.9591 for the training and the validation set of the 4 generators.
APA, Harvard, Vancouver, ISO, and other styles
17

Clech, Jérémie. "Contribution méthodologique à la fouille de données complexes." Lyon 2, 2004. http://theses.univ-lyon2.fr/documents/lyon2/2004/clech_j.

Full text
Abstract:
Au cours de cette thèse, nous abordons la problématique de l'extraction de connaissances à partir de données complexes. Notre motivation est issue de l'accroissement du besoin de traiter de telles données, du principalement à l'explosion des technologies de l'information véhiculant une forte diffusion de documents complexes. La fouille de données complexes se propose de fournir un modèle d'analyse permettant d'intégrer de larges variétés de données, structurées ou non, locales ou distantes. Le point de vue retenu est de dire que face à une tâche d'extraction des connaissances, l'utilisateur doit être libéré des contraintes liées à l'organisation, le codage, le format, la représentation des données. Il doit accéder au contenu. Nous reprenons les étapes du processus d'extraction de connaissances afin de traiter dans un cadre général ces données fortement hétérogènes. L'aboutissement du processus étant l'exploitation de ces données, nous proposons ici un environnement d'exploration visuelle reposant à la fois sur une représentation globale du corpus, sur une contextualisation d'un individu particulier et sur la visualisation à proprement parlée des documents. En outre, nous adaptons l'architecture des systèmes de recherch d'information à ce type de données. Nous avons proposé un système de recherche basé sur l'exploitation de la contextualisation d'un document et un autre sur un processus de fouille de données dans le but de prendre en compte la perception de l'utilisateur vis à vis de la requête posée en fonction de son jugement face aux documents retournés par le système. Enfin, nous décrivons des applications concrètes liées à l'exploitation de données complexes.
APA, Harvard, Vancouver, ISO, and other styles
18

El, Golli Aicha. "Extraction de données symboliques et cartes topologiques : Application aux données ayant une structure complexe." Paris 9, 2004. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=2004PA090026.

Full text
Abstract:
Un des objectifs de l'analyse de données symboliques est de permettre une meilleure modélisation des variations et des imprécisions des données réelles. Ces données expriment en effet, un niveau de connaissance plus élevé, la modélisation doit donc offrir un formalisme plus riche que dans le cadre de l'analyse de données classiques. Un ensemble d'opérateurs de généralisation symbolique existent et permettent une synthèse et représentation des données par le formalisme des assertions, formalisme défini en analyse de données symboliques. Cette généralisation étant supervisée, est souvent sensible aux observations aberrantes. Lorsque les données que l'on souhaite généraliser sont hétérogènes, certaines assertions incluent des observations virtuelles. Face à ce nouveau formalisme et donc cette extension d'ordre sémantique que l'analyse de données symbolique a apporté, une nouvelle approche de traitement et d'interprétation s'impose. Notre objectif au cours de ce travail est d'améliorer tout d'abord cette généralisation et de proposer ensuite une méthode de traitement de ces données. Nous proposons donc une décomposition permettant d'améliorer la énéralisation tout en offrant le formalisme symbolique. Cette décomposition est basée sur un algorithme divisif de classification. Nous avons aussi proposé une méthode de généralisation symbolique non supervisée basée sur l'algorithme des cartes topologiques de Kohonen. L'avantage de cette méthode est de réduire les données d'une manière non supervisée et de modéliser les groupes homogènes obtenus par des données symboliques. Notre seconde contribution porte sur l'élaboration d'une méthode de classification traitant les données à structure complexe. Cette méthode est une adaptation de la version batch de l'algorithme des cartes topologiques de Kohonen aux tableaux de dissimilarités. En effet, seule la définition d'une mesure de dissimilarité adéquate, est nécessaire pour le bon déroulement de la méthode.
APA, Harvard, Vancouver, ISO, and other styles
19

Sansen, Joris. "La visualisation d’information pour les données massives : une approche par l’abstraction de données." Thesis, Bordeaux, 2017. http://www.theses.fr/2017BORD0636/document.

Full text
Abstract:
L’évolution et la démocratisation des technologies ont engendré une véritable explosion de l’information et notre capacité à générer des données et le besoin de les analyser n’a jamais été aussi important. Pourtant, les problématiques soulevées par l’accumulation de données (stockage, temps de traitement, hétérogénéité, vitesse de captation/génération, etc. ) sont d’autant plus fortes que les données sont massives, complexes et variées. La représentation de l’information, de part sa capacité à synthétiser et à condenser des données, se constitue naturellement comme une approche pour les analyser mais ne résout pas pour autant ces problèmes. En effet, les techniques classiques de visualisation sont rarement adaptées pour gérer et traiter cette masse d’informations. De plus,les problèmes que soulèvent le stockage et le temps de traitement se répercutent sur le système d’analyse avec par exemple, la distanciation de plus en plus forte entre la donnée et l’utilisateur : le lieu où elle sera stockée et traitée et l’interface utilisateur servant à l’analyse. Dans cette thèse nous nous intéressons à ces problématiques et plus particulièrement à l’adaptation des techniques de visualisation d’informations pour les données massives. Pour cela, nous nous intéressons tout d’abord à l’information de relation entre éléments, comment est-elle véhiculée et comment améliorer cette transmission dans le contexte de données hiérarchisées. Ensuite, nous nous intéressons à des données multivariées,dont la complexité à un impact sur les calculs possibles. Enfin, nous présentons les approches mises en oeuvre pour rendre nos méthodes compatibles avec les données massives
The evolution and spread of technologies have led to a real explosion of information and our capacity to generate data and our need to analyze them have never been this strong. Still, the problems raised by such accumulation (storage, computation delays, diversity, speed of gathering/generation, etc. ) is as strong as the data are big, complex and varied. Information visualization,by its ability to summarize and abridge data was naturally established as appropriate approach. However, it does not solve the problem raised by Big Data. Actually, classical visualization techniques are rarely designed to handle such mass of information. Moreover, the problems raised by data storage and computation time have repercussions on the analysis system. For example,the increasing distance between the data and the analyst : the place where the data is stored and the place where the user will perform the analyses arerarely close. In this thesis, we focused on these issues and more particularly on adapting the information visualization techniques for Big Data. First of all focus on relational data : how does the existence of a relation between entity istransmitted and how to improve this transmission for hierarchical data. Then,we focus on multi-variate data and how to handle their complexity for the required computations. Finally, we present the methods we designed to make our techniques compatible with Big Data
APA, Harvard, Vancouver, ISO, and other styles
20

Boullé, Marc. "Recherche d'une représentation des données efficace pour la fouille des grandes bases de données." Phd thesis, Télécom ParisTech, 2007. http://pastel.archives-ouvertes.fr/pastel-00003023.

Full text
Abstract:
La phase de préparation du processus de fouille des données est critique pour la qualité des résultats et consomme typiquement de l'ordre de 80% d'une étude. Dans cette thèse, nous nous intéressons à l'évaluation automatique d'une représentation, en vue de l'automatisation de la préparation des données. A cette fin, nous introduisons une famille de modèles non paramétriques pour l'estimation de densité, baptisés modèles en grille. Chaque variable étant partitionnée en intervalles ou groupes de valeurs selon sa nature numérique ou catégorielle, l'espace complet des données est partitionné en une grille de cellules résultant du produit cartésien de ces partitions univariées. On recherche alors un modèle où l'estimation de densité est constante sur chaque cellule de la grille. Du fait de leur très grande expressivité, les modèles en grille sont difficiles à régulariser et à optimiser. Nous avons exploité une technique de sélection de modèles selon une approche Bayesienne et abouti à une évaluation analytique de la probabilité a posteriori des modèles. Nous avons introduit des algorithmes d'optimisation combinatoire exploitant les propriétés de notre critère d'évaluation et la faible densité des données en grandes dimensions. Ces algorithmes ont une complexité algorithmique garantie, super-linéaire en nombre d'individus. Nous avons évalué les modèles en grilles dans de nombreux contexte de l'analyse de données, pour la classification supervisée, la régression, le clustering ou le coclustering. Les résultats démontrent la validité de l'approche, qui permet automatiquement et efficacement de détecter des informations fines et fiables utiles en préparation des données.
APA, Harvard, Vancouver, ISO, and other styles
21

Braud, Agnès. "Fouille de données par algorithmes génétiques." Orléans, 2002. http://www.theses.fr/2002ORLE2011.

Full text
Abstract:
La fouille de données est un processus visant à la découverte de connaissances potentiellement utiles, enfouies dans les bases de données. Parmi les problématiques de ce domaine, nous nous intéressons à l'apprentissage de concepts à partir d'exemples. Nous nous concentrons sur l'apprentissage de descriptions de concepts exprimées sous forme d'un ensemble de règles, et sur l'apport des algorithmes génétiques dans ce domaine.
APA, Harvard, Vancouver, ISO, and other styles
22

Aouiche, Kamel. "Techniques de fouille de données pour l'optimisation automatique des performances des entrepôts de données." Lyon 2, 2005. http://theses.univ-lyon2.fr/documents/lyon2/2005/aouiche_k.

Full text
Abstract:
Avec le développement des bases de données en général et des entrepôts de données en particulier, il est devenu très important de réduire les tâches d'administration des systèmes de gestion de base de données. Les systèmes auto-administratifs ont pour objectif de s'administrer et de s'adapter eux-mêmes, automatiquement, sans perte ou même avec un gain de performance. L'idée d'utiliser des techniques de fouille de données pour extraire des connaissances utiles à partir des données stockées pour leur administration est une approche très prometteuse, notamment dans le domaine des entrepôts de données, où les requêtes sont très hétérogènes et ne peuvent pas être interprétées facilement. L'objectif de cette thèse est d'étudier les techniques d'auto-administration des entrepôts de données, principalement des techniques d'optimisation des performances, comme l'indexation et la matérialisation de vues, et de rechercher une manière d'extraire des données elles-mêmes des connaissances utilisables pour appliquer ces techniques. Nous avons réalisé un outil qui recommande une configuration d'index et de vues matérialisées permettant d'optimiser le temps d'accès aux données. Notre outil effectue une recherche de motifs fréquents fermés sur une charge donnée et une classification non supervisée des requêtes de la charge pour construire cette configuration d'index et de vues. Nous avons également couplé la sélection d'index et de vues matérialisées afin de partager efficacement l'espace de disque alloué pour stocker ces structures. Enfin, nous avons appliqué les principes développés dans le cadre relationnel aux entrepôts de données XML. Nous avons proposé une structure d'index précalculant les jointures entre les faits et les dimensions XML et adapté notre stratégie de sélection de vues pour matérialiser des vues XML
With the development of databases in general and data warehouses in particular, it becomes very important to reduce the function of administration. The aim of auto-administrative systems is administrate and adapt themselves automatically, without loss or even with a gain in performance. The idea of using data mining techniques to extract useful knowledge for administration from the data themselves has been in the air for some years. However, no research has ever been achieved. As for as we know, it nevertheless remains a very promising approach, notably in the field of the data warehousing, where the queries are very heterogeneous and cannot be interpreted easily. The aim of this thesis is to study auto-administration techniques in databases and data warehouses, mainly performance optimization techniques such as indexing and view materialization, and to look for a way of extracting from stored data themselves useful knowledge to apply these techniques. We have designed a tool that finds an index and view configuration allowing to optimize data access time. Our tool searches frequent itemsets in a given workload and clusters the query workload to compute this index and view configuration. Finally, we have extended the performance optimization to XML data warehouses. In this area, we proposed an indexing technique that precomputes joins between XML facts and dimensions and adapted our materialized view selection strategy for XML materialized views
APA, Harvard, Vancouver, ISO, and other styles
23

Do, Thanh-Nghi. "Visualisation et séparateurs à vaste marge en fouille de données." Nantes, 2004. http://www.theses.fr/2004NANT2072.

Full text
Abstract:
Nous présentons différentes approches coopératives combinant des méthodes de visualisation et des séparateurs à vaste marge (SVM) pour l'extraction de connaissances dans les données (ECD). La plupart des méthodes existantes à l'heure actuelle en fouille de données fonctionnent de manière automatique, l'utilisateur n'est que peu impliqué dans le processus. Par ailleurs, ces méthodes doivent pouvoir traiter des quantités de plus en plus importantes de données. Nous visons d'une part à augmenter le rôle de l'utilisateur dans le processus de fouille (par le biais de la visualisation) et d'autre part à améliorer les performances et les capacités des algorithmes de fouille pour leur permettre de traiter de grands ensembles de données. Nous présentons : - une classe d'algorithmes de SVM parallèles et distribués pour le traitement de grandes quantités de données, - des méthodes graphiques interactives pour expliquer les résultats des algorithmes de classification automatique, - des méthodes coopératives permettant d'impliquer plus significativement l'utilisateur dans la construction du modèle. Nous avons développé des algorithmes incrémentaux, parallèles et distribués (en lignes ou en colonnes) de proximal SVM, Least-Square SVM et SVM généralisé. Ces algorithmes nous permettent de traiter aisément des fichiers de très grandes tailles sur des machines standards : un milliard d'individus en dimension 10 sont classés en 7 minutes (sur 10 machines). Dans la plupart des cas, les algorithmes de SVM donnent en sortie les vecteurs support (qui forment la frontière entre les éléments des deux classes). Cette information est peu compréhensible et fait que les SVM sont utilisés comme des boîtes noires. Nous présentons des méthodes graphiques interactives pour interpréter les résultats de SVM en classification, régression et détection d'individus atypiques et permettre par exemple de déterminer les dimensions intéressantes dans le modèle obtenu. Nous en avons ensuite dérivé une méthode graphique interactive pour améliorer les résultats des algorithmes de SVM dans le cas de la classification multi-classes ou d'une classe minoritaire et une méthode graphique d'aide au paramétrage des SVM. Enfin nous présentons une méthode de fouille visuelle de données permettant la construction interactive de SVM. Les performances des algorithmes développés sont ensuite évaluées sur différents ensembles de données : les résultats sont équivalents aux algorithmes usuels en ce qui concerne les taux de précision. Nos principaux apports sont d'une part l'amélioration de la confiance et de la compréhensibilité du modèle et d'autre part la capacité à traiter de très grandes quantités de données sur du matériel standard
We present the different cooperative approaches using visualization methods and support vector machine algorithms (SVM) for knowledge discovery in databases (KDD). Most of existing data mining approaches construct the model in an automatic way, the user is not involved in the mining process. Furthermore, these approaches must be able to deal with the challenge of large datasets. Our work aims at increasing the human role in the KDD process (by the way of visualization methods) and improve the performances (concerning the execution time and the memory requirement) of the methods for mining large datasets. W e present:- parallel and distributed SVM algorithms for mining massive datasets, - interactive graphical methods to explain SVM results, - cooperative approaches to involve more significatively the user in the model construction
APA, Harvard, Vancouver, ISO, and other styles
24

Legrand, Gaëlle. "Approche méthodologique de sélection et construction de variables pour l'amélioration du processus d'extraction des connaissances à partir de grandes bases de données." Lyon 2, 2004. http://theses.univ-lyon2.fr/documents/lyon2/2004/legrand_g.

Full text
Abstract:
De nos jours, du fait de la présence de grandes bases de données, l'amélioration de la qualité de représentation des données est au centre des préoccupations. Deux types de transformation de variables permettent d'extraire la connaissance pertinente à partir des données. La sélection de variables est un processus qui choisit un sous-ensemble optimal de variables en fonction d'un critère particulier et qui réduit l'espace des variables en supprimant les variables non pertinentes. Cette transformation permet la réduction de l'espace de représentation, l'élimination du bruit et l'élimination de la redondance. Nous proposons une méthode de sélection de variables hybride entre approche enveloppe et approche filtre qui utilise une méthode d'agrégation de préférences. La méthode d'agrégation nous permet d'obtenir une liste triée par ordre d'importance de sous-ensemble de variables grâce à l'agrégation d'un ensemble de critère myope. La construction de variables est un processus qui découvre les informations manquantes dans une relation entre variables et qui augmente l'espace des variables en créant des variables supplémentaires. Lors du processus de construction de variables, un ensemble d'opérateurs est appliqué à un ensemble de variables existantes, débouchant sur la construction d'une ou plusieurs nouvelles variables. Nous proposons de construire de nouvelles variables grâce à la découverte de la structure sous-jacente des données, c'est à dire en travaillant sur les modalités des variables. En effet, Il nous paraît plus pertinent de se concentrer sur les relations existants entre modalités de variables plutôt que sur les relations entre variables elles même
Nowadays, because of the presence of great data bases, the improvement of the data representation quality is very important. Two types of feature transformation make it possible to extract relevant knowledge starting from data. The feature selection is a process which chooses an optimal feature subset according to a particular criterion and which reduces the feature space by removing nonrelevant feature. This transformation allows the reduction of representation space, the elimination of noise and the elimination of redundancy. We propose a method of feature selection between wrapper and filter approach which uses a method of preferences aggregation. The method of aggregation enables us to obtain a feature subset list sorted by order of relevance thanks to the aggregation of results of a set of short-sighted criterion. The feature construction is a process which discovers missing information in a relation between feature and which increases the feature space by creating additional feature. At the time of the process of feature construction, a set of operators is applied to an existing feature set, leading to the construction of one or more new feature. We propose to build new feature thanks to the discovery of the subjacent structure of data. Indeed, It appears more relevant to us to concentrate on the relations existing between modalities of feature rather than on the relations between feature themselves
APA, Harvard, Vancouver, ISO, and other styles
25

Masson, Cyrille. "Contribution au cadre des bases de données inductives : formalisation et évaluation des scénarios d'extraction de connaissances." Lyon, INSA, 2005. http://theses.insa-lyon.fr/publication/2005ISAL0042/these.pdf.

Full text
Abstract:
Le succès des techniques de bases de données permet de collecter une quantité toujours plus grande d'informations dans différents domaines. L'ECD (Extraction de Connaissance dans les Données) se donne pour but d'aller plus loin dans le processus d'interrogation des données pour y découvrir, sous forme de motifs, de la connaissance cachée. La notion de base de données inductive (BDI) généralise le concept de base de données en intégrant données et motifs dans un cadre commun. Un processus d'ECD peut alors être vu comme un processus d'interrogation étendu sur une BDI. Cette thèse s'intéresse `a la formalisation et `a l'évaluation des scénarios d'extraction dans le cadre des BDI. Nous montrons d'abord comment utiliser un langage abstrait pour les BDI pour décrire de manière formelle des processus d'extraction réalisables par l'utilisateur. Nous obtenons ainsi un scénario prototypique, i. E. Un objet théorique composé d'une séquence de requêtes inductives, sur lequel il est possible de raisonner. Un tel scénario sert avant tout `a formaliser des traitements pour le transfert d'expertise entre utilisateurs et spécialistes en ECD. Une autre application du concept de scénario est l'évaluation sur une base commune de différentes implémentations de BDI, dans la lignée des benchmarks existants pour les bases de données. Un scénario d'évaluation a le même aspect qu'un scénario prototypique, mais on s'intéresse ici aux problèmes algorithmiques et d'optimisation de séquences de requêtes inductives. Lors du calcul du plan d'exécution d'un tel scénario, le système devra analyser les propriétés des requêtes qui le composent, en découvrant des dépendances entre celles-ci ou des conjonctions de contraintes pour lesquelles nous souhaitons disposer d'outils d'extraction efficaces. Enfin, nous présentons un scénario d'évaluation en bioinformatique et nous montrons comment le résoudre en utilisant des techniques préexistantes dans l'équipe ou développées pour les besoins de ce scénario
The success of database technologies has lead to an always increasing mass of collected information in different application fields. Knowledge Discovery in Databases (KDD) aims at going further in the querying processes on such data so as to find in these data some hidden knowledge materialized under the form of patterns. The Inductive Database (IDB) concept is a generalization of the database concept which integrates patterns and data in a common framework. A KDD process can thus be seen as an extended querying process on an IDB. This PhD. Thesis is about the formalization and the evaluation of KDD scenarios in the IDB framework. We first show how to use an abstract language for IDBs to formally describe extraction processes that can be performed by the user. We thus obtain a prototypical scenario, i. E. A theoritical object made of a sequence of inductive queries and on which it is possible to reason. Such a kind of scenario is useful to formalize processes when transfering expertise between final users and KDD experts. Another application of the concept of scenario is the evaluation on a common basis of different implementations of IDBs, similarly to existing benchmarks for databases. An evaluation scenario has the same form than a prototypical scenario, but it focuses more on algorithmic issues and optimization techniques for sequences of inductive queries. When computing an execution plan for such a scenario, the IDB system should analyze the properties of queries composing it, by discovering dependencies between them or conjunctions of constraints for which it is useful to have efficient extraction tools. Finally, we present an evaluation scenario in the field of bioinformatics, and we show how to solve it by using techniques developed in our group or especially designed for the need of this scenario
APA, Harvard, Vancouver, ISO, and other styles
26

Mitas̃iūnaite, Ieva. "Mining string data under similarity and soft-frequency constraints : application to promoter sequence analysis." Lyon, INSA, 2009. http://theses.insa-lyon.fr/publication/2009ISAL0036/these.pdf.

Full text
Abstract:
Nous étudions l'extraction de motifs sous contraintes dans des collections de chaînes de caractères et le développement de solveurs complets et génériques pour l'extraction de tous les motifs satisfaisant une combinaison de contraintes primitives. Un solveur comme FAVST permet d'optimiser des conjonctions de contraintes dites monotones et/ou anti-monotones (e. G. , des contraintes de fréquence maximale et minimale). Nous avons voulu compléter ce type d'outil en traitant des contraintes pour la découverte de motifs tolérants aux exceptions. Nous proposons différentes définitions des occurrences approchées et l'exploitation de contraintes de fréquence approximative. Ceci nous conduit à spécifier des contraintes difficiles (e. G. , pour l'expression de la similarité) comme des conjonctions de primitives monotones et anti-monotones optimisées par notre solveur MARGUERITE. Soucieux de sa mise en ?uvre dans des processus de découverte de connaissances à partir de données, nous avons analysé le réglage des paramètres d'extraction (e. G. , quel seuil choisir pour les fréquences). Nous proposons une méthode originale pour estimer le nombre de motifs qui satisfont une contrainte au moyen d'un échantillonnage de l'espace des motifs. Nous avons également étudié l'identification des paramètres les plus stringents pour fournir des motifs qui ne sont probablement pas de faux positifs. Ces contributions ont été appliquées à l'analyse des séquences promotrices des gènes. En étroite collaboration avec une équipe de biologistes du CGMC, nous avons pu identifier des sites de fixation putatifs de facteurs transcription impliqués dans le processus de différenciation cellulaire
An inductive database is a database that contains not only data but also patterns. Inductive databases are designed to support the KDD process. Recent advances in inductive databases research have given rise to a generic solvers capable of solving inductive queries that are arbitrary Boolean combinations of anti-monotonic and monotonic constraints. They are designed to mine different types of pattern (i. E. , patterns from different pattern languages). An instance of such a generic solver exists that is capable of mining string patterns from string data sets. In our main application, promoter sequence analysis, there is a requirement to handle fault-tolerance, as the data intrinsically contains errors, and the phenomenon we are trying to capture is fundamentally degenerate. Our research contribution to fault-tolerant pattern extraction in string data sets is the use of a generic solver, based on a non-trivial formalisation of fault-tolerant pattern extraction as a constraint-based mining task. We identified the stages in the process of the extraction of such patterns where state-of-art strategies can be applied to prune the search space. We then developed a fault-tolerant pattern match function InsDels that generic constraint solving strategies can soundly tackle. We also focused on making local patterns actionable. The bottleneck of most local pattern extraction methods is the burden of spurious patterns. As the analysis of patterns by the application domain experts is time consuming, we cannot afford to present patterns without any objective clue about their relevancy. Therefore we have developed two methods of computing the expected number of patterns extracted in random data sets. If the number of extracted patterns is strongly different from the expected number from random data sets, one can then state that the results exhibits local associations that are a priori relevant because they are unexpected. Among others applications, we have applied our approach to support the discovery of new motifs in gene promoter sequences with promising results
APA, Harvard, Vancouver, ISO, and other styles
27

Jouve, Pierre-Emmanuel. "Apprentissage non supervisé et extraction de connaissances à partir de données." Lyon 2, 2003. http://theses.univ-lyon2.fr/documents/lyon2/2003/jouve_pe.

Full text
Abstract:
Les travaux constituant cette dissertation concernent la classification non supervisée. Cette problématique, commune à de multiples domaines (et ainsi connue sous diverses acceptions : apprentissage/classification non supervisé(e) en reconnaissance de formes, taxonomie en sciences de la vie, typologie en sciences humaines. . . ), est ici envisagée selon la perspective Ingénierie des Connaissances et plus spécifiquement dans le cadre de son intégration au sein du processus dExtraction de Connaissances à partir de Données (ECD). D'une part, nos travaux participent à l'amélioration du processus de classification non supervisée, et ce, selon divers axes propres ou non à l'ECD (coût calculatoire et utilisabilité des méthodes, formes et distribution des données traitées, forme des connaissances extraites, sélection de variables pour l'apprentissage non supervisé. . . ) mais aussi à l'évaluation de la qualité d'un processus de classification non supervisée (estimation de la validité des résultats issus du processus). D'autre part ces travaux visent à illustrer le lien très étroit unissant apprentissage non supervisé et apprentissage supervisé et à monter l'intérêt d'une intéraction antre ces deux types de processus. Concrètement, ces divers problèmes sont abordé et présentés au travers d'une nouvelle méthode de classification non supervisée, de deux nouveaux indices et d'une méthodologie dédiés à l'évaluation/comparaison de la validité de classification non superviséé, de méthodes de sélection de variables pour l'apprentissage non supervisé et l'apprentissage supervisé, de plusieurs méthodes pour l'agrégation de classification non supervisée.
APA, Harvard, Vancouver, ISO, and other styles
28

Mokrane, Abdenour. "Représentation de collections de documents textuels : application à la caractérisation thématique." Montpellier 2, 2006. http://www.theses.fr/2006MON20162.

Full text
APA, Harvard, Vancouver, ISO, and other styles
29

Huynh, Hiep Xuan. "Interestingness measures for association rules in a KDD process : postprocessing of rules with ARQAT tool." Nantes, 2006. http://www.theses.fr/2006NANT2110.

Full text
Abstract:
Ce travail s'insère dans le cadre de l'extraction de connaissances dans les données (ECD), souvent dénommé "fouille de données". Ce domaine de recherche multidisciplinaire offre également de nombreuses applications en entreprises. L'ECD s'attache à la découverte de connaissances cachées au sein de grandes masses de données. Parmi les modèles d'extraction de connaissances disponibles, celui des règles d'association est fréquemment utilisé. Il offre l'avantage de permettre une découverte non supervisée de tendances implicatives dans les données, mais, en retour, délivre malheureusement de grandes quantités de règles. Son usage nécessite donc la mise en place d'une phase de post-traitement pour aide l'utilisateur final, un décideur expert des données, à réduire la masse de règles produites. Une manière de réduire la quantité de règles consiste à utiliser des indicateurs numériques de la qualité des règles, appelés "mesures d'intérêts". La littérature propose de nombreuses mesures de ce type, et étudie leurs propriétés. Cette thèse se propose d'étudier la panoplie de mesures d'intérêts disponibles afin d'évaluer leur comportement en fonction d'une part, de la nature des données et d'autre part, des préférences du décideur. L'objectif final étant de guider le choix de l'utilisateur vers les mesures les mieux adaptées à ses besoins et in fine de sélectionner les meilleures règles. A cette fin, nous proposons une approche novatrice implémentée dans un nouvel outil, ARQAT (Association Rule Quality Analysis Tool), afin de faciliter l'analyse du comportement des 40 mesures d'intérêt recensées. En plus de statistiques élémentaires, l'outil permet une analyse poussée des corrélations entre mesures à l'aide de graphes de corrélation s'appuyant sur les coefficients proposés par Pearson, Spearman et Kendall. Ces graphes sont également utilisés pour l'identification de clusters de mesures similaires. En outre, nous avons proposé une série d'études comparatives sur les corrélations entre les mesures d'intérêt sur plusieurs jeux de données. A l'issue de ces études, nous avons découvert un ensemble de correlations peu sensibles à la nature des données utilisées, que nous avons appelées corrélations stables. Enfin, nous présentons 14 graphiques et vues complémentaires structures en 5 niveaux d'analyse : l'analyse de jeu de règles, l'analyse de corrélation et de clustering, l'analyse des meilleures règles, l'analyse de sensibilité, et l'analyse comparative. Au travers d’exemples nous montrons l'intérêt de l'approche exploratoire et de l'utilisation des vues complémentaires
This work takes place in the framework of Knowledge Discovery in Databases (KDD), often called "Data Mining". This domain is both a main research topic and an application field in companies. KDD aims at discovering previously unknown and useful knowledge in large databases. In the last decade many researches have been published about association rules, which are frequently used in data mining. Association rules, which are implicative tendencies in data, have the advantage to be an unsupervised model. But, in counter part, they often deliver a large number of rules. As a consequence, a postprocessing task is required by the user to help him understand the results. One way to reduce the number of rules - to validate or to select the most interesting ones - is to use interestingness measures adapted to both his/her goals and the dataset studied. Selecting the right interestingness measures is an open problem in KDD. A lot of measures have been proposed to extract the knowledge from large databases and many authors have introduced the interestingness properties for selecting a suitable measure for a given application. Some measures are adequate for some applications but the others are not. In our thesis, we propose to study the set of interestingness measure available in the literature, in order to evaluate their behavior according to the nature of data and the preferences of the user. The final objective is to guide the user's choice towards the measures best adapted to its needs and in fine to select the most interesting rules. For this purpose, we propose a new approach implemented in a new tool, ARQAT (Association Rule Quality Analysis Tool), in order to facilitate the analysis of the behavior about 40 interestingness measures. In addition to elementary statistics, the tool allows a thorough analysis of the correlations between measures using correlation graphs based on the coefficients suggested by Pearson, Spearman and Kendall. These graphs are also used for identifying the clusters of similar measures. Moreover, we proposed a series of comparative studies on the correlations between interestingness measures on several datasets. We discovered a set of correlations not very sensitive to the nature of the data used, and which we called stable correlations. Finally, 14 graphical and complementary views structured on 5 levels of analysis: ruleset analysis, correlation and clustering analysis, most interesting rules analysis, sensitivity analysis, and comparative analysis are illustrated in order to show the interest of both the exploratory approach and the use of complementary views
APA, Harvard, Vancouver, ISO, and other styles
30

Chambefort, Françoise. "Mimèsis du flux, exploration des potentialités narratives des flux de données." Thesis, Bourgogne Franche-Comté, 2020. http://www.theses.fr/2020UBFCC004.

Full text
Abstract:
Art du flux, data art, l’art numérique s’approprie les flux de données. Le rapport au réel et au temps qui s’y joue semble propice à la narration, pourtant les œuvres intègrent rarement des récits. Choisissant la voie de la recherche création, cette thèse explore les potentialités narratives des flux de données. Articulant les approches techniques, sémiotiques, sociales et esthétiques, la réflexion se nourrit, outre les sciences de l’information et de la communication, de disciplines variées telles que l’informatique, la philosophie, la sociologie, les sciences cognitives et la narratologie. L’œuvre Lucette, Gare de Clichy a été créée spécifiquement pour répondre à la question de recherche. La structure de l’œuvre a été déclinée en une version écran et une version performance. Elle est étudiée depuis sa création jusqu’à sa réception par le public. L’installation de Jonathan Fletcher Moore Artificial Killing Machine est analysée en parallèle. Dans un premier temps, l’objet de recherche – le récit fondé sur un flux de données en temps réel - est défini et le concept de moulins à données est forgé pour désigner ce type d’œuvres. Quatre hypothèses sont ensuite formulées et vérifiées successivement. Si les moulins à données sont à même de configurer une représentation de type narratif, ils doivent pour cela s’affranchir de la logique de l’action. Le récit de fiction est alors mis en mouvement par le réel. La métaphore qui relie les données du réel à la fiction provoque une oscillation de l’attention du spectateur entre le comparé et le comparant. Cette métaphore-switch possède la capacité de renforcer le sens qu’elle véhicule. Les moulins à données sont ainsi à même de faire ressentir la contingence de la vie telle que l’éprouve une personne vulnérable, ballotée entre temps objectif et temps subjectif
Sometimes called stream art or data art, digital art seizes data streams as its raw materials. Choosing a path of creative research, this thesis explores the story-telling potentialities of data streams. Structured around technical, social, semiotic and aesthetic approaches, its thinking draws on various fields of study : information and communication sciences, but also computer sciences, cognitive sciences, philosophy, sociology and narratology. The work Lucette, Gare de Clichy was especially designed to answer the researched question. The conformation of the work allowed for two different versions of it : a screen version and a performance. It is studied in all its stages, from its creation process to the public's response to it. Jonathan Fletcher Moore's installation, Artificial Killing Machine, is also analyzed. First, our object of research - stories made from a real-time data stream - is defined and the concept of data mills is crafted to refer to this type of work. Then four hypothesis are formulated and individually verified. If data mills are to be able to form a narrative representation, they must free themselves from the logic of action. Thus can fiction become powered by reality. The metaphor that links the data originated in reality and the crafted fiction generates in the viewer a shifting of focus between what is compared and what compares. This switching-metaphor has the power to reinforce the meaning it carries. Data mills are therefore able to convey the contingency of life as experienced by a vulnerable individual, tossed back and forth between objective and subjective time
APA, Harvard, Vancouver, ISO, and other styles
31

Ouksili, Hanane. "Exploration et interrogation de données RDF intégrant de la connaissance métier." Thesis, Université Paris-Saclay (ComUE), 2016. http://www.theses.fr/2016SACLV069.

Full text
Abstract:
Un nombre croissant de sources de données est publié sur le Web, décrites dans les langages proposés par le W3C tels que RDF, RDF(S) et OWL. Une quantité de données sans précédent est ainsi disponible pour les utilisateurs et les applications, mais l'exploitation pertinente de ces sources constitue encore un défi : l'interrogation des sources est en effet limitée d'abord car elle suppose la maîtrise d'un langage de requêtes tel que SPARQL, mais surtout car elle suppose une certaine connaissance de la source de données qui permet de cibler les ressources et les propriétés pertinentes pour les besoins spécifiques des applications. Le travail présenté ici s'intéresse à l'exploration de sources de données RDF, et ce selon deux axes complémentaires : découvrir d'une part les thèmes sur lesquels porte la source de données, fournir d'autre part un support pour l'interrogation d'une source sans l'utilisation de langage de requêtes, mais au moyen de mots clés. L'approche d'exploration proposée se compose ainsi de deux stratégies complémentaires : l'exploration thématique et la recherche par mots clés. La découverte de thèmes dans une source de données RDF consiste à identifier un ensemble de sous-graphes, non nécessairement disjoints, chacun représentant un ensemble cohérent de ressources sémantiquement liées et définissant un thème selon le point de vue de l'utilisateur. Ces thèmes peuvent être utilisés pour permettre une exploration thématique de la source, où les utilisateurs pourront cibler les thèmes pertinents pour leurs besoins et limiter l'exploration aux seules ressources composant les thèmes sélectionnés. La recherche par mots clés est une façon simple et intuitive d'interroger les sources de données. Dans le cas des sources de données RDF, cette recherche pose un certain nombre de problèmes, comme l'indexation des éléments du graphe, l'identification des fragments du graphe pertinents pour une requête spécifique, l'agrégation de ces fragments pour former un résultat, et le classement des résultats obtenus. Nous abordons dans cette thèse ces différents problèmes, et nous proposons une approche qui permet, en réponse à une requête mots clés, de construire une liste de sous-graphes et de les classer, chaque sous-graphe correspondant à un résultat pertinent pour la requête. Pour chacune des deux stratégies d'exploration d'une source RDF, nous nous sommes intéressés à prendre en compte de la connaissance externe, permettant de mieux répondre aux besoins des utilisateurs. Cette connaissance externe peut représenter des connaissances du domaine, qui permettent de préciser le besoin exprimé dans le cas d'une requête, ou de prendre en compte des connaissances permettant d'affiner la définition des thèmes. Dans notre travail, nous nous sommes intéressés à formaliser cette connaissance externe et nous avons pour cela introduit la notion de pattern. Ces patterns représentent des équivalences de propriétés et de chemins dans le graphe représentant la source. Ils sont évalués et intégrés dans le processus d'exploration pour améliorer la qualité des résultats
An increasing number of datasets is published on the Web, expressed in languages proposed by the W3C to describe Web data such as RDF, RDF(S) and OWL. The Web has become a unprecedented source of information available for users and applications, but the meaningful usage of this information source is still a challenge. Querying these data sources requires the knowledge of a formal query language such as SPARQL, but it mainly suffers from the lack of knowledge about the source itself, which is required in order to target the resources and properties relevant for the specific needs of the application. The work described in this thesis addresses the exploration of RDF data sources. This exploration is done according to two complementary ways: discovering the themes or topics representing the content of the data source, and providing a support for an alternative way of querying the data sources by using keywords instead of a query formulated in SPARQL. The proposed exploration approach combines two complementary strategies: thematic-based exploration and keyword search. Theme discovery from an RDF dataset consists in identifying a set of sub-graphs which are not necessarily disjoints, and such that each one represents a set of semantically related resources representing a theme according to the point of view of the user. These themes can be used to enable a thematic exploration of the data source where users can target the relevant theme and limit their exploration to the resources composing this theme. Keyword search is a simple and intuitive way of querying data sources. In the case of RDF datasets, this search raises several problems, such as indexing graph elements, identifying the relevant graph fragments for a specific query, aggregating these relevant fragments to build the query results, and the ranking of these results. In our work, we address these different problems and we propose an approach which takes as input a keyword query and provides a list of sub-graphs, each one representing a candidate result for the query. These sub-graphs are ordered according to their relevance to the query. For both keyword search and theme identification in RDF data sources, we have taken into account some external knowledge in order to capture the users needs, or to bridge the gap between the concepts invoked in a query and the ones of the data source. This external knowledge could be domain knowledge allowing to refine the user's need expressed by a query, or to refine the definition of themes. In our work, we have proposed a formalization to this external knowledge and we have introduced the notion of pattern to this end. These patterns represent equivalences between properties and paths in the dataset. They are evaluated and integrated in the exploration process to improve the quality of the result
APA, Harvard, Vancouver, ISO, and other styles
32

Karoui, Lobna. "Extraction contextuelle d'ontologie par fouille de données." Paris 11, 2008. http://www.theses.fr/2008PA112220.

Full text
Abstract:
L’objectif de cette thèse est d’automatiser au maximum le processus de construction d’une ontologie à partir de pages web, en étudiant notamment l’impact que peut avoir la fouille de données dans une telle tâche. Pour construire l’ontologie, nous avons exploité la structure HTML du document étudié afin de pouvoir bien définir le contexte à mettre en œuvre. Ce dernier est structuré sous la forme d’une hiérarchie de contextes. Puis, nous avons défini un algorithme de clustering hiérarchique dédié à l’extraction de concepts ontologiques intitulé ‘ECO’ ; il est basé sur l’algorithme Kmeans et guidé par notre structure contextuelle. Cet algorithme génère une hiérarchie de classes de termes (concepts). En instaurant un mécanisme incrémental et en divisant récursivement les classes, l’algorithme ECO raffine le contexte de chaque classe de mots et améliore la qualité conceptuelle des clusters finaux et par conséquence des concepts extraites. L’interprétation sémantique des classes de termes par les experts ou les concepteurs de l’ontologie est une tâche difficile. Afin de la faciliter, nous avons proposé une méthodologie d’évaluation des concepts basée sur la richesse des documents web, l’interprétation sémantique, l’élicitation des connaissances et le concept de « contextualisation progressive ». Notre méthodologie définit trois critères révélateurs : « le degré de crédibilité », « le degré de cohésion » et le « degré d’éligibilité ». Elle a été appliquée pour évaluer les classes de termes (relations internes) mais pas les relations entre les classes (pas la hiérarchie de concepts). Notre objectif, également, était d’extraire des relations de différents types à partir de différentes analyses des textes et des relations existantes dans la hiérarchie de concepts. Pour cela, notre approche combine une méthode centrée autour du verbe, des analyses lexicales, syntaxiques et statistiques. Nous utilisons ces relations pour évaluer et enrichir la hiérarchie de concepts.
APA, Harvard, Vancouver, ISO, and other styles
33

Ben, Messaoud Riadh. "Couplage de l'analyse en ligne et de la fouille de données pour l'exploration, l'agrégation et l'explication des données complexes." Lyon 2, 2006. http://theses.univ-lyon2.fr/documents/lyon2/2006/benmessaoud_r.

Full text
Abstract:
Les entrepôts de données présentent une solution efficace à la gestion des grandes volumétries des données. L'analyse en ligne (OLAP) complète les entrepôts de données en proposant des outils pour la visualisation, la structuration et l'exploration des cubes de données afin d'y découvrir des informations pertinentes. D'un autre côté, la fouille de données emploie des techniques d'apprentissage afin d'induire des modèles de connaissances valides couvrant la description, la classification et l'explication. L'idée de combiner l'analyse en ligne et la fouille de données est une solution prometteuse pour rehausser le processus d'aide à la décision, notamment dans le cas des données complexes. En effet, il s'agit de deux domaines qui peuvent se compléter dans le cadre d'un processus d'analyse unifié. L'objectif de cette thèse est d'avancer de nouvelles approches d'aide à la décision qui reposent sur le couplage de l'analyse en ligne et de la fouille de données. Nous avons mis en place trois principales propositions pour ce problème. La première concerne la visualisation des données éparses. En se basant sur l'analyse des correspondances multiples, nous atténuons l'effet négatif de l'éparsité en réorganisant différemment les cellules d'un cube de données. Notre deuxième proposition fournit une nouvelle agrégation des faits d'un cube de données en se basant sur la classification ascendante hiérarchique. Les nouveaux agrégats obtenus sont sémantiquement plus riches que ceux fournis par l'OLAP classiques. Notre troisième proposition établit une démarche explicative en se basant sur les règles d'association. Nous avons élaboré un nouvel algorithme pour une recherche guidée des règles d'association dans les cubes de données. Nous avons également développé une plateforme logicielle pour concrétiser nos contributions théoriques et proposé un cas d'application à des données complexes afin de valider notre démarche de couplage. Enfin, en se basant sur une algèbre OLAP, nous avons mis en place les premières bases d'un cadre formel général dédié au couplage de l'analyse en ligne et de la fouille de données
Data warehouses provide efficient solutions for the management of huge amounts of data. Online analytical processing (OLAP) is a key feature in data warehouses which enables users with visual tools to explore data cubes. Therefore, users are capable to extract relevant information for their decision-making. On the other hand, data mining offers automatic learning techniques in order to come out with comprehensive knowledge covering descriptions, clusterings and explanations. The idea of combining online analytical processing and data mining is a promising solution to improve the decision-making process, especially in the case of complex data. In fact, OLAP and data mining could be two complementary fields that interact together within a unique analysis process. The aim of this thesis is to propose new approaches for decision support based on coupling online analytical processing and data mining. In order to do so, we have established three main proposals. The first one concerns the visualization of sparse data. According to the multiple correspondence analysis, we have reduced the negative effect of sparsity by reorganizing the cells of a data cube. Our second proposal provides a new aggregation of facts in a data cube by using agglomerative hierarchical clustering. The obtained aggregates are semantically richer than those provided by traditional multidimensional structures. Our third proposal tries to explain possible relationships within multidimensional data by using association rules. We have designed a new algorithm for a guided-mining of association rules in data cubes. We have also developed a software platform which includes our theoretical contributions. In addition, we provided a case study on complex data in order to validate our approaches. Finally, based on an OLAP algebra, we have designed the first principles toward a general formal framework which models the problem of coupling online analytical processing and data mining
APA, Harvard, Vancouver, ISO, and other styles
34

Le, Corre Laure. "Données actuelles de l'exploration fonctionnelle thyroi͏̈dienne." Paris 5, 1992. http://www.theses.fr/1992PA05P133.

Full text
APA, Harvard, Vancouver, ISO, and other styles
35

Charantonis, Anastase Alexandre. "Méthodologie d'inversion de données océaniques de surface pour la reconstitution de profils verticaux en utilisant des chaînes de Markov cachées et des cartes auto-organisatrices." Paris 6, 2013. http://www.theses.fr/2013PA066761.

Full text
Abstract:
Les observations satellitaires permettent d'estimer les valeurs de différents paramètres biogéochimiques à la surface des océans. D’une manière générale, les paramètres observés sont reliés à des grandeurs géophysiques de l’océan comme : les profils verticaux de concentrations en Chlorophylle-A, les profils de Salinité et de Température… La dimensionnalité de ces données environnementales est très grande, autant dans le cas des données de surface que des profils verticaux. A cause de leur grande dimensionnalité, et de la dynamique complexe qui relie ces données, il est difficile de modéliser leurs relations de façon linéaire. Il s'agit dans cette thèse d'élaborer une méthodologie d'inversion statistique des observations de surface afin de retrouver ces profils verticaux. La méthodologie développée et que nous avons nommée PROFHMM, fait appel aux Cartes Topologiques Auto-organisatrices pour pouvoir modéliser le problème sous forme d’une chaîne de Markov cachée. PROFHMM utilise les capacités topologiques des Carte Auto-organisatrices non seulement pour déterminer les états et la topologie de la chaîne de Markov cachée générée, mais aussi pour améliorer l’estimation des probabilités qui sont essentielles pour son fonctionnement. Sur les applications géophysiques que nous avons traité dans cette thèse, l’introduction des cartes topologiques auto-organisatrices se révèle un élément essentiel pour assurer les performances obtenues. Le manuscrit est structuré en quatre parties. La première partie présente les méthodes statistiques qui forment la base des méthodologies proposées dans cette thèse. Il s’agit des chaînes de Markov Cachées , de l’algorithme de Viterbi et des cartes topologiques auto-organisatrices. Chaque partie suivante représente un article : Le premier présente la méthodologie générale de PROFHMM, et traite de l’application qui porte sur la reconstitution temporelle des profils verticaux de Chlorophylle-A. Cette application permet de voir qu’il est possible de synchroniser des données issues de modèles numériques avec des données d’observation satellitaires. Le second article présente les résultats obtenus par l’application de PROFHMM pour reconstruire les données de la campagne ARAMIS à partir des données altimétriques AVISO et la température de surface fournie par la NOAA. Les performances obtenues prouvent qu’il est possible de synchroniser une dynamique océanique apprise par des données in-situ et des donnes de surface. Finalement, dans le troisième article nous présentons une modification à l’algorithme de Viterbi pour prendre en compte, durant la phase de reconstruction de trajectoires, une connaissance à priori sur la qualité des observations. La validité de l’approche est démontrée à partir d’expériences jumelles de reconstruction de séries temporelles de données surface
Satellite observations provide us with the values of different biogeochemical parameters at the surface layer of the ocean. These observations are highly correlated with the underlying vertical profiles of different oceanic parameters, such as the Chlorophyll-A concentration, the salinity and temperature of the water column… The sea-surface data and the vertical profiles of the oceanic parameters constitute multi-dimensional vectors. Due to their multi-dimensionality and the high complexity of the dynamics connecting these data sets, their links cannot be modeled linearly. In this thesis we present a methodology to statistically invert sea-surface observations in order to retrieve these vertical profiles. The developed methodology, named PROFHMM, makes use of Self Organizing Maps in order to render the inversion problem compatible with the Hidden Markov Model formalism. PROFHMM makes full use of the topological aspect of the Self Organizing Maps in order not only to generate the topology and states of the Hidden Markov Model, but also improve the estimation of the probabilities essential to the accuracy of the model. The use of the Self Organizing maps was essential in obtaining the results for the geophysical applications of PROFHMM presented in this manuscript. The manuscript was structured in three chapters, each consisting of an article. In the first one, the general methodology of PROFHMM is developed, then tested for the retrieval of vertical profiles of Chlorophyll-A by inverting sea-surface observations. This application demonstrated the ability to synchronize sea-surface data with the output data of numerical models. The second article presents the application of PROFHMM on the inversion of sea-surface data obtained from the AVISO and NOAA projects, in order to retrieve the vertical profiles of temperature over the rail of the ARAMIS mission. The performances obtained demonstrate the ability of PROFHMM to synchronize sea-surface data with in-situ measurements. Finally, in the third article, we present a modification to the Viterbi Algorithm in order to take into account an à priori knowledge of the quality of the observations when performing reconstructions. The proposed methodology, named PROFHMM_UNC, was applied for the reconstruction of the temporal evolution of sea-surface data, by taking into account the quality of the satellite observations used. The validity of the method was proven by performing a twin experiment on the outputs of a numerical model
APA, Harvard, Vancouver, ISO, and other styles
36

Rannou, Éric. "Modélisation explicative de connaissances à partir de données." Toulouse 3, 1998. http://www.theses.fr/1998TOU30290.

Full text
Abstract:
Dans ce document, nous proposons d’étudier quelques méthodes d'extraction de connaissances d'un ensemble de données. L'extraction de connaissances qui est proposée consiste à exploiter les capacités des règles floues pour le résumé de données, et par extension, pour la modélisation de connaissances imprécises intelligibles pour un expert. En effet, les règles floues peuvent tout aussi bien traduire une information complexe décrivant le comportement dynamique d'un système (en modélisation floue) qu'une information intelligible destinée à la découverte de connaissances (dans une interface numerico-symbolique mettant en œuvre le raisonnement approche). Dans le premier cas, la connaissance extraite à partir des données est capable de reproduire les données mais n'est pas forcement une approche explicative. Seul le second cas s’avère une approche explicative qui permet de prendre en compte la connaissance experte. C'est pourquoi la découverte de connaissance basée sur l'extraction de règles floues à partir de données a été décomposée en deux parties. La première partie consiste à extraire des données un système de règles floues aux propriétés d'approximateur universel (approche non explicative de la structure des données). Les règles floues qui sont utilisées dans cette partie sont dites disjonctives en raison du mécanisme de combinaison que nécessite leur mise en œuvre. Une présentation d'un processus d'acquisition de connaissances, résultat d'une synthèse d'un ensemble d'approches, est proposée pour la modélisation floue. Celle-ci se décompose classiquement en deux parties : l'identification structurelle et l'identification paramétrique. Cependant, l'acquisition de connaissances pour la modélisation floue ne dépend que de l'identification structurelle. Nous nous sommes donc essentiellement intéressés aux différentes méthodes d'identification structurelles existantes pour la modélisation floue d'une base de connaissances. La seconde partie du document est consacrée à l'extraction de règles floues à partir des données à des fins d'interface et d’inférence. Les règles floues utilisées alors sont dites conjonctives. Ceci s'explique par le fait que nous souhaitons dans ce cas inférer règle par règle comme dans un système expert classique. Nous montrons comment nous avons développé une méthode d'extractions de connaissances linguistiques au moyen de règles floues conjonctives. Cette nouvelle méthode s'appuie sur une procédure de recherche successive de sous-groupes d’échantillons typiques au sein des données. Nous présentons enfin une application industrielle d'un système de règles floues disjonctives utilise en tant qu'approximateur universel. Ce système de règles floues a été comparé à deux autres méthodes de modélisation mettant en œuvre les réseaux de neurones et l'identification paramétrique de modèles linéaires.
APA, Harvard, Vancouver, ISO, and other styles
37

Aboa, Yapo Jean-Pascal. "Méthodes de segmentation sur un tableau de variables aléatoires." Paris 9, 2002. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=2002PA090042.

Full text
APA, Harvard, Vancouver, ISO, and other styles
38

Blachon, Sylvain. "Exploration des données SAGE par des techniques de fouille de données en vue d'extraire des groupes de synexpression impliqués dans l'oncogénèse." Lyon, INSA, 2007. http://theses.insa-lyon.fr/publication/2007ISAL0034/these.pdf.

Full text
Abstract:
Avec le développement de techniques de biologie moléculaire à haut débit, l'accumulation de grandes quantités de données permet de poser de nouvelles questions tant méthodologiques que fondamentales, en biologie comme en informatique. Ces questions ouvrent la voie à l'étude de la complexité du vivant. Ce travail de thèse s'inscrit dans ce contexte de bioinformatique. L'essentiel de notre contribution réside dans l'étude et l'interrogation des données SAGE humaines issues du Cancer Genome Anatomy Project. Nous avons ainsi étudié en profondeur les qualités particulières de ces données, ainsi que les questions biologiques que nous pouvions nous poser à partir de ces données. Répondre à ces questions a nécessité différentes méthodes d'extraction de connaissances à partir des données. Chaque question a demandé la conception d'un scénario original d'extraction de connaissances. Leur mise en oeuvre a reposé sur l'utilisation de différents algorithmes d'extraction de motifs dans les bases de données, en particulier des algorithmes de recherche de motifs ensemblistes dans des données booléennes développés par différents partenaires de l'ACI Bases de Données Inductives pour la Génomique. Les questions biologiques ainsi que la forme particulière des données SAGE nous ont confronté à certains verrous technologiques désormais résolus (e. G. , la transposition pour l'extraction de tous les concepts formels, l'exploitation active de contraintes au cours des phases d'extraction) ou mieux cernés (e. G. , le codage booléen de propriétés d'expression). Un effort particulier a été fourni sur le post-traitement des motifs ensemblistes extraits et sur leurs interprétations. Ainsi, une méthode de classification de motifs locaux similaires (avec application à des collections de concepts formels) est proposée pour faciliter l'interprétation de ce que nous appelons des QSGs ("quasi synexpression groups"). Nous avons également travaillé à l'exploitation de sources de données externes (typquement des sources comme Gene Ontology ou en core des résumés d'articles) pour faciliter l'identification des motifs pertinents d'un point de vue biologique. L'impact de ces éléments de méthodes a été validé sur un travail d'interprétation de QSGs extraits des données SAGE humaines afin de proposer de nouvelles hypothèses sur des groupes de gènes simultanément co-surexprimés dans des situations cancéreuses
With the development of high-throughput molecular biology techniques, the accumulation of huge quantities of data asks new methodological and theoretical questions, in biology and in computer science. These questions open the field of study of life complexity. This work is a part of this bioinformatics framework. Essentially, our contribution resides in the study and query of human SAGE data from the Cancer Genome Anatomy Project. We studied deeply the specifie qualities of these data, and the biological questions we can ask on these data. To answer these, several methods of data mining were needed. Each question demanded the conception of an original data mining scenario. Their setting-up was based on the use of several data mining algorithms dedicatted to the extraction of local set patterns in database, especially the ones developed by the partners involved in a French national project, the ACI BINGO. The biological questions and the particular shape of SAGE data confronted us to various technological issues that are now fixed or at least delimited. A special effort was made to post-process the extracted local patterns and to interpret them. As a matter of fact, a clustering method to aggregate similar local patterns was proposed to ease the identification of relevant patterns from a biologist point of view. The impact of all these methodological elements was validated on a work of interpretation of QSGs in order to propose new hypotheses on sets of genes simultaneously over-expressed in cancerous situations
APA, Harvard, Vancouver, ISO, and other styles
39

Méger, Nicolas. "Recherche automatique des fenêtres temporelles optimales des motifs séquentiels." Lyon, INSA, 2004. http://theses.insa-lyon.fr/publication/2004ISAL0095/these.pdf.

Full text
Abstract:
Ce mémoire concerne l'extraction sous contraintes de motifs dans une séquence d'événements. Les motifs extraits sont des règles d'épisodes. L'apport principal réside dans la détermination automatique de la fenêtre temporelle optimale de chaque règle d'épisodes. Nous proposons de n'extraire que les règles pour lesquelles il existe une telle fenêtre. Ces règles sont appelées FLM-règles. Nous présentons un algorithme, WinMiner, pour extraire les FLM-règles, sous les contraintes de support minimum, de confiance minimum, et de gap maximum. Les preuves de la correction de cet algorithme sont fournies. Nous proposons également une mesure d'intérêt dédiée qui permet de sélectionner les FLM-règles pour lesquelles il existe une forte dépendance entre corps et tête de règle. Deux applications de cet algorithme sont décrites. L'une concerne des données médicales tandis que l'autre a été réalisée sur des données sismiques
This work addresses the problem of mining patterns under constraints in event sequences. Extracted patterns are episode rules. Our main contribution is an automatic search for optimal time window of each one of the episode rules. We propose to extract only rules having such an optimal time window. These rules are termed FLM-rules. We present an algorithm, WinMiner, that aims to extract FLM-rules, given a minimum support threshold, a minimum confidence threshold and a maximum gap constraint. Proofs of the correctness of this algorithm are supplied. We also propose a dedicated interest measure that aims to select FLM-rules such that their heads and bodies can be considered as dependant. Two applications are described. The first one is about mining medical datasets while the other one deals with seismic datasets
APA, Harvard, Vancouver, ISO, and other styles
40

Bykowski, Artur. "Condensed representations of frequent sets : application to descriptive pattern discovery." Lyon, INSA, 2002. http://theses.insa-lyon.fr/publication/2002ISAL0053/these.pdf.

Full text
Abstract:
L'extraction de motifs intéressants a connu récemment un développement impressionnant dû à une pression accrue des propriétaires de données sous-exploitées et à la réponse des chercheurs par de nombreux résultats théoriques et pratiques. A l'origine, les données analysées provenaient du domaine de la vente et les motifs intéressants se présentaient sous forme de règles d'association. Des solutions performantes à ce problème pratique ont été élaborées (ex. APRIORI). Puis, les propriétaires d'autres types de données se sont interrogés sur l'utilité de ces premières solutions pour analyser leurs données. Malheureusement, ces données étaient différentes. Souvent, dans ces cas-là, APRIORI était inefficace voire intractable. Nous avons étudié les problèmes liés à l'extraction de motifs intéressants dans des collections de données d'origine différentes, en particulier les problèmes liés au grand nombre de motifs valides dans les données non similaires aux données de ventes. Nos méthodes extraient une collection de motifs qui peut être différente de la collection cible de motifs, en estimant qu'elle sera plus efficace à calculer dans certains types de données. De plus, cette collection, différente de la collection cible de motifs, doit permettre une régénération efficace de la collection cible. Comme la représentation intermédiaire est souvent beaucoup plus petite que la collection cible, nous la désignons sous le terme représentation condensée. Nous avons obtenu des améliorations significatives des performances. L'utilisation de représentations condensées est relativement novatrice dans le domaine. La contribution principale de cette thèse est la proposition de nouvelles représentations condensées pour des motifs élémentaires, ainsi que les algorithmes pour extraire ces représentations condensées et régénérer, à partir d'elles, les collections de motifs cibles. Nous montrons les avantages de ces représentations condensées par rapport aux méthodes existantes
Interesting pattern discovery has recently seen an impressive progress, due to an increasing pressure from owners of large data sets and to the response of scientists by numerous theoretical and practical results. The most of data sets addressed in the beginning of the surge were sales data and the interesting patterns were in form of association rules. Very efficient solutions to this practical problem were elaborated, the root of them was the so-called APRIORI algorithm. Then, the owners of other types of data wondered if these basic methods could help them. Unfortunately, their data were different. Often, these applications could not take advantage of APRIORI. The research following the elaboration of the basic solution addressed the important application areas, where the basic solution could not be used. We addressed the problems with mining frequent patterns in different applicative contexts, especially the problems related to the large number of interesting frequent patterns present in data that are not similar to the sales data. Our methods mine a collection of patterns that may be quite different from the target pattern collection, and hopefully much more efficient to be mined in some types of data. Moreover, that different pattern collection must allow a subsequent "regeneration" of the target collection in a very efficient manner. Since the intermediate representation will be often smaller than the target collection, we call it a condensed representation. We obtained a significant improvement of the performances. The use of condensed representations is relatively novel in the field. Then new major condensed representations of simple frequent patterns are proposed, the algorithms to mine them and derive the target pattern collections. We show the practical advantages of the proposed condensed representations over the past methods, and provide an abstract view of the proposed representations in the unified structure for condensed representations
APA, Harvard, Vancouver, ISO, and other styles
41

Jollois, François-Xavier. "Contribution de la classification automatique à la fouille de données." Metz, 2003. http://docnum.univ-lorraine.fr/public/UPV-M/Theses/2003/Jollois.Francois_Xavier.SMZ0311.pdf.

Full text
Abstract:
La classification est une étape essentielle dans un processus de fouille de données. Les méthodes usuelles que nous décrivons se basent sur des critères métriques. Mais, l'utilisation des modèles de mélange dans la classification est devenue une approche classique et puissante. En traitant la classification sous cette approche, à partir des algorithmes de type EM, nous nous sommes intéressés aux problèmes suivants : recherche du nombre de classes, gestion des données manquantes, stratégies d'initialisation et accélération de l'algorithme. L'algorithme EM est devenu quasiment incontournable dans l'approche mélange; Alors que beaucoup de travaux sont effectués sur des données continues, nous avons choisi de nous interesser principalement aux données binaires et qualitatives. En premier lieu, nous avons proposé une étude comparative de critères de choix du nombre de classes les plus utilisées.
APA, Harvard, Vancouver, ISO, and other styles
42

Couturier, Olivier. "Contribution à la fouille de données : règles d'association et interactivité au sein d'un processus d'extraction de connaissances dans les données." Artois, 2005. http://www.theses.fr/2005ARTO0410.

Full text
Abstract:
Au regard du nombre croissant des grandes bases de données, déterminer la façon dont sont organisées les données, les interpréter et en extraire des informations utiles est un problème difficile et ouvert. En effet, à l'heure actuelle, notre capacité à collecter et stocker les données de tout type, outrepasse nos possibilités d'analyse, de synthèse et d'extraction de connaissances dans les données. Notre travail se situe au niveau de la recherche de règles d'association qui constitue une tâche de fouille de données. Cette dernière présente des résultats qui permettent aux experts de facilement interpréter les règles une à une. Les méthodes de génération sont combinatoires et engendrent un nombre élevé de règles qui sont difficilement exploitables. Plusieurs approches de réduction de ce nombre ont été proposées comme l'usage de mesures de qualité, le filtrage syntaxique par contraintes, la compression par les bases représentatives ou génériques. Cependant, ces approches n'intègrent pas l'expert dans le déroulement du processus limitant ainsi l'aspect interactif du processus. En effet, l'expert ne sait pas toujours initialement quelle connaissance il souhaite obtenir. Nous analysons l'activité cognitive de l'expert dans différents processus de recherche de règles d'association et nous montrons que dans ces approches, l'expert n'intervient pas durant les tâches du processus. Pour accroître cette interactivité avec l'expert, il est nécessaire que celui-ci soit au coeur du processus afin de répondre à l'un des objectifs de l'ECD. Nous nous basons sur les systèmes orientés-tâches, qui se focalisent sur les différentes tâches que l'expert doit réaliser, et proposons l'algorithme SHARK qui est une approche hybride basée sur l'utilisation d'une recherche hiérarchique s'appuyant sur une taxinomie d'attributs et d'une approche anthropocentrée de manière à inclure l'expert dans le processus. Nous couplons ainsi la connaissance explicite fournie par l'algorithme et la connaissance tacite de l'expert. L'utilisation d'une interface graphique adaptée s'avère donc nécessaire pour que l'expert puisse interagir de manière optimale avec le processus. L'efficacité de cet algorithme a été montrée sur un problème réel de marketing faisant intervenir des experts du monde bancaire. En outre, la fouille de données visuelle présente un intérêt non négligeable puisque l'esprit humain peut traiter une plus grande quantité d'informations de manière visuelle. Comme des quantités très importantes de règles sont générées, la fouille de données visuelle s'avère être une étape incontournable pour améliorer encore notre approche. Nous présentons un état de l'art des principales techniques de visualisation de règles d'association. Parmi ces représentations, nous nous focalisons sur les représentations de type matrice 3D présentant la particularité de générer des occlusions. Une occlusion est un chevauchement d'objets dans un environnement 3D rendant certains de ces objets pas ou peu visibles. Après avoir défini formellement le problème d'occlusions, nous montrons qu'il s'agit d'un problème d'optimisation qui est de trouver le meilleur ordre possible des itemsets sur les deux axes pour limiter les occlusions. Nous proposons une heuristique permettant de réduire significativement les occlusions générées. Les résultats que nous avons obtenus sont présentés et discutés.
APA, Harvard, Vancouver, ISO, and other styles
43

Berasaluce, Sandra. "Fouille de données et acquisition de connaissances à partir de bases de données de réactions chimiques." Nancy 1, 2002. http://docnum.univ-lorraine.fr/public/SCD_T_2002_0266_BERASALUCE.pdf.

Full text
Abstract:
Les bases de données de réactions, outils indispensables pour les chimistes organiciens, ne sont pas exemptes de défauts. Dans cette thèse, nous avons entrepris d'ajouter des connaissances structurant les données pour dépasser les limites des bases et envisager de nouveaux modes d'interrogation de ces bases. In fine, l'objectif est de concevoir des systèmes possédant des fonctionnalités de BD et de SBC. Dans le processus d'acquisition de connaissances, nous avons mis l'accent sur la modélisation des objets chimiques. Ainsi, nous sommes intéressés aux méthodes de synthèse que nous avons décrites en terme d'objectifs de synthèse atteints. Nous nous sommes ensuite appuyés sur le modèle élaboré pour appliquer des techniques de fouille de données et faire émerger des connaissances. Nos expérimentations dans Resyn-Assistant sur les méthodes de construction de monocycles et les interchanges fonctionnels donnent des résultats en accord avec les connaissances du domaine
Chemical reaction database, indispensable tools for synthetic chemists, are not free from flaws. In this thesis, we have tried to overcome the databases limits by adding knowledge which structures data. This allows us to consider new efficient modes for query these databases. In the end, the goal is to design systems having both functionalities of DB and KBS. In the knowledge acquisition process, we emphasized on the modelling of chemical objects. Thus, we were interested in synthetic methods which we have described in terms of synthetic objectives. Afterward, we based ourselves on the elaborated model to apply data mining techniques and to extract knowledge from chemical reaction databases. The experiments we have done on Resyn Assistant concerned the synthetic methods which construct monocycles and the functional interchanges and gave trends in good agreement with the domain knowledge
APA, Harvard, Vancouver, ISO, and other styles
44

Merroun, Omar. "Traitement à grand échelle des données symboliques." Paris 9, 2011. http://www.theses.fr/2011PA090027.

Full text
Abstract:
Les méthodes de l’Analyse de Données (AD) classiques ont été généralisées dans l’Analyse de Données Symboliques (ADS) en prenant en charge les données complexes (intervalles, ensembles, histogrammes, etc. ). Ces méthodes expriment des operations de haut niveau et sont très complexes. Le modèle de l’ADS, qui est implanté dans le logiciel SODAS2, ne supporte pas le traitement de volumes importants de données symboliques. Conformément à la démarche classique en modélisation et traitement de masses de données, nous proposons un nouveau modèle de données pour représenter les données symboliques et les manipuler avec des opérateurs algébriques minimaux et clos par composition. Nous donnons aussi des exemples de requêtes pour montrer l’expressivité de ce modèle. Nous avons implanté ce modèle algébrique, nommé LS-SODAS, et définit un langage, nommé XSDQL, pour formuler des requêtes afin de manipuler les données symboliques. Nous réalisons deux études de cas qui illustrent d’une part l’expressivité de ce langage et la capacité à traiter des volumes de données importants
Symbolic Data Analysis (SDA) proposes a generalization of classical Data Analysis (AD) methods using complex data (intervals, sets, histograms). These methods define high level and complex operators for symbolic data manipulation. Furthermore, recent implementations of the SDA model are not able to process large data volumes. According to the classical design of massive data computation, we define a new data model to represent and process symbolic data using algebraic operators that are minimal and closed by composition. We give some query samples to emphasize the expressiveness of our model. We implement this algebraic model, called LS-SODAS, and we define the language XSDQL to express queries for symbolic data manipulation. Two cases of study are provided in order to show the potential of XSDQL langage expressiveness and the data processing scalability
APA, Harvard, Vancouver, ISO, and other styles
45

Favre, Cécile. "Evolution de schémas dans les entrepôts de données : mise à jour de hiérarchies de dimension pour la personnalisation des analyses." Lyon 2, 2007. http://theses.univ-lyon2.fr/documents/lyon2/2007/favre_c.

Full text
Abstract:
Dans cette thèse, nous proposons une solution pour la personnalisation des analyses dans les entrepôts de données. Cette solution se base sur une évolution du schéma de l'entrepôt guidée par les utilisateurs. Il s'agit en effet de recueillir les connaissances de l'utilisateur et de les intégrer dans l'entrepôt de données afin de créer de nouveaux axes d'analyse. Cette solution se base sur la définition d'un modèle formel d'entrepôt de données évolutif, basé sur des règles <>, que nous appelons règles d'agrégation. Notre modèle d'entrepôt évolutif est soutenu par une architecture qui permet de modéliser le processus de personnalisation. Cette architecture comprend quatre modules qui comprennent : l’acquisition des connaissances utilisateurs sous forme de règles d'agrégation ; l’intégration des règles d'agrégation dans l'entrepôt de données ; l’évolution du schéma ; l’analyse en ligne sur le nouveau schéma. Pour mettre en œuvre cette architecture globale, nous proposons un modèle d'exécution avec l'approche relationnelle, qui vise à gérer l'ensemble des processus liés à l'architecture globale. Nous nous sommes par ailleurs intéressés à l'évaluation de la performance de notre modèle d'entrepôt de données évolutif. Pour cela, nous proposons une méthode de mise à jour incrémentale d’une charge donnée en répercutant l’évolution de schéma. Pour valider nos différentes contributions, nous avons développé la plateforme WEDriK (data Warehouse Evolution Driven by Knowledge). Les problèmes posés dans ce mémoire sont directement issus de la réalité de l'entreprise LCL avec laquelle nous avons collaboré dans le cadre d'une thèse CIFRE
In this thesis, we propose a solution to personalize analyses in data warehousing. This solution is based on schema evolution driven by users. More precisely, it consists in users’ knowledge and integrating it in the data warehouse to build new analysis axes. To achieve that, we propose an evolving rule-based data warehouse formal model. The rules are named aggregation rules. To exploit this model, we propose an architecture that allows the personalization process. This architecture includes four modules: users’ knowledge acquisition under the form of if-then rules, integration of these rules in the data warehouse; schema evolution; on-line analysis on the new schema. To realize this architecture, we propose an executive model in the relational context to deal with the process of the global architecture. Besides we interested in the evaluation of our evolving model. To do that, we propose an incremental updating method of a given workload in response to the data warehouse schema evolution. To validate our proposals, we developed the WEDriK (data Warehouse Evolution Driven by Knowledge) platform. The problems evoked in this thesis come from the reality of the LCL bank
APA, Harvard, Vancouver, ISO, and other styles
46

Cerf, Loïc. "Constraint-based mining of closed patterns in noisy n-ary relations." Lyon, INSA, 2010. http://theses.insa-lyon.fr/publication/2010ISAL0050/these.pdf.

Full text
Abstract:
Useful knowledge discovery processes can be based on patterns extracted from large datasets. Designing efficient data mining algorithms to compute collections of relevant patterns is an active research domain. Many datasets record whether some properties hold for some objects, e. G. , whether an item is bought by a customer or whether a gene is over-expressed in a biological sample. Such datasets are binary relations and can be represented as 0/1 matrices. In such matrices, a closed itemset is a maximal rectangle of ’1’s modulo arbitrary permutations of the lines (objects) and the columns (properties). Thus, every closed itemset supports the discovery of a maximal subset of objects sharing the same maximal subset of properties. Efficiently extracting every closed itemset satisfying user-defined relevancy constraints has been extensively studied. Despite its success across many application domains, this framework often turns out to be too narrow. First of all, many datasets are n-ary relations, i. E. , 0/1 tensors. Reducing their analysis to two dimensions is ignoring potentially interesting additional dimensions, e. G. , where a customer buys an item (localized analysis) or when a gene expression is measured (kinetic analysis). The presence of noise in most real-life datasets is a second issue, which leads to the fragmentation of the patterns to discover. Generalizing the definition of a closed itemset to make it suit relations of higher arity and tolerate some noise is straightforward (maximal hyper-rectangle with an upper bound of ’0’s tolerated per hyper-plan). On the contrary, generalizing their extraction is very hard. Indeed, classical algorithms exploit a mathematical property (the Galois connection) of the closed itemsets that none of the two generalizations preserve. That is why our extractor browses the candidate pattern space in an original way that does not favor any dimension. This search can be guided by a very broad class of relevancy constraints the patterns must satisfy. In particular, this thesis studies constraints specifically designed for mining almost-persistent cliques in dynamic graphs. Our extractor is orders of magnitude faster than known competitors focusing on exact patterns in ternary relations or on noise-tolerant patterns in binary relations. Despite these results, such an exhaustive approach often cannot, in a reasonable time, tolerate as much noise as the dataset contains. In this case, complementing the extraction with a hierarchical agglomeration of the (insufficiently noise-tolerant) patterns increases the quality of the returned collection of patterns
Les processus de découverte de connaissances nouvelles peuvent être fondés sur des motifs locaux extraits de grands jeux de données. Concevoir des algorithmes de fouille de données efficaces pour calculer des collections de motifs pertinents est un domaine actif de recherche. Beaucoup de jeux de données enregistrent si des objets présentent ou non certaines propriétés; par exemple si un produit est acheté par un client ou si un gène est sur exprimé dans un échantillon biologique. Ces jeux de données sont des relations binaires et peuvent être représentés par des matrices 0/1. Dans de telles matrices, un ensemble fermé est un rectangle maximal de '1's modulo des permutations arbitraires des lignes (objets) et des colonnes (propriétés). Ainsi, chaque ensemble fermé sous tend la découverte d'un sous ensemble maximal d'objets partageant le même sous ensemble maximal de propriétés. L'extraction efficace de tous les ensembles fermés, satisfaisant des contraintes de pertinences définies par l'utilisateur, a été étudiée en profondeur. Malgré son succès dans de nombreux domaines applicatifs, ce cadre de travail se révèle souvent trop étroit. Tout d'abord, beaucoup de jeux de données sont des relations n-aires, c'est à dire des tenseurs 0/1. Réduire leur analyse à deux dimensions revient à ignorer des dimensions additionnelles potentiellement intéressantes; par exemple où un client achète un produit (analyse spatiale) ou quand l'expression d'un gène est mesurée (analyse cinétique). La présence de bruit dans la plupart des jeux de données réelles est un second problème qui conduit à la fragmentation des motifs à découvrir. On généralise facilement la définition d'un ensemble fermé pour la rendre applicable à des relations de plus grande arité et tolérante au bruit (hyper rectangle maximal avec une borne supérieure de '0's tolérés par hyperplan). Au contraire, généraliser leur extraction est très difficile. En effet, les algorithmes classiques exploitent une propriété mathématique (la connexion de Galois) des ensembles fermés qu'aucune des deux généralisations ne préserve. C'est pourquoi notre extracteur parcourt l'espace des motifs candidats d'une façon originale qui ne favorise aucune dimension. Cette recherche peut être guidée par une très grande classe de contraintes de pertinence que les motifs doivent satisfaire. En particulier, cette thèse étudie des contraintes spécifiquement conçues pour la fouille de quasi cliques presque persistantes dans des graphes dynamiques. Notre extracteur est plusieurs ordres de grandeurs plus efficaces que les algorithmes existants se restreignant à la fouille de motifs exacts dans des relations ternaires ou à la fouille de motifs tolérants aux erreurs dans des relations binaires. Malgré ces résultats, une telle approche exhaustive ne peut souvent pas, en un temps raisonnable, tolérer tout le bruit contenu dans le jeu de données. Dans ce cas, compléter l'extraction avec une agglomération hiérarchique des motifs (qui ne tolèrent pas suffisamment de bruit) améliore la qualité des collections de motifs renvoyées
APA, Harvard, Vancouver, ISO, and other styles
47

Tanasa, Doru. "Web usage mining : contributions to intersites logs preprocessing and sequential pattern extraction with low support." Nice, 2005. http://www.theses.fr/2005NICE4019.

Full text
Abstract:
Le Web Usage Mining (WUM), domaine de recherche assez récent, correspond au processus d’extraction des connaissances à partir des données (ECD) appliquées aux données d’usage sur le Web. Il comporte trois étapes principales : le prétraitement des données, la découverte des schémas et l’analyse des résultats. La quantité des données d’usage à analyser ainsi que leur faible qualité (en particulier l’absence de structuration) sont les principaux problèmes en WUM. Les algorithmes classiques de fouille de données appliquées sur ces données donnent généralement des résultats décevants en termes de pratiques des internautes. Dans cette thèse, nous apportons deux contributions importantes pour un processus WUM, implémentées dans notre boîte à outils Axislogminer. D’abord, nous proposons une méthodologie générale de prétraitement des logs Web dont l’originalité consiste dans le fait qu’elle prend en compte l’aspect multi-sites du WUM. Nous proposons dans notre méthodologie quatre étapes distinctes : la fusion des fichiers logs, le nettoyage, la structuration et l’agrégation des données. Notre deuxième contribution vise à la découverte à partir d’un fichier log prétraité de grande taille, des comportements minoritaires correspondant à des motifs séquentiels de très faible support. Pour cela, nous proposons une méthodologie générale visant à diviser le fichier log prétraité en sous-logs, se déclinant selon trois approches d’extraction de motifs séquentiels au support faible (séquentielle, itérative et hiérarchique). Celles-ci ont été implémentées dans des méthodes concrètes hybrides mettant en jeu des algorithmes de classification et d’extraction de motifs séquentiels
The Web use mining (WUM) is a rather research field and it corresponds to the process of knowledge discovery from databases (KDD) applied to the Web usage data. It comprises three main stages : the pre-processing of raw data, the discovery of schemas and the analysis (or interpretation) of results. The quantity of the web usage data to be analysed and its low quality (in particular the absence of structure) are the principal problems in WUM. When applied to these data, the classic algorithms of data mining, generally, give disappointing results in terms of behaviours of the Web sites users (E. G. Obvious sequential patterns, stripped of interest). In this thesis, we bring two significant contributions for a WUM process, both implemented in our toolbox, the Axislogminer. First, we propose a complete methodology for pre-processing the Web logs whose originality consists in its intersites aspect. We propose in our methodology four distinct steps : the data fusion, data cleaning, data structuration and data summarization. Our second contribution aims at discovering from a large pre-processed log file the minority behaviours corresponding to the sequential patterns with low support. For that, we propose a general methodology aiming at dividing the pre-processed log file into a series of sub-logs. Based on this methodology, we designed three approaches for extracting sequential patterns with low support (the sequential, iterative and hierarchical approaches). These approaches we implemented in hybrid concrete methods using algorithms of clustering and sequential pattern mining
APA, Harvard, Vancouver, ISO, and other styles
48

Berri, Jawad Abdelfettah. "Contribution à la méthode d'exploration contextuelle : applications au résumé automatique et aux représentations temporelles réalisation informatique du système SERAPHIN." Paris 4, 1996. http://www.theses.fr/1996PA040041.

Full text
APA, Harvard, Vancouver, ISO, and other styles
49

Novelli, Noël. "Extraction de dépendances fonctionnetitre : Une approche Data Mining." Aix-Marseille 2, 2000. http://www.theses.fr/2000AIX22071.

Full text
APA, Harvard, Vancouver, ISO, and other styles
50

Hurter, Christophe. "Caractérisation de visualisations et exploration interactive de grandes quantités de données multidimensionnelles." Phd thesis, Université Paul Sabatier - Toulouse III, 2010. http://tel.archives-ouvertes.fr/tel-00610623.

Full text
Abstract:
Un grand nombre d'activités utilise des outils informatisés s'appuyant sur des représentations graphiques interactives. En tant que vecteurs de transmission d'informations, ces visualisations visent à optimiser la bande passante entre le visuel et l'utilisateur. Pour créer des visualisations efficaces, les concepteurs utilisent des méthodes basées sur leur expertise et sur des tests utilisateurs. Ces méthodes altèrent le processus de design : elles sont chronophages et ne reposent pas sur des fondements théoriques précis qui pourraient éviter des erreurs de conception en amont. Afin de mieux étudier les visualisations, nous proposons de les caractériser, c'est-à-dire d'en énumérer et d'en définir systématiquement les propriétés, tout en explicitant les phénomènes visuels qui engendrent la transmission d'informations. La thèse que nous soutenons consiste à dire que la caractérisation des visualisations est importante pour leurs conceptions, et que son opérationnalisation par des méthodes et des outils permet de concevoir de meilleurs systèmes interactifs. Ainsi, nous avons déterminé qu'une caractérisation est composée de deux éléments : son contenu et sa mise en forme. Nous montrons que le modèle de Data Flow, modèle usuel permettant la description de la construction de visualisations, ne permet pas de les caractériser. Nous proposons d'autres modèles qui permettent de caractériser l'aspect dynamique, les informations émergentes (et notamment celles issues des visualisations dites "écologiques"), ainsi que l'accumulation graphique. En utilisant des visualisations issues du milieu du transport aérien, nous montrons comment la caractérisation permet de comprendre leurs similitudes et leurs différences, de lever les ambiguïtés de communication entre concepteurs, et de concevoir, par exemple, une nouvelle visualisation schématique de routes aériennes. Enfin, nous avons réifié le processus de transformation d'un ensemble de données vers une visualisation sous la forme d'un logiciel d'exploration et de visualisation de grandes quantités de données multidimensionnelles : From Data To Display (FromDaDy). Ce logiciel s'appuie notamment sur l'exploration des configurations visuelles, et sur un ensemble d'interactions originales avec une implémentation performante. FromDady permet de configurer et de manipuler en temps réel des visualisations riches et originales, comme celles utilisant l'accumulation.
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography