To see the other types of publications on this topic, follow the link: Analyse topologiques des données.

Dissertations / Theses on the topic 'Analyse topologiques des données'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Analyse topologiques des données.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

El, Golli Aicha. "Extraction de données symboliques et cartes topologiques : Application aux données ayant une structure complexe." Paris 9, 2004. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=2004PA090026.

Full text
Abstract:
Un des objectifs de l'analyse de données symboliques est de permettre une meilleure modélisation des variations et des imprécisions des données réelles. Ces données expriment en effet, un niveau de connaissance plus élevé, la modélisation doit donc offrir un formalisme plus riche que dans le cadre de l'analyse de données classiques. Un ensemble d'opérateurs de généralisation symbolique existent et permettent une synthèse et représentation des données par le formalisme des assertions, formalisme défini en analyse de données symboliques. Cette généralisation étant supervisée, est souvent sensible aux observations aberrantes. Lorsque les données que l'on souhaite généraliser sont hétérogènes, certaines assertions incluent des observations virtuelles. Face à ce nouveau formalisme et donc cette extension d'ordre sémantique que l'analyse de données symbolique a apporté, une nouvelle approche de traitement et d'interprétation s'impose. Notre objectif au cours de ce travail est d'améliorer tout d'abord cette généralisation et de proposer ensuite une méthode de traitement de ces données. Nous proposons donc une décomposition permettant d'améliorer la énéralisation tout en offrant le formalisme symbolique. Cette décomposition est basée sur un algorithme divisif de classification. Nous avons aussi proposé une méthode de généralisation symbolique non supervisée basée sur l'algorithme des cartes topologiques de Kohonen. L'avantage de cette méthode est de réduire les données d'une manière non supervisée et de modéliser les groupes homogènes obtenus par des données symboliques. Notre seconde contribution porte sur l'élaboration d'une méthode de classification traitant les données à structure complexe. Cette méthode est une adaptation de la version batch de l'algorithme des cartes topologiques de Kohonen aux tableaux de dissimilarités. En effet, seule la définition d'une mesure de dissimilarité adéquate, est nécessaire pour le bon déroulement de la méthode.
APA, Harvard, Vancouver, ISO, and other styles
2

El, Golli Aïcha. "Extraction de données symboliques et cartes topologiques: application aux données ayant une structure complexe." Phd thesis, Université Paris Dauphine - Paris IX, 2004. http://tel.archives-ouvertes.fr/tel-00178900.

Full text
Abstract:
Un des objectifs de lanalyse de données symboliques est de permettre une meilleure modélisation des variations et des imprécisions des données réelles. Ces données expriment en effet, un niveau de connaissance plus élevé, la modélisation doit donc offrir un formalisme plus riche que dans le cadre de lanalyse de données classiques. Un ensemble dopérateurs de généralisation symbolique existent et permettent une synthèse et représentation des données par le formalisme des assertions, formalisme défini en analyse de données symboliques. Cette généralisation étant supervisée, est souvent sensible aux observations aberrantes. Lorsque les données que lon souhaite généraliser sont hétérogènes, certaines assertions incluent des observations virtuelles. Face à ce nouveau formalisme et donc cette extension dordre sémantique que lanalyse de données symbolique a apporté, une nouvelle approche de traitement et dinterprétation simpose. Notre objectif au cours de ce travail est daméliorer tout dabord cette généralisation et de proposer ensuite une méthode de traitement de ces données. Les contributions originales de cette thèse portent sur de nouvelles approches de représentation et de classification des données à structure complexe. Nous proposons donc une décomposition permettant daméliorer la généralisation tout en offrant le formalisme symbolique. Cette décomposition est basée sur un algorithme divisif de classification. Nous avons aussi proposé une méthode de généralisation symbolique non supervisée basée sur l'algorithme des cartes topologiques de Kohonen. L'avantage de cette méthode est de réduire les données d'une manière non supervisée et de modéliser les groupes homogènes obtenus par des données symboliques. Notre seconde contribution porte sur lélaboration dune méthode de classification traitant les données à structure complexe. Cette méthode est une adaptation de la version batch de lalgorithme des cartes topologiques de Kohonen aux tableaux de dissimilarités. En effet, seule la définition dune mesure de dissimilarité adéquate, est nécessaire pour le bon déroulement de la méthode.
APA, Harvard, Vancouver, ISO, and other styles
3

Vidal, Jules. "Progressivité en analyse topologique de données." Electronic Thesis or Diss., Sorbonne université, 2021. http://www.theses.fr/2021SORUS398.

Full text
Abstract:
L’analyse topologique de donnés permet l’extraction générique et efficace de caractéristiques structurelles dans les données. Cependant, bien que ces techniques aient des complexités asymptotiques connues et raisonnables elles sont rarement interactives en pratique sur des jeux de données réels. Dans cette thèse, nous avons cherché à développer des méthodes progressives pour l’analyse topologique de données scalaires scientifiques, qui peuvent être interrompues pour fournir rapidement un résultat approché exploitable, et sont capables de l’affiner ensuite. Nous introduisons deux algorithmes progressifs pour le calcul des points critiques et du diagramme de persistance d’un champ scalaire. Ensuite, nous revisitons ce cadre progressif pour introduire un algorithme pour le calcul approché du diagramme de persistance d’un champ scalaire, avec des garanties sur l’erreur d’approximation associée. Enfin, afin d’effectuer une analyse visuelle de données d’ensemble, nous présentons un nouvel algorithme progressif pour le calcul du barycentre de Wasserstein d’un ensemble de diagrammes de persistance, une tâche notoirement coûteuse en calcul. Notre approche progressive permet d’approcher le barycentre de manière interactive. Nous étendons cette méthode à un algorithme de classification topologique de données d’ensemble, qui est progressif et capable de respecter une contrainte de temps
Topological Data Analysis (TDA) forms a collection of tools that enable the generic and efficient extraction of features in data. However, although most TDA algorithms have practicable asymptotic complexities, these methods are rarely interactive on real-life datasets, which limits their usability for interactive data analysis and visualization. In this thesis, we aimed at developing progressive methods for the TDA of scientific scalar data, that can be interrupted to swiftly provide a meaningful approximate output and that are able to refine it otherwise. First, we introduce two progressive algorithms for the computation of the critical points and the extremum-saddle persistence diagram of a scalar field. Next, we revisit this progressive framework to introduce an approximation algorithm for the persistence diagram of a scalar field, with strong guarantees on the related approximation error. Finally, in a effort to perform visual analysis of ensemble data, we present a novel progressive algorithm for the computation of the discrete Wasserstein barycenter of a set of persistence diagrams, a notoriously computationally intensive task. Our progressive approach enables the approximation of the barycenter within interactive times. We extend this method to a progressive, time-constraint, topological ensemble clustering algorithm
APA, Harvard, Vancouver, ISO, and other styles
4

Doan, Nath-Quang. "Modèles hiérarchiques et topologiques pour le clustering et la visualisation des données." Paris 13, 2013. http://scbd-sto.univ-paris13.fr/secure/edgalilee_th_2013_doan.pdf.

Full text
Abstract:
Cette thèse se concentre sur les approches hiérarchiques et topologiques pour le clustering et la visualisation de données. Le problème du clustering devient de plus en plus compliqué en raison de présence de données structurées sous forme de graphes, arbres ou données séquentielles. Nous nous sommes particulièrement intéressés aux cartes auto-organisatrices et au modèle hiérarchique AntTree qui modélise la capacité des fourmis réelles. En combinant ces approches, l’objectif est de présenter les données dans une structure hiérarchique et topologique. Dans ce rapport, nous présentons trois modèles, dans le premier modèle nous montrons l’intérêt d’utiliser les structures hiérarchiques et topologiques sur des ensembles de données structurés sous forme de graphes. Le second modèle est une version incrémentale qui n’impose pas de règles sur la préservation de la topologie. Le troisième modèle aborde notamment la problématique de la sélection de variable en utilisant la structure hiérarchique, nous proposons un nouveau score pour sélectionner les variables pertinentes en contraignant le score Laplacien. Enfin, cette thèse propose plusieurs perspectives pour des travaux futurs
This thesis focuses on clustering approaches inspired from topological models and an autonomous hierarchical clustering method. The clustering problem becomes more complicated and difficult due to the growth in quality and quantify of structured data such as graphs, trees or sequences. In this thesis, we are particularly interested in self-organizing maps which have been generally used for learning topological preservation, clustering, vector quantization and graph visualization. Our studyconcerns also a hierarchical clustering method AntTree which models the ability of real ants to build structure by connect themselves. By combining the topological map with the self-assembly rules inspired from AntTree, the goal is to represent data in a hierarchical and topological structure providing more insight data information. The advantage is to visualize the clustering results as multiple hierarchical trees and a topological network. In this report, we present three new models that are able to address clustering, visualization and feature selection problems. In the first model, our study shows the interest in the use of hierarchical and topological structure through several applications on numerical datasets, as well as structured datasets e. G. Graphs and biological dataset. The second model consists of a flexible and growing structure which does not impose the strict network-topology preservation rules. Using statistical characteristics provided by hierarchical trees, it accelerates significantly the learning process. The third model addresses particularly the issue of unsupervised feature selection. The idea is to use hierarchical structure provided by AntTree to discover automatically local data structure and local neighbors. By using the tree topology, we propose a new score for feature selection by constraining the Laplacian score. Finally, this thesis offers several perspectives for future work
APA, Harvard, Vancouver, ISO, and other styles
5

Rogouschi, Nicoleta. "Classification à base de modèles de mélanges topologiques des données catégorielles et continues." Paris 13, 2009. http://www.theses.fr/2009PA132015.

Full text
Abstract:
Le travail de recherche exposé dans cette thèse concerne le développement d'approches à base de cartes auto-organisatrices dans un formalisme de modèles de mélanges pourle traitement de données qualitatives, mixtes et séquentielles. Pour chaque type de données, un modèle d'apprentissage non supervisé adapté est proposé. Le premier modèle, décrit dans cette étude, est un nouvel algorithme d'apprentissage des cartes topologiques BeSOM (Bernoulli Self-Organizing Map) dédié aux données binaires. Chaque cellule de la carte est associée à une distribution de Bernoulli. L'apprentissage dans ce modèle a pour objectif d'estimer la fonction densité sous forme d'un mélange de densités élémentaires. Chaque densité élémentaire est-elle aussi un mélange de lois Bernoulli définies sur un voisinage. Le second modèle aborde le problème des approches probabilistes pour le partitionnement des données mixtes (quantitatives et qualitatives). Le modèle s'inspire de travaux antérieurs qui modélisent une distribution par un mélange de lois de Bernoulli et de lois Gaussiennnes. Cette approche donne une autre dimension aux cartes topologiques : elle permet une interprétation probabiliste des cartes et offre la possibilité de tirer profit de la distribution locale associée aux variables continues et catégorielles. En ce qui concerne le troisième modèle présenté dans cette thèse, il décrit un nouveau formalisme de mélanges Markovien dédiés au traitement de données structurées en séquences. L'approche que nous proposons est une généralisation des chaines de Markov traditionnelles. Deux variantes sont développées : une approche globale où la topologie est utilisée d'une manière implicite et une approche locale où la topologie est utilisée d'une manière explicite. Les résultats obtenus sur la validation des approches traités dans cette étude sont encourageants et prometteurs à la fois pour la classification et pour la modélisation
The research presented in this thesis concerns the development of self-organising map approaches based on mixture models which deal with different kinds of data : qualitative, mixed and sequential. For each type of data we propose an adapted unsupervised learning model. The first model, described in this work, is a new learning algorithm of topological map BeSOM (Bernoulli Self-Organizing Map) dedicated to binary data. Each map cell is associated with a Bernoulli distribution. In this model, the learning has the objective to estimate the density function presented as a mixture of densities. Each density is as well a mixture of Bernoulli distribution defined on a neighbourhood. The second model touches upon the problem of probability approaches for the mixeddata clustering (quantitative and qualitative). The model is inspired by previous workswhich define a distribution by a mixture of Bernoulli and Gaussian distributions. This approach gives a different dimension to topological map : it allows probability map interpretation and others the possibility to take advantage of local distribution associated with continuous and categorical variables. As for the third model presented in this thesis, it is a new Markov mixture model applied to treatment of the data structured in sequences. The approach that we propose is a generalisation of traditional Markov chains. There are two versions : the global approach, where topology is used implicitly, and the local approach where topology is used explicitly. The results obtained upon the validation of all the methods are encouragingand promising, both for classification and modelling
APA, Harvard, Vancouver, ISO, and other styles
6

Jaziri, Rakia. "Modèles de mélanges topologiques pour la classification de données structurées en séquences." Paris 13, 2013. http://scbd-sto.univ-paris13.fr/secure/edgalilee_th_2013_jaziri.pdf.

Full text
Abstract:
Ces dernières années ont vu le développement des techniques de fouille de données séquentielles dans de nombreux domaines d’applications dans le but d’analyser des données temporelles, volumineuses et complexes. Dans le cadre de cette thèse, nous nous intéressons aux problèmes de classification et de structuration de données séquentielles, que nous proposons d’étudier à travers trois approches principales. Dans la première, il s’agit de mettre en oeuvre une nouvelle approche de classification topographique probabiliste dédiée aux données séquentielles, nous l’appellerons PrSOMS. Cette approche consiste à adapter la carte topographique déterministe à des séquences tout en s’appuyant sur les modèles de Markov cachés. On aboutit ainsi à une approche qui bénéficie du pouvoir de visualisation des SOM et de celui de structuration (modélisation) de séquences des HMM. Dans la deuxième, nous proposons une extension hiérarchique de l’approche PrSOMS. Cette approche permet de tirer partie de l’aspect complexe des données au sein du processus de classification. Nous avons constaté que le modèle obtenu ”H-PrSOMS” assure une bonne interprétabilité des classes construites. Dans la troisième, nous proposons une autre approche statistique topologique MGTM-TT, qui repose sur le même paradigme que celui des HMM. Il s’agit d’une modélisation générative topographique à densité d’observations mélanges, qui s’apparente à une extension hiérarchique du modèle GTM temporel. Ces propositions ont ensuite été appliquées à des données de test et à des données réelles issues de l’INA (Institut National de l’Audiovisuel). Dans le cas de l’INA, Ces approches consistent à proposer dans un premier temps une classification plus fine des segments audiovisuels diffusés. Puis, elles cherchent à définir une typologie des enchainements des segments (diffusion multiple d’un même programme, un programme entre deux inter-programme) afin de prévoir de manière statistique les caractéristiques des segments diffusés. La méthodologie globale offre ainsi un outil pour la classification et la structuration des données séquentielles
Recent years have seen the development of data mining techniques in various application areas, with the purpose of analyzing sequential, large and complex data. In this work, the problem of clustering, visualization and structuring data is tackled by a three-stage proposal. The first proposal present a generative approach to learn a new probabilistic Self-Organizing Map (PrSOMS) for non independent and non identically distributed data sets. Our model defines a low dimensional manifold allowing friendly visualizations. To yield the topology preserving maps, our model exhibits the SOM like learning behavior with the advantages of probabilistic models. This new paradigm uses HMM (Hidden Markov Models) formalism and introduces relationships between the states. This allows us to take advantage of all the known classical views associated to topographic map. The second proposal concerns a hierarchical extension of the approach PrSOMS. This approach deals the complex aspect of the data in the classification process. We find that the resulting model ”H-PrSOMS” provides a good interpretability of classes built. The third proposal concerns an alternative approach statistical topological MGTM-TT, which is based on the same paradigm than HMM. It is a generative topographic modeling observation density mixtures, which is similar to a hierarchical extension of time GTM model. These proposals have then been applied to test data and real data from the INA (National Audiovisual Institute). This work is to provide a first step, a finer classification of audiovisual broadcast segments. In a second step, we sought to define a typology of the chaining of segments (multiple scattering of the same program, one of two inter-program) to provide statistically the characteristics of broadcast segments. The overall framework provides a tool for the classification and structuring of audiovisual programs
APA, Harvard, Vancouver, ISO, and other styles
7

Lebbah, Mustapha. "Carte topologique pour données qualitatives : application à la reconnaissance automatique de la densité du trafic routier." Phd thesis, Université de Versailles-Saint Quentin en Yvelines, 2003. http://tel.archives-ouvertes.fr/tel-00161698.

Full text
Abstract:
Le travail de recherche concerne le traitement des données qualitatives par des méthodes neuronales. Différents modèles d'apprentissage non supervisés sont proposés.

Ce travail de thèse a été réalisé à la direction de la recherche de RENAULT. Le travail s'est focalisé sur le développement d'un modèle de reconnaissance de trafic.

Le premier modèle proposé dans cette thèse est dédié aux données binaires ''BTM''. C'est un modèle de quantification vectorielle de type carte topologique. Ce modèle prend les caractéristiques principales des cartes topologiques. Pour ce nouveau modèle, afin de prendre en compte les spécificités des données binaires, on a choisi de changer la métrique usuelle utilisée dans les modèles de cartes topologiques et d'utiliser la distance Hamming.

Le second modèle est le premier modèle probabiliste de cartes topologiques dédié aux données binaires. Ce modèle s'inspire de travaux antérieurs qui modélisent une distribution par un mélange de mélange de lois de Bernoulli.

Le troisième modèle est un nouveau modèle de carte topologique appelé CTM (Categorical topological Map) adapté à la classification non supervisée des données qualitatives multi-dimensionnelles. Ce nouveau modèle conserve cependant les principales caractéristiques des deux modèles précédents. Afin de maximiser les vraisemblance des données, CTM utilise de manière classique l'algorithme EM.

Dans ce mémoire, on introduit le domaine d'application propre au travail mené chez RENAULT. Nous détaillerons l'apport original de notre travail: utilisation de l'information catégorielle pour traiter de la reconnaissance du trafic. Nous exposerons les différentes analyses effectuées sur l'application des algorithmes proposés.
APA, Harvard, Vancouver, ISO, and other styles
8

Lacombe, Théo. "Statistiques sur les descripteurs topologiques à base de transport optimal." Thesis, Institut polytechnique de Paris, 2020. http://www.theses.fr/2020IPPAX036.

Full text
Abstract:
L’analyse topologique des données (ATD) permet d’extraire une information riche des données structurées (telles que les graphes ou les séries temporelles) présentes dans les problèmes modernes d’apprentissage. Elle va représenter cette information sous forme de descripteurs dont font partie les diagrammes de persistance, qui peuvent être décrits comme des mesures ponctuelles supportées sur un demi-plan. À défaut d’être de simples vecteurs, les diagrammes de persistance peuvent néanmoins être comparés entre eux à l’aide de métriques d’appariement partiel. La similarité entre ces métriques et les métriques usuelles du transport optimal - un autre domaine des mathématiques - est connue de longue date, mais un lien formel entre ces deux domaines restait à établir. L’objet de cette thèse est de clarifier cette connexion pour pouvoir utiliser les nombreux acquis du transport optimal afin de développer de nouveaux outils statistiques (théoriques et pratiques) pour manipuler les diagrammes de persistance. Dans un premier temps, nous montrons comment le transport optimal partiel avec frontière, une variante du transport optimal classique, nous fournit un formalisme qui contient les métriques usuelles de l’ATD. Nous illustrons ensuite les apports bénéfiques de cette reformulation dans différentes situations: étude théorique et algorithme pour l’estimation efficace des barycentres de diagrammes de persistance grâce au transport régularisé, caractérisation des représentations linéaires continues des diagrammes et leur apprentissage via un réseau de neurones versatile, ainsi qu’un résultat de stabilité des moyennes linéaires de diagrammes tirés aléatoirement
Topological data analysis (TDA) allows one to extract rich information from structured data (such as graphs or time series) that occurs in modern machine learning problems. This information will be represented as descriptors such as persistence diagrams, which can be described as point measures supported on a half-plane. While persistence diagrams are not elements of a vector space, they can still be compared using partial matching metrics. The similarities between these metrics and those routinely used in optimal transport—another field of mathematics—are known for long, but a formal connection between these two fields is yet to come.The purpose of this thesis is to clarify this connection and develop new theoretical and computational tools to manipulate persistence diagrams, targeting statistical applications. First, we show how optimal partial transport with boundary, a variation of classic optimal transport theory, provides a formalism that encompasses standard metrics in TDA. We then show-case the benefits of this connection in different situations: a theoretical study and the development of an algorithm to perform fast estimation of barycenters of persistence diagrams, the characterization of continuous linear representations of persistence diagrams and how to learn such representations using a neural network, and eventually a stability result in the context of linearly averaging random persistence diagrams
APA, Harvard, Vancouver, ISO, and other styles
9

Alboody, Ahed. "Réception des données spatiales et leurs traitements : analyse d'images satellites pour la mise à jour des SIG par enrichissement du système de raisonnement spatial RCC8." Toulouse 3, 2011. http://thesesups.ups-tlse.fr/1316/.

Full text
Abstract:
De nos jours, la résolution des images satellites et le volume des bases de données géographiques disponibles sont en constante augmentation. Les images de télédétection à haute résolution représentent des sources de données hétérogènes de plus en plus nécessaires et difficiles à exploiter. Ces images sont considérées comme des sources très riches et utiles pour la mise à jour des Systèmes d'Information Géographique (SIG). Afin de mettre à jour ces bases de données, une étape de détection de changements est nécessaire. Cette thèse s'attache à l'étude de l'analyse d'images satellites par enrichissement du système de raisonnement spatial RCC8 (Region Connection Calculus) pour la détection des changements topologiques dans le but de mettre à jour des SIG. L'objectif à terme de cette étude est d'exploiter, de détailler et d'enrichir les relations topologiques du système RCC8. L'intérêt de l'enrichissement, l'exploitation et la description détaillée des relations du système RCC8 réside dans le fait qu'elles permettent de détecter automatiquement les différents niveaux de détails topologiques et les changements topologiques entre des régions géographiques représentées sur des cartes numériques (CN) et dans des images satellitaires. Dans cette thèse, nous proposons et développons une extension du modèle topologique d'Intersection et Différence (ID) par des invariants topologiques qui sont : le nombre de séparations, le voisinage et le type des éléments spatiaux. Cette extension vient enrichir et détailler les relations du système RCC8 à deux niveaux de détail. Au premier niveau, l'enrichissement du système RCC8 est fait par l'invariant topologique du nombre de séparations, et le nouveau système est appelé "système RCC-16 au niveau-1". Pour éviter des problèmes de confusion entre les relations de ce nouveau système, au deuxième niveau, l'enrichissement du "RCC-16 au niveau-1" est fait par l'invariant topologique du type d'éléments spatiaux et le nouveau système est appelé "système RCC-16 au niveau-2". Ces deux systèmes RCC-16 (au niveau-1 et au niveau-2) seront appliqués pour l'analyse d'images satellites, la détection de changements et l'analyse spatiale dans des SIG. Nous proposons à partir de celà une nouvelle méthode de détection de changements entre une nouvelle image satellite et une ancienne carte numérique des SIG qui intègre l'analyse topologique par le système RCC-16 afin de détecter et d'identifier les changements entre deux images satellites, ou entre deux cartes vectorielles produites à différentes dates. Dans cette étude de l'enrichissement du système RCC8, les régions spatiales ont de simples représentations spatiales. Cependant, la représentation spatiale et les relations topologiques entre régions dans des images satellites et des données des SIG sont plus complexes, floues et incertaines. Dans l'objectif d'étudier les relations topologiques entre régions floues, un modèle appelé le modèle topologique Flou d'Intersection et Différence (FID) pour la description des relations topologiques entre régions floues sera proposé et développé. 152 relations topologiques peuvent être extraites à l'aide de ce modèle FID. Ces 152 relations sont regroupées dans huit clusters qualitatifs du système RCC8 : Disjoint (Déconnexion), Meets (Connexion Extérieure), Overlaps (Chevauchement), CoveredBy (Inclusion Tangentielle), Inside (Inclusion Non-Tangentielle), Covers (Inclusion Tangentielle Inverse), Contains (Inclusion Non-Tangentielle Inverse), et Equal (Égalité). Ces relations seront évaluées et extraites à partir des images satellites pour donner des exemples de leur intérêt dans le domaine de l'analyse d'image et dans des SIG. La contribution de cette thèse est marquée par l'enrichissement du système RCC8 donnant lieu à un nouveau système, RCC-16, mettant en ouvre une nouvelle méthode de détection de changements, le modèle FID, et regroupant les 152 relations topologiques floues dans les huit clusters qualitatifs du système RCC8
Nowadays, the resolution of satellite images and the volume of available geographic databases are constantly growing. Images of high resolution remote sensing represent sources of heterogeneous data increasingly necessary and difficult to exploit. These images are considered very rich and useful sources for updating Geographic Information Systems (GIS). To update these databases, a step of change detection is necessary and required. This thesis focuses on the study of satellite image analysis by enriching the spatial reasoning system RCC8 (Region Connection Calculus) for the detection of topological changes in order to update GIS databases. The ultimate goal of this study is to exploit and enrich the topological relations of the system RCC8. The interest of the enrichment and detailed description of RCC8 system relations lies in the fact that they can automatically detect the different levels of topological details and topological changes between geographical regions represented on GIS digital maps and satellite images. In this thesis, we propose and develop an extension of the Intersection and Difference (ID) topological model by using topological invariants which are : the separation number, the neighborhood and the spatial element type. This extension enriches and details the relations of the system RCC8 at two levels of detail. At the first level, the enrichment of the system RCC8 is made by using the topological invariant of the separation number and the new system is called "system RCC-16 at level-1". To avoid confusion problems between the topological relations of this new system, the second level by enriching the "system RCC-16 at level-1" is done by using the topological invariant of the spatial element type and the new system is called "system RCC-16 at level-2". These two systems RCC-16 (at two levels : level-1 and level-2) will be applied to satellite image analysis, change detection and spatial analysis in GIS. We propose a new method for detecting changes between a new satellite image and a GIS old digital map. This method integrates the topological analysis of the system RCC-16 to detect and identify changes between two satellite images, or between two vector maps produced at different dates. In this study of the enrichment of the system RCC8, spatial regions have simple spatial representations. However, the spatial and topological relations between regions in satellite images and GIS data are more complex, vague and uncertain. With the aim of studying the topological relations between fuzzy regions, a model called the Fuzzy topological model of Intersection and Difference (FID) for the description of topological relations between fuzzy regions is proposed and developed. 152 topological relations can be extracted using this model FID. These 152 relations are grouped into eight clusters of the qualitative relations of the system RCC8 : Disjoint (Disconnected), Meets (Externally Connected), Overlaps (Partially Overlapping), CoveredBy (Tangential Proper Part), Inside (Non-Tangential Proper Part), Covers (Tangential Proper Part Inverse), Contains (Non-Tangential Proper Part Inverse), and Equal. These relations will be evaluated and extracted from satellite images to give examples of their interest in the image analysis field and GIS. The contribution of this thesis is marked by enriching the qualitative spatial reasoning system RCC8 giving rise to a new system, RCC-16, implementing a new method of change detection, the model FID, and clustering the 152 fuzzy topological relations in eight qualitative clusters of the system RCC8
APA, Harvard, Vancouver, ISO, and other styles
10

Soler, Maxime. "Réduction et comparaison de structures d'intérêt dans des jeux de données massifs par analyse topologique." Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS364.

Full text
Abstract:
Dans cette thèse, nous proposons différentes méthodes, basées sur l'analyse topologique de données, afin de répondre aux problématiques modernes concernant l'analyse de données scientifiques. Dans le cas de données scalaires, extraire un savoir pertinent à partir de données statiques, de données qui varient dans le temps, ou données d'ensembles s'avère de plus en plus difficile. Nos approches pour la réduction et l'analyse de telles données reposent sur l'idée de définir des structures d'intérêt dans les champs scalaires à l’aide d’abstractions topologiques. Dans un premier temps, nous proposons un nouvel algorithme de compression avec pertes offrant de fortes garanties topologiques, afin de préserver les structures topologiques tout au long de la compression. Des extensions sont proposées pour offrir un contrôle supplémentaire sur l'erreur géométrique. Nous ciblons ensuite les données variables dans le temps en proposant une nouvelle méthode de suivi des structures topologiques, basée sur des métriques topologiques. Ces métriques sont étendues pour être plus robustes. Nous proposons un nouvel algorithme efficace pour les calculer, obtenant des accélérations de plusieurs ordres de grandeur par rapport aux approches de pointe. Enfin, nous appliquons et adaptons nos méthodes aux données d'ensemble relatives à la simulation de réservoir, dans un cas de digitation visqueuse en milieu poreux. Nous adaptons les métriques topologiques pour quantifier l’écart entre les simulations et la vérité terrain, évaluons les métriques proposées avec le retour d’experts, puis implémentons une méthode de classement in-situ pour évaluer la fidélité des simulations
In this thesis, we propose different methods, based on topological data analysis, in order to address modern problematics concerning the increasing difficulty in the analysis of scientific data. In the case of scalar data defined on geometrical domains, extracting meaningful knowledge from static data, then time-varying data, then ensembles of time-varying data proves increasingly challenging. Our approaches for the reduction and analysis of such data are based on the idea of defining structures of interest in scalar fields as topological features. In a first effort to address data volume growth, we propose a new lossy compression scheme which offers strong topological guarantees, allowing topological features to be preserved throughout compression. The approach is shown to yield high compression factors in practice. Extensions are proposed to offer additional control over the geometrical error. We then target time-varying data by designing a new method for tracking topological features over time, based on topological metrics. We extend the metrics in order to overcome robustness and performance limitations. We propose a new efficient way to compute them, gaining orders of magnitude speedups over state-of-the-art approaches. Finally, we apply and adapt our methods to ensemble data related to reservoir simulation, for modeling viscous fingering in porous media. We show how to capture viscous fingers with topological features, adapt topological metrics for capturing discrepancies between simulation runs and a ground truth, evaluate the proposed metrics with feedback from experts, then implement an in-situ ranking framework for rating the fidelity of simulation runs
APA, Harvard, Vancouver, ISO, and other styles
11

Razafindramanana, Octavio. "Low-dimensional data analysis and clustering by means of Delaunay triangulation." Thesis, Tours, 2014. http://www.theses.fr/2014TOUR4033/document.

Full text
Abstract:
Les travaux présentés et discutés dans cette thèse ont pour objectif de proposer plusieurs solutions au problème de l’analyse et du clustering de nuages de points en basse dimension. Ces solutions s’appuyent sur l’analyse de triangulations de Delaunay. Deux types d’approches sont présentés et discutés. Le premier type suit une approche en trois-passes classique: 1) la construction d’un graphe de proximité contenant une information topologique, 2) la construction d’une information statistique à partir de ce graphe et 3) la suppression d’éléments inutiles au regard de cette information statistique. L’impact de différentes measures sur le clustering ainsi que sur la reconnaissance de caractères est discuté. Ces mesures s’appuyent sur l’exploitation du complexe simplicial et non pas uniquement sur celle du graphe. Le second type d’approches est composé d’approches en une passe extrayant des clusters en même temps qu’une triangulation de Delaunay est construite
This thesis aims at proposing and discussing several solutions to the problem of low-dimensional point cloudanalysis and clustering. These solutions are based on the analysis of the Delaunay triangulation.Two types of approaches are presented and discussed. The first one follows a classical three steps approach:1) the construction of a proximity graph that embeds topological information, 2) the construction of statisticalinformation out of this graph and 3) the removal of pointless elements regarding this information. The impactof different simplicial complex-based measures, i.e. not only based on a graph, is discussed. Evaluation is madeas regards point cloud clustering quality along with handwritten character recognition rates. The second type ofapproaches consists of one-step approaches that derive clustering along with the construction of the triangulation
APA, Harvard, Vancouver, ISO, and other styles
12

Gueunet, Charles. "Calcul haute performance pour l'analyse topologique de données par ensembles de niveaux." Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS120.

Full text
Abstract:
L'analyse de données topologique nécessite des algorithmes de plus en plus efficaces pour être capable de traiter des jeux de données dont la taille et le niveau de détail augmente continûment. Dans cette thèse, nous nous concentrons sur trois abstractions topologiques fondamentales dérivées des ensembles de niveaux : l'arbre de jointure, l'arbre de contour et le graphe de Reeb. Nous proposons trois nouveaux algorithmes parallèles efficaces pour leur calcul sur des stations de travail composées de processeurs multi-cœur en mémoire partagée. Le premier algorithme élaboré durant cette thèse se base sur du parallélisme multi-thread pour le calcul de l'arbre de contour. Une seconde approche revisite l'algorithme séquentiel de référence pour le calcul de cette structure et se base sur des propagations locales exprimables en tâches parallèles. Ce nouvel algorithme est en pratique deux fois plus rapide en séquentiel que l'algorithme de référence élaboré en 2000 et offre une accélération d'un ordre de grandeur en parallèle. Un dernier algorithme basé sur une approche locale par tâches est également présenté pour une abstraction plus générique : le graphe de Reeb. Contrairement aux approches concurrentes, nos algorithmes construisent les versions augmentées de ces structures, permettant de supporter l'ensemble des applications pour l'analyse de données par ensembles de niveaux. Les méthodes présentées dans ce manuscrit ont donné lieu à des implémentations qui sont les plus rapides parmi celles disponibles pour le calcul de ces abstractions. Ce travail a été intégré à la bibliothèque libre : Topology Toolkit (TTK)
Topological Data Analysis requires efficient algorithms to deal with the continuously increasing size and level of details of data sets. In this manuscript, we focus on three fundamental topological abstractions based on level sets: merge trees, contour trees and Reeb graphs. We propose three new efficient parallel algorithms for the computation of these abstractions on multi-core shared memory workstations. The first algorithm developed in the context of this thesis is based on multi-thread parallelism for the contour tree computation. A second algorithm revisits the reference sequential algorithm to compute this abstraction and is based on local propagations expressible as parallel tasks. This new algorithm is in practice twice faster in sequential than the reference algorithm designed in 2000 and offers one order of magnitude speedups in parallel. A last algorithm also relying on task-based local propagations is presented, computing a more generic abstraction: the Reeb graph. Contrary to concurrent approaches, these methods provide the augmented version of these structures, hence enabling the full extend of level-set based analysis. Algorithms presented in this manuscript result today in the fastest implementations available to compute these abstractions. This work has been integrated into the open-source platform: the Topology Toolkit (TTK)
APA, Harvard, Vancouver, ISO, and other styles
13

Bonis, Thomas. "Algorithmes d'apprentissage statistique pour l'analyse géométrique et topologique de données." Thesis, Université Paris-Saclay (ComUE), 2016. http://www.theses.fr/2016SACLS459/document.

Full text
Abstract:
Dans cette thèse, on s'intéresse à des algorithmes d'analyse de données utilisant des marches aléatoires sur des graphes de voisinage, ou graphes géométriques aléatoires, construits à partir des données. On sait que les marches aléatoires sur ces graphes sont des approximations d'objets continus appelés processus de diffusion. Dans un premier temps, nous utilisons ce résultat pour proposer un nouvel algorithme de partitionnement de données flou de type recherche de modes. Dans cet algorithme, on définit les paquets en utilisant les propriétés d'un certain processus de diffusion que l'on approche par une marche aléatoire sur un graphe de voisinage. Après avoir prouvé la convergence de notre algorithme, nous étudions ses performances empiriques sur plusieurs jeux de données. Nous nous intéressons ensuite à la convergence des mesures stationnaires des marches aléatoires sur des graphes géométriques aléatoires vers la mesure stationnaire du processus de diffusion limite. En utilisant une approche basée sur la méthode de Stein, nous arrivons à quantifier cette convergence. Notre résultat s'applique en fait dans un cadre plus général que les marches aléatoires sur les graphes de voisinage et nous l'utilisons pour prouver d'autres résultats : par exemple, nous arrivons à obtenir des vitesses de convergence pour le théorème central limite. Dans la dernière partie de cette thèse, nous utilisons un concept de topologie algébrique appelé homologie persistante afin d'améliorer l'étape de "pooling" dans l'approche "sac-de-mots" pour la reconnaissance de formes 3D
In this thesis, we study data analysis algorithms using random walks on neighborhood graphs, or random geometric graphs. It is known random walks on such graphs approximate continuous objects called diffusion processes. In the first part of this thesis, we use this approximation result to propose a new soft clustering algorithm based on the mode seeking framework. For our algorithm, we want to define clusters using the properties of a diffusion process. Since we do not have access to this continuous process, our algorithm uses a random walk on a random geometric graph instead. After proving the consistency of our algorithm, we evaluate its efficiency on both real and synthetic data. We then deal tackle the issue of the convergence of invariant measures of random walks on random geometric graphs. As these random walks converge to a diffusion process, we can expect their invariant measures to converge to the invariant measure of this diffusion process. Using an approach based on Stein's method, we manage to obtain quantitfy this convergence. Moreover, the method we use is more general and can be used to obtain other results such as convergence rates for the Central Limit Theorem. In the last part of this thesis, we use the concept of persistent homology, a concept of algebraic topology, to improve the pooling step of the bag-of-words approach for 3D shapes
APA, Harvard, Vancouver, ISO, and other styles
14

Cochoy, Jérémy. "Decomposability and stability of multidimensional persistence." Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLS566/document.

Full text
Abstract:
Dans un contexte où des quantités toujours plus colossales de données sont disponibles,extraire des informations significatives et non triviales devient toujours plus difficile. Afin d’améliorer la classification, régression, ou encore l’analyse exploratoire de données, l’approche fournie par l’analyse topologique de données (TDA) est de rechercher la présence de formes dans le jeu de données.Dans cette thèse nous étudions les propriétés des modules de persistance multidimensionnelle dans le but d’obtenir une meilleure compréhension des sommandes et décompositions de ces derniers. Nous introduisons un foncteur qui plonge la catégorie des représentations de carquois dont le graphe est un arbre enraciné dans la catégorie des modules de persistance indexé sur ℝ². Nous enrichissons la structure de module de persistance provenant de l’application du foncteur cohomologie à une filtration en une structure d’algèbre de persistance.Enfin, nous généralisons l’approche de Crawley Beovey à la multipersistance et identifions une classe de modules de persistance indexé sur ℝ² qui possède des descripteurs simples et analogues au théorème de décomposition existant en persistance1-dimensionnelle
In a context where huge amounts of data are available, extracting meaningful and non trivial information is getting harder. In order to improve the tasks of classification, regression, or exploratory analysis, the approach provided by topological data analysisis to look for the presence of shapes in data set.In this thesis, we investigate the properties of multidimensional persistence modules in order to obtain a better understanding of the summands and decompositions of such modules. We introduce a functor that embeds the representations category of any quiver whose graph is a rooted tree into the category of ℝ²-indexed persistence modules. We also enrich the structure of persistence module arising from the cohomology of a filtration to a structure of persistence algebra.Finally, we generalize the approach of Crawley Beovey to multipersistence and identify a class of persistencemodules indexed on ℝ² which have simple descriptor and an analog of the decomposition theorem available in one dimensional persistence
APA, Harvard, Vancouver, ISO, and other styles
15

Carriere, Mathieu. "On Metric and Statistical Properties of Topological Descriptors for geometric Data." Thesis, Université Paris-Saclay (ComUE), 2017. http://www.theses.fr/2017SACLS433/document.

Full text
Abstract:
Dans le cadre de l'apprentissage automatique, l'utilisation de représentations alternatives, ou descripteurs, pour les données est un problème fondamental permettant d'améliorer sensiblement les résultats des algorithmes. Parmi eux, les descripteurs topologiques calculent et encodent l'information de nature topologique contenue dans les données géométriques. Ils ont pour avantage de bénéficier de nombreuses bonnes propriétés issues de la topologie, et désirables en pratique, comme par exemple leur invariance aux déformations continues des données. En revanche, la structure et les opérations nécessaires à de nombreuses méthodes d'apprentissage, comme les moyennes ou les produits scalaires, sont souvent absents de l'espace de ces descripteurs. Dans cette thèse, nous étudions en détail les propriétés métriques et statistiques des descripteurs topologiques les plus fréquents, à savoir les diagrammes de persistance et Mapper. En particulier, nous montrons que le Mapper, qui est empiriquement un descripteur instable, peut être stabilisé avec une métrique appropriée, que l'on utilise ensuite pour calculer des régions de confiance et pour régler automatiquement ses paramètres. En ce qui concerne les diagrammes de persistance, nous montrons que des produits scalaires peuvent être utilisés via des méthodes à noyaux, en définissant deux noyaux, ou plongements, dans des espaces de Hilbert en dimension finie et infinie
In the context of supervised Machine Learning, finding alternate representations, or descriptors, for data is of primary interest since it can greatly enhance the performance of algorithms. Among them, topological descriptors focus on and encode the topological information contained in geometric data. One advantage of using these descriptors is that they enjoy many good and desireable properties, due to their topological nature. For instance, they are invariant to continuous deformations of data. However, the main drawback of these descriptors is that they often lack the structure and operations required by most Machine Learning algorithms, such as a means or scalar products. In this thesis, we study the metric and statistical properties of the most common topological descriptors, the persistence diagrams and the Mappers. In particular, we show that the Mapper, which is empirically instable, can be stabilized with an appropriate metric, that we use later on to conpute confidence regions and automatic tuning of its parameters. Concerning persistence diagrams, we show that scalar products can be defined with kernel methods by defining two kernels, or embeddings, into finite and infinite dimensional Hilbert spaces
APA, Harvard, Vancouver, ISO, and other styles
16

Bou, Dagher Lea. "Analyse biogéométrique de l'évolution des protéines et des traits d'histoire de vie." Electronic Thesis or Diss., Lyon 1, 2024. http://www.theses.fr/2024LYO10277.

Full text
Abstract:
Au-delà de leur rôle fonctionnel dans les cellules, les protéines constituent un matériel important en biologie évolutive parce qu’elles contiennent un signal historique (i.e. phylogénétique) qui peut être utilisé pour retracer leur histoire évolutive, ainsi que celle des organismes. Ce signal est traditionnellement étudié par des méthodes de phylogénie moléculaire basées sur la comparaison des séquences protéiques. L’analyse des structures 3D des protéines a toutefois été proposée comme une alternative intéressante. En effet, les structures évoluent plus lentement que les séquences, offrant ainsi l’accès à un signal phylogénétique plus ancien. Par ailleurs, les séquences protéiques jouent également un rôle clé pour l’étude des processus adaptatifs, comme par exemple l’adaptation à la température environnementale, la salinité ou la pression. La température optimale à laquelle vivent les microorganismes impose des fortes contraintes sur les protéines, notamment sur l’utilisation préférentielle de certains acides aminés. Par conséquent, la composition en acides aminés des protéomes des organismes est liée à leur température optimale de croissance. La température environnementale exerce également des contraintes qui affectent les structures 3D des protéines. Cette thèse aborde l’étude des structures 3D des protéines avec des méthodes issues de l’analyse topologique des données. Nous introduisons des méthodes d’homologie persistante pour analyser les caractéristiques géométriques des structures 3D, ainsi que l’information qu’elles contiennent, notamment concernant leur histoire évolutive (signal phylogénétique) et leur adaptation à la température. Dans un premier temps, nous montrons que l’homologie persistante capture un signal phylogénétique dans les structures 3D. Ensuite, nous définissons une vectorisation des structures 3D pondérée par leurs propriétés physicochimiques et basée sur les descripteurs topologiques de l’homologie persistante. Cette approche permet de raffiner l’estimation des distances évolutives. Nous utilisons ces vectorisations avec des méthodes d’apprentissage automatique pour estimer les températures optimales de croissance d’un groupe majeur d’archées, les Methanococcales. Dans un second temps, nous faisons une analyse spectrale des laplaciens associés aux structures 3D des protéines. En effet, le laplacien capture non seulement les invariants topologiques d’un nuage de point dans son spectre harmonique, comme ceux fournis par l’homologie persistante, mais il saisit également des caractéristiques géométriques liées à la courbure du nuage de point. Nous montrons un théorème de majoration et un théorème de minoration de la courbure d’un espace discret par des valeurs spectrales de son laplacien persistant. Enfin, nous proposons un modèle prédictif d’estimation des températures optimales de croissance des organismes basé sur l’analyse spectrale des structures de leurs protéines
Beyond their functional role in cells, proteins serve as important material in evolutionary biology because they contain a historical (i.e. phylogenetic) signal that can be used to retrace their evolutionary history, as well as that of organisms. This signal is traditionally studied using molecular phylogeny methods based on the comparison of protein sequences. However, the analysis of 3D protein structures has been proposed as an interesting alternative. Indeed, structures evolve more slowly than sequences, offering access to a more ancient phylogenetic signal. On the other hand, protein sequences play also a key role for studying adaptive processes, such as adaptation to environmental temperature, salinity or pressure. The optimal temperature at which microorganisms live imposes very strong constraints on proteins, particularly on the preferential use of certain amino acids. As a result, the amino acid composition of organisms’ proteomes is linked to their optimal growth temperature. Environmental temperature also exerts constraints that affect the 3D structures. This thesis aims to study the 3D structures using methods derived from topological data analysis. We introduce persistent homology methods to analyze the geometric features of 3D structures, as well as the information they contain such as their evolutionary history (phylogenetic signal) and their adaptation to temperature. First, we show that persistent homology captures a phylogenetic signal in 3D structures. We then define a vectorization of 3D structures weighted by their physicochemical properties and based on the topological descriptors of persistent homology. This approach makes it possible to refine the estimation of evolutionary distances. We combine these vectorizations with machine learning methods to estimate the optimal growth temperatures for a major group of archaea, the Methanococcales. Secondly, we carry out a spectral analysis of the Laplacians associated with the 3D structures. The Laplacian captures not only the topological invariants of a point cloud in its harmonic spectrum, such as those provided by persistent homology, but also captures geometric features related to the curvature of the point cloud. We establish lower and upper bounds theorems for the curvature of a discrete space by spectral values of its persistent Laplacian. Finally, we propose a predictive model for estimating the optimal growth temperatures of organisms based on the spectral analysis of their 3D structures
APA, Harvard, Vancouver, ISO, and other styles
17

Grozavu, Nistor. "Classification topologique pondérée : approches modulaires, hybrides et collaboratives." Paris 13, 2009. http://www.theses.fr/2009PA132022.

Full text
Abstract:
Cette thèse est consacrée d'une part, à l'étude d'approches de caractérisation des classes découvertes pendant l'apprentissage non-supervisé, et d'autre part, à la classification non-supervisée modulaire, hybride et collaborative. L'étude se focalise essentiellement sur deux axes : - la caractérisation des classes en utilisant la pondération et la sélection des variables pertinentes, ainsi que l'utilisation de la notion de mémoire pendant le processus d'apprentissage topologique non-supervisé; - l'utilisation de plusieurs techniques de clustering en parallèle et en série : approches modulaires, hybrides et collaboratives. Nous nous intéressons plus particulièrement dans cette thèse aux cartes auto-organisatrices de Kohonen qui constituent une technique bien adaptée à la classification non-supervisée permettant une visualisation des résultats sous forme d'une carte topographique. Nous proposons plusieurs techniques de pondérations de l'apprentissage de ces cartes ainsi qu'une nouvelle stratégie de compétition permettant de garder en mémoire l'historique de l'apprentissage. En utilisant un test statistique pour la sélection des variables pertinentes pondérées, nous répondons au problème de la réduction des dimensions, ainsi qu'au problème de la caractérisation des classes découvertes. Concernant le deuxième axe, nous utilisons le formalisme mathématique de l'analyse relationnelle (AR) pour combiner plusieurs résultats de classification. Enfin, nous proposons une nouvelle approche conçue pour faire collaborer plusieurs classifications topographiques entre elles ,en préservant la confidentialité des données
This thesis is focused, on the one hand, to study clustering anlaysis approaches in an unsupervised topological learning, and in other hand, to the topological modular, hybrid and collaborative clustering. This study is adressed mainly on two problems: - cluster characterization using weighting and selection of relevant variables, and the use of the memory concept during the learning unsupervised topological process; - and the problem of the ensemble clustering techniques : the modularization, the hybridization and collaboration. We are particularly interested in this thesis in Kohonen's self-organizing maps which have been widely used for unsupervised classification and visualization of multidimensional datasets. We offer several weighting approaches and a new strategy which consists in the introduction of a memory process into the competition phase by calculating a voting matrix at each learning iteration. Using a statistical test for selecting relevant variables, we will respond to the problem of dimensionality reduction, and to the problem of the cluster characterization. For the second problem, we use the relational analysis approach (RA) to combine multiple topological clustering results
APA, Harvard, Vancouver, ISO, and other styles
18

Pritam, Siddharth. "Effondrements et homologie persistante." Thesis, Université Côte d'Azur, 2020. https://tel.archives-ouvertes.fr/tel-02962587.

Full text
Abstract:
Dans cette thèse, nous introduisons deux nouvelles approches pour calculer l'homologie persistante(HP) d'une séquence de complexes simpliciaux. L'idée de base est de simplifier les complexes de la séquence d'entrée en utilisant des types spéciaux de collapses (effondrement), les collapses forts et les collapses d'arêtes, et de calculer l'HP d'une séquence réduite de plus petite taille qui a la même HP que la séquence initiale. Notre première approche utilise les collapses forts introduits par J. Barmak et E. Miniam [DCG (2012)]. Un collapse fort supprime les sommets dits dominés d'un complexe simplicial. Notre approche utilisant les collapses forts a plusieurs caractéristiques qui la distinguent des travaux antérieurs. La méthode n'est pas limitée aux filtrations (c'est-à-dire aux séquences de sous-complexes simpliciaux imbriqués) mais fonctionne pour d'autres types de séquences comme les tours et les zigzags. Par ailleurs, pour implémenter les collapses forts, il suffit de représenter les simplexes maximaux du complexe, et pas l'ensemble de tous ses simplexes, ce qui économise beaucoup d'espace et de temps. De plus, les complexes de la séquence peuvent être collapsés indépendamment et en parallèle.Dans le cas des complexes en drapeaux (flag complexes), les collapses forts peuvent être réalisés sur le 1-squelette du complexe et le complexe résultat est également un complexe en drapeau. Nous montrons que si l'on restreint la classe des complexes simpliciaux aux complexes en drapeaux, on peut améliorer la complexité en temps et en espace de facon décisive par rapport aux travaux antérieurs. Lorsque les collapses forts sont appliqués aux complexes d'une tour de complexes en drapeau, nous obtenons une séquence réduite qui est aussi une tour de complexes en drapeau que nous appelons le coeur de la tour. Nous convertissons ensuite le coeur de la tour en une filtration équivalente pour calculer son HP. Là encore, nous n'utilisons que les 1-squelettes des complexes. La méthode résultante est simple et extrêmement efficace.Nous étendons la notion de sommet dominé au cas de simplexes de dimension quelconque. Le concept d'arête dominée apparait très puissant et nous l'étudions dans le cas des complexes en drapeaux de faconplus détaillée. Nous montrons que les collapses d'arêtes (suppression des arêtes dominées) dans un complexe en drapeaux peut être effectué, comme précédemment, en utilisant uniquement le 1-squelette du complexe. En outre, le complexe résiduel est également un complexe de drapeaux. Ensuite, nous montrons que, comme dans le cas des collapses forts, on peut utiliser les collapses d'arêtes pour réduire une filtration de complexes en drapeaux en une filtration de complexes en drapeaux plus petite qui a la même HP. Là encore, nous utilisons uniquement le 1-squelettes des complexes.Comme l'ont démontré de nombreuses expériences sur des données publiques, les approches développées sont extrêmement rapides et efficaces en mémoire. En particulier, la méthode utilisant les collapses d'arêtes offre de meilleures performances que toutes les méthodes connues, y compris l'approche par collapses forts. Enfin, nous pouvons faire des compromis entre précision et temps de calcul en choisissant le nombre de complexes simpliciaux de la séquence à collapser
In this thesis, we introduce two new approaches to compute the Persistent Homology (PH) of a sequence of simplicial complexes. The basic idea is to simplify the complexes of the input sequence by using special types of collapses (strong and edge collapse) and to compute the PH of an induced sequence of smaller size that has the same PH as the initial one.Our first approach uses strong collapse which is introduced by J. Barmak and E. Miniam [DCG (2012)]. Strong collapse comprises of removal of special vertices called \textit{dominated} vertices from a simplicial complex.Our approach with strong collapse has several salient features that distinguishes it from previous work. It is not limited to filtrations (i.e. sequences of nested simplicial subcomplexes) but works for othertypes of sequences like towers and zigzags. To strong collapse a simplicial complex, we only need to store the maximal simplices of the complex, not the full set of all its simplices, which saves a lot ofspace and time. Moreover, the complexes in the sequence can be strong collapsed independently and in parallel.In the case of flag complexes strong collapse can be performed over the $1$-skeleton of the complex and the resulting complex is also a flag complex. We show that if we restrict the class of simplicial complexes to flag complexes, we can achieve decisive improvement in terms of time and space complexities with respect to previous work. When we strong collapse the complexes in a flag tower, we obtain a reduced sequence that is also a flag tower we call the coreflag tower. We then convert the core flag tower to an equivalent filtration to compute its PH. Here again, we only use the 1-skeletons of the complexes. The resulting method is simple and extremelyefficient. We extend the notions of dominated vertex to a simplex of any dimension. Domination of edges appear to be very powerful and we study it in the case of flag complexes in more detail. We show that edge collapse (removal of dominated edges) in a flag complex can be performed using only the 1-skeleton of the complex as well. Furthermore, the residual complex is a flag complex as well. Next we show that, similar to the case of strong collapses, we can use edge collapses to reduce a flag filtration F to a smaller flag filtration F^c with the same persistence. Here again, we only use the 1-skeletons of the complexes. As a result and as demonstrated by numerous experiments on publicly available data sets, our approaches are extremely fast and memory efficient in practice. In particular the method using edge collapse performs the best among all known methods including the strong collapse approach. Finally, we can compromizebetween precision and time by choosing the number of simplicial complexes of the sequence we strong collapse
APA, Harvard, Vancouver, ISO, and other styles
19

Pont, Mathieu. "Analysis of Ensembles of Topological Descriptors." Electronic Thesis or Diss., Sorbonne université, 2023. http://www.theses.fr/2023SORUS436.

Full text
Abstract:
L'analyse topologique de données forme un ensemble d'outils visant à révéler de manière générique, robuste et efficace les caractéristiques structurelles implicites cachées dans des ensembles de données complexes. Ces outils permettent de calculer une représentation topologique pour chaque membre d'un ensemble de données en encodant ses principales caractéristiques d'intérêt de manière concise et informative. Un défi majeur consiste ensuite à concevoir des outils d'analyse pour de tels ensembles de descripteurs topologiques. Plusieurs outils ont été bien étudiées pour les diagrammes de persistance, l'un des descripteurs les plus utilisés. Cependant, ils souffrent d'un manque de spécificité, pouvant donner des représentations de données identiques pour des données significativement différentes. Dans cette thèse, nous avons cherché à développer des outils d'analyse plus avancés pour des ensembles de descripteurs topologiques, capables de résoudre le problème de discriminabilité des diagrammes de persistance et d'aller au-delà de ce qui était déjà disponible pour ces objets. Tout d'abord nous adaptons aux arbres de fusion, descripteurs ayant une meilleur spécificité, les outils déjà disponibles pour les diagrammes de persistance tels que le calcul de distances, géodésiques et barycentres. Ensuite, nous souhaitons aller au-delà de cette simple notion de moyenne qu'est le barycentre pour étudier la variabilité au sein d'un ensemble de descripteurs topologiques. Nous adaptons alors le cadre de l'Analyse en Composantes Principales aux diagrammes de persistance et les arbres de fusion, résultant une méthode de réduction de dimensions qui indique quelles structures dans l'ensemble sont les plus responsables de la variabilité. Cependant, ce cadre permet uniquement de détecter des tendances linéaires de variabilité dans l'ensemble. Pour résoudre ce problème, nous proposons de généraliser ce cadre aux Auto-Encodeurs afin de détecter des motifs non linéaires, i.e. plus complexes, dans un ensembles d'arbres de fusions ou de diagrammes de persistance. Plus précisément, nous proposons une nouvelle couche de réseau de neurones capable de traiter nativement ces objets. Nous présentons des applications de ces travaux pour le suivi de structures dans un ensemble de données variant dans le temps pour la réduction de données pour compresser un ensemble de descripteurs topologiques, dans le partitionnement pour former des groupes homogènes dans un ensemble, et dans la réduction de dimensions pour créer une carte visuelle indiquant comment les données sont organisées les unes par rapport aux autres dans l'ensemble
Topological Data Analysis (TDA) forms a collection of tools to generically, robustly and efficiently reveal implicit structural patterns hidden in complex datasets. These tools allow to compute a topological representation for each member of an ensemble of datasets by encoding its main features of interest in a concise and informative manner. A major challenge consists then in designing analysis tools for such ensembles of topological descriptors. Several tools have been well studied for persistence diagrams, one of the most used descriptor. However, they suffer from a lack of specificity, which can yield identical data representations for significantly distinct datasets. In this thesis, we aimed at developing more advanced analysis tools for ensembles of topological descriptors, capable of tackling the lack of discriminability of persistence diagrams and going beyond what was already available for these objects. First, we adapt to merge trees, descriptors having a better specificity, the tools already available for persistence diagrams such as distances, geodesics and barycenters. Then, we want to go beyond this notion of average being the barycenter in order to study the variability within an ensemble of topological descriptors. We then adapt the Principal Component Analysis framework to persistence diagrams and merge trees, resulting in a dimensionality reduction method that indicates which structures in the ensemble are most responsible for the variability. However, this framework allows only to detect linear patterns of variability in the ensemble. To tackle this we propose to generalize this framework to Auto-Encoder in order to detect non-linear, i.e. more complex, patterns in an ensemble of merge trees or persistence diagrams. Specifically, we propose a new neural network layer capable of processing natively these objects. We present applications of all this work in feature tracking in a time-varying ensemble, data reduction to compress an ensemble of topological descriptors, clustering to form homogeneous groups in an ensemble, and dimensionality reduction to create a visual map indicating how the data are organized regarding each other in the ensemble
APA, Harvard, Vancouver, ISO, and other styles
20

Tinarrage, Raphaël. "Inférence topologique à partir de mesures et de fibrés vectoriels." Thesis, université Paris-Saclay, 2020. http://www.theses.fr/2020UPASM001.

Full text
Abstract:
Nous contribuons à l'inférence topologique, basée sur la théorie de l'homologie persistante, en proposant trois familles de filtrations.Nous établissons pour chacune d'elles des résultats de consistance---c'est-à-dire de qualité d'approximation d'un objet géométrique sous-jacent---, et de stabilité---c'est-à-dire que robustesse face à des erreurs de mesures initiales.Nous proposons des algorithmes concrets afin de pouvoir utiliser ces méthodes en pratique.La première famille, les filtrations-DTM, est une alternative robuste à la classique filtration de Cech lorsque le nuage de points est bruité ou contient des points aberrants.Elle repose sur la notion de distance à la mesure qui permet d'obtenir une stabilité au sens de la distance de Wasserstein.Deuxièmement, nous proposons les filtrations relevées, qui permettent d'estimer l'homologie des variétés immergées, même quand leur portée est nulle.Nous introduisons la notion de portée normale, et montrons qu'elle conduit à un contrôle quantitatif de la variété.Nous étudions l'estimation des espaces tangents par les matrices de covariance locale.En troisième lieu, nous développons un cadre pour les filtrations de fibrés vectoriels, et définissons les classes de Stiefel-Whitney persistantes.Nous montrons que les classes persistantes associées aux filtrations de fibrés de Cech sont consistantes et stables en distance de Hausdorff.Pour permettre leur mise en œuvre algorithmique, nous introduisons la notion de condition étoile faible
We contribute to the theory of topological inference, based on the theory of persistent homology, by proposing three families of filtrations.For each of them, we prove consistency results---that is, the quality of approximation of an underlying geometric object---, and stability results---that is, robustness against initial measurement errors.We propose concrete algorithms in order to use these methods in practice.The first family, the DTM-filtration, is a robust alternative to the classical Cech filtration when the point cloud is noisy or contains outliers.It is based on the notion of distance to measure, which allows to obtain stability in the sense of the Wasserstein distance.Secondly, we propose the lifted filtrations, which make it possible to estimate the homology of immersed manifolds, even when their reach is zero.We introduce the notion of normal reach, and show that it leads to a quantitative control of the manifold.We study the estimation of tangent spaces by local covariance matrices.Thirdly, we develop a framework for vector bundle filtrations, and define the persistent Stiefel-Whitney classes.We show that the persistent classes associated to the Cech bundle filtrations are Hausdorff-stable and consistent.To allow their algorithmic implementation, we introduce the notion of weak star condition
APA, Harvard, Vancouver, ISO, and other styles
21

Segoufin, Luc. "Manipulation de données spaciales et topologiques." Paris 11, 1999. http://www.theses.fr/1999PA112033.

Full text
Abstract:
Les objets spatiaux, de par leur complexite, ne peuvent en general pas etre decrits de facon extensive, mais seulement intensionnellement, ce qui pose de serieux problemes aux systemes de gestion de bases de donnees. De la qualite de la modelisation des donnees depend la facilite de leur manipulation et l'efficacite des techniques d'evaluation que l'on peut mettre en uvre. La representation des objets a l'aide de contraintes rend possible une modelisation en terme d'ensembles qui permet une manipulation au moyen d'operations habituelles comme celles de l'algebre relationnelle. L'evaluation des requetes sur les objets spatiaux a generalement une complexite exponentielle en la dimension des donnees, ce qui limite la portee pratique des systemes pour des dimensions elevees. On montre comment dans le cadre du modele contrainte, il est possible d'utiliser des criteres telles que la dimension, la geometrie et la topologie des donnees pour maitriser le cout d'evaluation des requetes. Pour reduire la complexite en une fonction lineaire en la dimension, on propose des techniques d'evaluation basees sur des approximations. On montre aussi comment reconnaitre dans la requete des blocs correspondant a des problemes connus de geometrie. Une evaluation efficace de la requete est alors obtenue en remplacant ces blocs par l'algorithme correspondant. Enfin, on montre comment repondre plus rapidement a des requetes topologiques a l'aide d'une structure finie appelee graphe topologique et des techniques de reecriture de formules. Pour finir, on valide concretement la portee pratique de l'approche par contraintes et des concepts developpes dans cette these a l'aide d'un prototype, dedale, dont on presente la conception et l'implantation.
APA, Harvard, Vancouver, ISO, and other styles
22

Berkouk, Nicolas. "Persistence and Sheaves : from Theory to Applications." Thesis, Institut polytechnique de Paris, 2020. http://www.theses.fr/2020IPPAX032.

Full text
Abstract:
L’analyse de données topologique est un domaine de recherche récent qui vise à employer les techniques de la topologie algébrique pour concevoir des descripteurs de jeux de données. Pour être utiles en pratique, ces descripteurs doivent être calculables, et posséder une notion de métrique, afin de pouvoir exprimer leur stabilité vis à vis du bruit inhérent à toutes données réelles. La théorie de la persistance a été élaborée au début des années 2000 commeun premier cadre th éorique permettant de définir detels descripteurs - les désormais bien connus codebarres. Bien que très bien adaptée à un contexte informatique, la théorie de la persistance possède certaines limitations théoriques. Dans ce manuscript,nous établissons des liens explicites entre la théorie dérivée des faisceaux munie de la distance de convolution(d’après Kashiwara-Schapira) et la théorie de la persistance.Nous commençons par montrer un théorème d’isométrie dérivée pour les faisceaux constructibles sur R, c’est à dire, nous exprimons la distance deconvolution comme une distance d’appariement entreles code-barres gradués de ces faisceaux. Cela nous permet de conclure dans ce cadre que la distance de convolution est fermée, ainsi que la classe des faisceaux constructibles sur R munie de la distance de convolution forme un espace topologique localement connexe par arcs. Nous observons ensuite que la collection desmodules de persistance zig-zag associée à une fonction à valeurs réelle possède une structure supplémentaire, que nous appelons systèmes de Mayer-Vietoris. Sous des hypothèses de finitude, nous classifions tous les systèmes de Mayer-Vietoris. Cela nous permet d’établir une correspondence fonctorielle et isométrique entre la catégorie dérivée des faisceaux constructibles sur R équipée de la distance de convolution, et la catégorie des systèmes de Mayer-Vietoris fortement finis munie de la distance d’entrelacement. Nous en déduisons une méthode de calcul des code-barres gradués faisceautiques à partir de programmes informatiques déjà implémentés par la communauté de la persistance. Nous terminons par donner une définition purement faisceautique de la notion de module de persistance éphémère. Nous établissons que la catégorie observable des modules de persistance (le quotient de la catégorie des modules de persistance par la sous catégorie des modules de persistance éphémères)est équivalente à la catégorie bien connue des -faisceaux
Topological data analysis is a recent field of research aiming at using techniques coming from algebraic topology to define descriptors of datasets. To be useful in practice, these descriptors must be computable, and coming with a notion of metric, in order to express their stability properties with res-pect to the noise that always comes with real world data. Persistence theory was elaborated in the early 2000’s as a first theoretical setting to define such des-criptors - the now famous so-called barcodes. Howe-ver very well suited to be implemented in a compu-ter, persistence theory has certain limitations. In this manuscript, we establish explicit links between the theory of derived sheaves equipped with the convolu-tion distance (after Kashiwara-Schapira) and persis-tence theory.We start by showing a derived isometry theorem for constructible sheaves over R, that is, we express the convolution distance between two sheaves as a matching distance between their graded barcodes. This enables us to conclude in this setting that the convolution distance is closed, and that the collec-tion of constructible sheaves over R equipped with the convolution distance is locally path-connected. Then, we observe that the collection of zig-zag/level sets persistence modules associated to a real valued function carry extra structure, which we call Mayer-Vietoris systems. We classify all Mayer-Vietoris sys-tems under finiteness assumptions. This allows us to establish a functorial isometric correspondence bet-ween the derived category of constructible sheaves over R equipped with the convolution distance, and the category of strongly pfd Mayer-Vietoris systems endowed with the interleaving distance. We deduce from this result a way to compute barcodes of sheaves from already existing software.Finally, we give a purely sheaf theoretic definition of the notion of ephemeral persistence module. We prove that the observable category of persistence mo-dules (the quotient category of persistence modules by the sub-category of ephemeral ones) is equivalent to the well-known category of -sheaves
APA, Harvard, Vancouver, ISO, and other styles
23

Buchet, Mickaël. "Topological inference from measures." Thesis, Paris 11, 2014. http://www.theses.fr/2014PA112367/document.

Full text
Abstract:
La quantité de données disponibles n'a jamais été aussi grande. Se poser les bonnes questions, c'est-à-dire des questions qui soient à la fois pertinentes et dont la réponse est accessible est difficile. L'analyse topologique de données tente de contourner le problème en ne posant pas une question trop précise mais en recherchant une structure sous-jacente aux données. Une telle structure est intéressante en soi mais elle peut également guider le questionnement de l'analyste et le diriger vers des questions pertinentes. Un des outils les plus utilisés dans ce domaine est l'homologie persistante. Analysant les données à toutes les échelles simultanément, la persistance permet d'éviter le choix d'une échelle particulière. De plus, ses propriétés de stabilité fournissent une manière naturelle pour passer de données discrètes à des objets continus. Cependant, l'homologie persistante se heurte à deux obstacles. Sa construction se heurte généralement à une trop large taille des structures de données pour le travail en grandes dimensions et sa robustesse ne s'étend pas au bruit aberrant, c'est-à-dire à la présence de points non corrélés avec la structure sous-jacente.Dans cette thèse, je pars de ces deux constatations et m'applique tout d'abord à rendre le calcul de l'homologie persistante robuste au bruit aberrant par l'utilisation de la distance à la mesure. Utilisant une approximation du calcul de l'homologie persistante pour la distance à la mesure, je fournis un algorithme complet permettant d'utiliser l'homologie persistante pour l'analyse topologique de données de petite dimension intrinsèque mais pouvant être plongées dans des espaces de grande dimension. Précédemment, l'homologie persistante a également été utilisée pour analyser des champs scalaires. Ici encore, le problème du bruit aberrant limitait son utilisation et je propose une méthode dérivée de l'utilisation de la distance à la mesure afin d'obtenir une robustesse au bruit aberrant. Cela passe par l'introduction de nouvelles conditions de bruit et l'utilisation d'un nouvel opérateur de régression. Ces deux objets font l'objet d'une étude spécifique. Le travail réalisé au cours de cette thèse permet maintenant d'utiliser l'homologie persistante dans des cas d'applications réelles en grandes dimensions, que ce soit pour l'inférence topologique ou l'analyse de champs scalaires
Massive amounts of data are now available for study. Asking questions that are both relevant and possible to answer is a difficult task. One can look for something different than the answer to a precise question. Topological data analysis looks for structure in point cloud data, which can be informative by itself but can also provide directions for further questioning. A common challenge faced in this area is the choice of the right scale at which to process the data.One widely used tool in this domain is persistent homology. By processing the data at all scales, it does not rely on a particular choice of scale. Moreover, its stability properties provide a natural way to go from discrete data to an underlying continuous structure. Finally, it can be combined with other tools, like the distance to a measure, which allows to handle noise that are unbounded. The main caveat of this approach is its high complexity.In this thesis, we will introduce topological data analysis and persistent homology, then show how to use approximation to reduce the computational complexity. We provide an approximation scheme to the distance to a measure and a sparsifying method of weighted Vietoris-Rips complexes in order to approximate persistence diagrams with practical complexity. We detail the specific properties of these constructions.Persistent homology was previously shown to be of use for scalar field analysis. We provide a way to combine it with the distance to a measure in order to handle a wider class of noise, especially data with unbounded errors. Finally, we discuss interesting opportunities opened by these results to study data where parts are missing or erroneous
APA, Harvard, Vancouver, ISO, and other styles
24

Memari, Pooran. "Tomographie géométrique avec garanties topologiques." Phd thesis, Université de Nice Sophia-Antipolis, 2010. http://tel.archives-ouvertes.fr/tel-00560010.

Full text
Abstract:
Le sujet de cette thèse porte sur la reconstruction de formes à partir de coupes planaires. Dans de nombreux domaines d'application, il est nécessaire de reconstruire des formes à partir de sections. L'importance du sujet en imagerie médicale a conduit, depuis les années 1990, à des résultats importants qui sont cependant pour la plupart limités au cas de sections parallèles. Pourtant en échographie, les données obtenues au moyen d'une sonde guidée manuellement, forment une série d'images représentant des coupes de l'organe par des plans non parallèles. Cette application directe motivait le sujet de ma thèse. Dans cette thèse nous considérons le problème de la reconstruction d'une 3-variété à bord plongée dans R^3, à partir de ses intersections avec un ensemble de plans en positions arbitraires, appelées coupes. C'est pour la première fois que ce problème est étudié en toute généralité, dans le but de fournir des garanties théoriques satisfaisantes sur le résultat de la reconstruction. Aucune garantie théorique n'a été obtenue même pour le cas de coupes parallèles avant cette thèse. Dans le premier chapitre de ce manuscrit, nous étudions la méthode de reconstruction proposée par Liu et al. en 2008. Nous prouvons que si certaines conditions d'échantillonnage sont vérifiées, cette méthode permet de reconstruire la topologie de l'objet à partir des coupes données. Nous prouvons également que l'objet reconstruit est homéomorphe (et isotope) à l'objet. Le deuxième chapitre présente une nouvelle méthode de reconstruction en utilisant le diagramme de Voronoi des sections. Cette méthode permet d'établir plus de connections entre les sections par rapport à la première méthode. Favoriser les connections entre les sections est motivé par la reconstruction d'objets fins à partir de sections peu denses. Nous présentons des conditions d'échantillonnage qui sont adaptées aux objets fins et qui permettent de prouver l'équivalence homotopique entre l'objet reconstruit et l'objet de départ. En effet, nous prouvons que si les plans de coupe sont suffisamment transversales à l'objet, notre méthode de reconstruction est topologiquement valide et peut traiter des topologies complexes des sections avec plusieurs branchements. Dans le dernier chapitre de ce manuscrit, nous présentons une autre méthode de reconstruction qui permet d'établir encore plus de connections entre les sections en comparant avec les deux premières méthodes. Notre méthode est basée sur la triangulation de Delaunay et suit une approche duale en considérant le diagramme de Voronoi des sections. L'algorithme correspondant a été implémenté en C++, en utilisant la bibliothèque CGAL. Les résultats de la reconstruction obtenus par cet algorithme sont très satisfaisants pour les topologies complexes des sections. En se basant sur les études que nous avons développées durant cette thèse, nous espérons pouvoir fournir un fondement solide pour le processus d'acquisition et de reconstruction des données échographiques afin d'avoir un logiciel fiable pour les diagnostics.
APA, Harvard, Vancouver, ISO, and other styles
25

Untereiner, Lionel. "Représentation des maillages multirésolutions : application aux volumes de subdivision." Phd thesis, Université de Strasbourg, 2013. http://tel.archives-ouvertes.fr/tel-00951049.

Full text
Abstract:
Les maillages volumiques sont très répandus en informatique graphique, en visualisation scientifique et en calcul numérique. Des opérations de subdivision, de simplification ou de remaillage sont parfois utilisées afin d'accélérer les traitements sur ces maillages. Afin de maîtriser la complexité de l'objet et des traitements numériques qui lui sont appliqués, une solution consiste alors à le représenter à différentes échelles. Les modèles existants sont conçus pour des approches spécifiques rendant leur utilisation limitée aux applications pour lesquelles ils ont été pensés. Nos travaux de recherche présentent un nouveau modèle pour la représentation de maillages multirésolutions en dimension quelconque basé sur le formalisme des cartes combinatoires. Nous avons d'abord appliqué notre modèle aux volumes de subdivision multirésolutions. Dans ce cadre, nous présentons plusieurs algorithmes de raffinement d'un maillage grossier initial. Ces algorithmes supportent des hiérarchies obtenues par subdivision régulière et adaptative. Nous proposons ensuite deux représentations, opposés en terme de coût spatial et temporel, pour ce modèle.
APA, Harvard, Vancouver, ISO, and other styles
26

Godoy, Campbell Matias. "Sur le problème inverse de détection d'obstacles par des méthodes d'optimisation." Thesis, Toulouse 3, 2016. http://www.theses.fr/2016TOU30220/document.

Full text
Abstract:
Cette thèse porte sur l'étude du problème inverse de détection d'obstacle/objet par des méthodes d'optimisation. Ce problème consiste à localiser un objet inconnu oméga situé à l'intérieur d'un domaine borné connu Oméga à l'aide de mesures de bord et plus précisément de données de Cauchy sur une partie Gammaobs de thetaOmega. Nous étudions les cas scalaires et vectoriels pour ce problème en considérant les équations de Laplace et de Stokes. Dans tous les cas, nous nous appuyons sur une résultat d'identifiabilité qui assure qu'il existe un unique obstacle/objet qui correspond à la mesure de bord considérée. La stratégie utilisée dans ce travail est de réduire le problème inverse à la minimisation d'une fonctionnelle coût: la fonctionnelle de Kohn-Vogelius. Cette approche est fréquemment utilisée et permet notamment d'utiliser des méthodes d'optimisation pour des implémentations numériques. Cependant, afin de bien définir la fonctionnelle, cette méthode nécessite de connaître une mesure sur tout le bord extérieur thetaOmega. Ce dernier point nous conduit à étudier le problème de complétion de données qui consiste à retrouver les conditions de bord sur une région inaccessible, i.e. sur thetaOmega\Gammaobs, à partir des données de Cauchy sur la région accessible Gammaobs. Ce problème inverse est également étudié en minimisant une fonctionnelle de type Kohn-Vogelius. La caractère mal posé de ce problème nous amène à régulariser la fonctionnelle via une régularisation de Tikhonov. Nous obtenons plusieurs propriétés théoriques comme des propriétés de convergence, en particulier lorsque les données sont bruitées. En tenant compte de ces résultats théoriques, nous reconstruisons numériquement les données de bord en mettant en oeuvre un algorithme de gradient afin de minimiser la fonctionnelle régularisée. Nous étudions ensuite le problème de détection d'obstacle lorsque seule une mesure de bord partielle est disponible. Nous considérons alors les conditions de bord inaccessibles et l'objet inconnu comme les variables de la fonctionnelle et ainsi, en utilisant des méthodes d'optimisation de forme géométrique, en particulier le gradient de forme de la fonctionnelle de Kohn-Vogelius, nous obtenons la reconstruction numérique de l'inclusion inconnue. Enfin, nous considérons, dans le cas vectoriel bi-dimensionnel, un nouveau degré de liberté en étudiant le cas où le nombre d'objets est inconnu. Ainsi, nous utilisons l'optimisation de forme topologique afin de minimiser la fonctionnelle de Kohn-Vogelius. Nous obtenons le développement asymptotique topologique de la solution des équations de Stokes 2D et caractérisons le gradient topologique de cette fonctionnelle. Nous déterminons alors numériquement le nombre d'obstacles ainsi que leur position. De plus, nous proposons un algorithme qui combine les méthodes d'optimisation de forme topologique et géométrique afin de déterminer numériquement le nombre d'obstacles, leur position ainsi que leur forme
This PhD thesis is dedicated to the study of the inverse problem of obstacle/object detection using optimization methods. This problem consists in localizing an unknown object omega inside a known bounded domain omega by means of boundary measurements and more precisely by a given Cauchy pair on a part Gammaobs of thetaOmega. We cover the scalar and vector scenarios for this problem considering both the Laplace and the Stokes equations. For both cases, we rely on identifiability result which ensures that there is a unique obstacle/object which corresponds to the considered boundary measurements. The strategy used in this work is to reduce the inverse problem into the minimization of a cost-type functional: the Kohn-Vogelius functional. This kind of approach is widely used and permits to use optimization tools for numerical implementations. However, in order to well-define the functional, this approach needs to assume the knowledge of a measurement on the whole exterior boundary thetaOmega. This last point leads us to first study the data completion problem which consists in recovering the boundary conditions on an inaccessible region, i.e. on thetaOmega\Gammaobs, from the Cauchy data on the accessible region Gammaobs. This inverse problem is also studied through the minimization of a Kohn-Vogelius type functional. The ill-posedness of this problem enforces us to regularize the functional via a Tikhonov regularization. We obtain several theoretical properties as convergence properties, in particular when data is corrupted by noise. Based on these theoretical results, we reconstruct numerically the boundary data by implementing a gradient algorithm in order to minimize the regularized functional. Then we study the obstacle detection problem when only partial boundary measurements are available. We consider the inaccessible boundary conditions and the unknown object as the variables of the functional and then, using geometrical shape optimization tools, in particular the shape gradient of the Kohn-Vogelius functional, we perform the numerical reconstruction of the unknown inclusion. Finally, we consider, into the two dimensional vector case, a new degree of freedom by studying the case when the number of objects is unknown. Hence, we use the topological shape optimization in order to minimize the Kohn-Vogelius functional. We obtain the topological asymptotic expansion of the solution of the 2D Stokes equations and characterize the topological gradient for this functional. Then we determine numerically the number and location of the obstacles. Additionally, we propose a blending algorithm which combines the topological and geometrical shape optimization methods in order to determine numerically the number, location and shape of the objects
APA, Harvard, Vancouver, ISO, and other styles
27

Marine, Cadoret. "Analyse factorielle de données de catégorisation. : Application aux données sensorielles." Rennes, Agrocampus Ouest, 2010. http://www.theses.fr/2010NSARG006.

Full text
Abstract:
En analyse sensorielle, les approches holistiques, dans lesquelles les objets sont considérés comme un tout, sont de plus en plus utilisées pour recueillir des données. Leur intérêt vient d'une part du fait qu'elles permettent d'acquérir d'autres types d'informations que celles obtenues par les méthodes de profil classiques et d'autre part du fait qu'elles ne demandent aucune compétence particulière, ce qui les rend réalisable par tous types de sujets. La catégorisation (ou tri libre) dans laquelle la tâche demandée aux sujets est de fournir une partition des objets, fait partie de ces approches. Cette thèse se concentre dans une première partie sur les données de catégorisation. Après avoir vu que cette méthode de recueil de données est pertinente, nous nous intéressons au traitement statistique de ces données à travers la recherche de représentations euclidiennes. La méthodologie proposée qui consiste à utiliser des méthodes factorielles telles que l'Analyse des Correspondances Multiple (ACM) ou l'Analyse Factorielle Multiple (AFM) est également enrichie d'éléments de validité. Cette méthodologie est ensuite illustrée par l'analyse de deux jeux de données obtenus à partir de bières d'une part et de parfums d'autre part. La deuxième partie est consacrée à l'étude de deux modes de recueil de données liés à la catégorisation : le Napping® catégorisé et le tri hiérarchique. Pour ces deux recueils, nous nous intéressons également au traitement des données en adoptant une démarche similaire à celle utilisée pour les données de catégorisation. Enfin, la dernière partie est consacrée à l'implémentation dans le logiciel R de différentes fonctions permettant de traiter les trois types de données que sont les données issues de catégorisation, Napping® catégorisé et tri hiérarchique
In sensory analysis, holistic approaches in which objects are considered as a whole are increasingly used to collect data. Their interest comes on a one hand from their ability to acquire other types of information as the one obtained by traditional profiling methods and on the other hand from the fact they require no special skills, which makes them feasible by all subjects. Categorization (or free sorting), in which subjects are asked to provide a partition of objects, belongs to these approaches. The first part of this work focuses on categorization data. After seeing that this method of data collection is relevant, we focus on the statistical analysis of these data through the research of Euclidean representations. The proposed methodology which consists in using factorial methods such as Multiple Correspondence Analysis (MCA) or Multiple Factor Analysis (MFA) is also enriched with elements of validity. This methodology is then illustrated by the analysis of two data sets obtained from beers on a one hand and perfumes on the other hand. The second part is devoted to the study of two data collection methods related to categorization: sorted Napping® and hierarchical sorting. For both data collections, we are also interested in statistical analysis by adopting an approach similar to the one used for categorization data. The last part is devoted to the implementation in the R software of functions to analyze the three kinds of data that are categorization data, hierarchical sorting data and sorted Napping® data
APA, Harvard, Vancouver, ISO, and other styles
28

Gomes, Da Silva Alzennyr. "Analyse des données évolutives : application aux données d'usage du Web." Phd thesis, Université Paris Dauphine - Paris IX, 2009. http://tel.archives-ouvertes.fr/tel-00445501.

Full text
Abstract:
Le nombre d'accès aux pages Web ne cesse de croître. Le Web est devenu l'une des plates-formes les plus répandues pour la diffusion et la recherche d'information. Par conséquence, beaucoup d'opérateurs de sites Web sont incités à analyser l'usage de leurs sites afin d'améliorer leur réponse vis-à-vis des attentes des internautes. Or, la manière dont un site Web est visité peut changer en fonction de divers facteurs. Les modèles d'usage doivent ainsi être mis à jour continuellement afin de refléter fidèlement le comportement des visiteurs. Ceci reste difficile quand la dimension temporelle est négligée ou simplement introduite comme un attribut numérique additionnel dans la description des données. C'est précisément sur cet aspect que se focalise la présente thèse. Pour pallier le problème d'acquisition des données réelles d'usage, nous proposons une méthodologie pour la génération automatique des données artificielles permettant la simulation des changements. Guidés par les pistes nées des analyses exploratoires, nous proposons une nouvelle approche basée sur des fenêtres non recouvrantes pour la détection et le suivi des changements sur des données évolutives. Cette approche caractérise le type de changement subi par les groupes de comportement (apparition, disparition, fusion, scission) et applique deux indices de validation basés sur l'extension de la classification pour mesurer le niveau des changements repérés à chaque pas de temps. Notre approche est totalement indépendante de la méthode de classification et peut être appliquée sur différents types de données autres que les données d'usage. Des expérimentations sur des données artificielles ainsi que sur des données réelles issues de différents domaines (académique, tourisme et marketing) ont été réalisées pour l'évaluer l'efficacité de l'approche proposée.
APA, Harvard, Vancouver, ISO, and other styles
29

Gomes, da Silva Alzennyr. "Analyse des données évolutives : Application aux données d'usage du Web." Paris 9, 2009. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=2009PA090047.

Full text
Abstract:
Le nombre d'accès aux pages Web ne cesse de croître. Le Web est devenu l'une des plates-formes les plus répandues pour la diffusion et la recherche d'information. Par conséquence, beaucoup d'opérateurs de sites Web sont incités à analyser l'usage de leurs sites afin d'améliorer leur réponse vis-à-vis des attentes des internautes. Or, la manière dont un site Web est visité peut changer en fonction de divers facteurs. Les modèles d'usage doivent ainsi être mis à jour continuellement afin de refléter fidèlement le comportement des visiteurs. Ceci reste difficile quand la dimension temporelle est négligée ou simplement introduite comme un attribut numérique additionnel dans la description des données. C'est précisément sur cet aspect que se focalise la présente thèse. Pour pallier le problème d'acquisition des données réelles d'usage, nous proposons une méthodologie pour la génération automatique des données artificielles permettant la simulation des changements. Guidés par les pistes nées des analyses exploratoires, nous proposons une nouvelle approche basée sur des fenêtres non recouvrantes pour la détection et le suivi des changements sur des données évolutives. Cette approche caractérise le type de changement subi par les groupes de comportement (apparition, disparition, fusion, scission) et applique deux indices de validation basés sur l'extension de la classification pour mesurer le niveau des changements repérés à chaque pas de temps. Notre approche est totalement indépendante de la méthode de classification et peut être appliquée sur différents types de données autres que les données d'usage. Des expérimentations sur des données artificielles ainsi que sur des données réelles issues de différents domaines (académique, tourisme, commerce électronique et marketing) ont été réalisées pour l'évaluer l'efficacité de l'approche proposée
Nowadays, more and more organizations are becoming reliant on the Internet. The Web has become one of the most widespread platforms for information change and retrieval. The growing number of traces left behind user transactions (e. G. : customer purchases, user sessions, etc. ) automatically increases the importance of usage data analysis. Indeed, the way in which a web site is visited can change over time. These changes can be related to some temporal factors (day of the week, seasonality, periods of special offer, etc. ). By consequence, the usage models must be continuously updated in order to reflect the current behaviour of the visitors. Such a task remains difficult when the temporal dimension is ignored or simply introduced into the data description as a numeric attribute. It is precisely on this challenge that the present thesis is focused. In order to deal with the problem of acquisition of real usage data, we propose a methodology for the automatic generation of artificial usage data over which one can control the occurrence of changes and thus, analyse the efficiency of a change detection system. Guided by tracks born of some exploratory analyzes, we propose a tilted window approach for detecting and following-up changes on evolving usage data. In order measure the level of changes, this approach applies two external evaluation indices based on the clustering extension. The proposed approach also characterizes the changes undergone by the usage groups (e. G. Appearance, disappearance, fusion and split) at each timestamp. Moreover, the refereed approach is totally independent of the clustering method used and is able to manage different kinds of data other than usage data. The effectiveness of this approach is evaluated on artificial data sets of different degrees of complexity and also on real data sets from different domains (academic, tourism, e-business and marketing)
APA, Harvard, Vancouver, ISO, and other styles
30

Cailhol, Simon. "Planification interactive de trajectoire en Réalité Virtuelle sur la base de données géométriques, topologiques et sémantiques." Thesis, Toulouse, INPT, 2015. http://www.theses.fr/2015INPT0058/document.

Full text
Abstract:
Pour limiter le temps et le coût de développement de nouveaux produits, l’industrie a besoin d’outils pour concevoir, tester et valider le produit avec des prototypes virtuels. Ces prototypes virtuels doivent permettre de tester le produit à toutes les étapes du Product Lifecycle Management (PLM). Beaucoup d’opérations du cycle de vie du produit impliquent la manipulation par un humain des composants du produit (montage, démontage ou maintenance du produit). Du fait de l’intégration croissante des produits industriels, ces manipulations sont réalisées dans un environnement encombré. La Réalité Virtuelle (RV) permet à des opérateurs réels d’exécuter ces opérations avec des prototypes virtuels. Ce travail de recherche introduit une nouvelle architecture de planification de trajectoire permettant la collaboration d’un utilisateur de RV et d’un système de planification de trajectoire automatique. Cette architecture s’appuie sur un modèle d’environnement original comprenant des informations sémantiques, topologiques et géométriques. Le processus de planification automatique de trajectoire est scindé en deux phases. Une planification grossière d’abord exploitant les données sémantique et topologiques. Cette phase permet de définir un chemin topologique. Une planification fine ensuite exploitant les données sémantiques et géométriques détermine un trajectoire géométrique dans le chemin topologique défini lors de la planification grossière. La collaboration entre le système de planification automatique et l’utilisateur de RV s’articule autour de deux modes : en premier lieu, l’utilisateur est guidé sur une trajectoire pré-calculée à travers une interface haptique ; en second lieu, l’utilisateur peut quitter la solution proposée et déclencher ainsi une re-planification. L’efficacité et l’ergonomie des ces deux modes d’interaction est enrichie grâce à des méthodes de partage de contrôle : tout d’abord, l’autorité du système automatique est modulée afin de fournir à la fois un guidage prégnant lorsque l’utilisateur le suit, et plus de liberté à l’utilisateur (un guidage atténué) lorsque celui-ci explore des chemins alternatifs potentiellement meilleurs. Ensuite, lorsque l’utilisateur explore des chemins alternatifs, ses intentions sont prédites (grâce aux données géométriques associées aux éléments topologiques) et intégrées dans le processus de re-planification pour guider la planification grossière. Ce mémoire est organisé en cinq chapitres. Le premier expose le contexte industriel ayant motivé ces travaux. Après une description des outils de modélisation de l’environnement, le deuxième chapitre introduit le modèle multi-niveaux de l’environnement proposé. Le troisième chapitre présente les techniques de planification de trajectoire issues de la robotique et détaille le processus original de planification de trajectoire en deux phases développé. Le quatrième introduit les travaux précurseurs de planification interactive de trajectoire et les techniques de partage de contrôle existantes avant de décrire les modes d’interaction et les techniques de partage de contrôle mises en œuvre dans notre planificateur interactif de trajectoire. Enfin le dernier chapitre présente les expérimentations menées avec le planificateur de trajectoire et en analyse leurs résultats
To save time and money while designing new products, industry needs tools to design, test and validate the product using virtual prototypes. These virtual prototypes must enable to test the product at all Product Lifecycle Management (PLM) stages. Many operations in product’s lifecycle involve human manipulation of product components (product assembly, disassembly or maintenance). Cue to the increasing integration of industrial products, these manipulations are performed in cluttered environment. Virtual Reality (VR) enables real operators to perform these operations with virtual prototypes. This research work introduces a novel path planning architecture allowing collaboration between a VR user and an automatic path planning system. This architecture is based on an original environment model including semantic, topological and geometric information. The automatic path planning process split in two phases. First, coarse planning uses semantic and topological information. This phase defines a topological path. Then, fine planning uses semantic and geometric information to define a geometrical trajectory within the topological path defined by the coarse planning. The collaboration between VR user and automatic path planner is made of two modes: on one hand, the user is guided along a pre-computed path through a haptic device, on the other hand, the user can go away from the proposed solution and doing it, he starts a re-planning process. Efficiency and ergonomics of both interaction modes is improved thanks to control sharing methods. First, the authority of the automatic system is modulated to provide the user with a sensitive guidance while he follows it and to free the user (weakened guidance) when he explores possible better ways. Second, when the user explores possible better ways, his intents are predicted (thanks to geometrical data associated to topological elements) and integrated in the re-planning process to guide the coarse planning. This thesis is divided in five chapters. The first one exposes the industrial context that motivated this work. Following a description of environment modeling tools, the second chapter introduces the multi-layer environment model proposed. The third chapter presents the path planning techniques from robotics research and details the two phases path planning process developed. The fourth introduce previous work on interactive path planning and control sharing techniques before to describe the interaction modes and control sharing techniques involved in our interactive path planner. Finally, last chapter introduces the experimentations performed with our path planner and analyses their results
APA, Harvard, Vancouver, ISO, and other styles
31

Nauleau, Florent. "Méthode des frontières immergées pour la simulation aux grandes échelles de véhicules de rentrée hypersoniques." Electronic Thesis or Diss., Bordeaux, 2023. http://www.theses.fr/2023BORD0477.

Full text
Abstract:
Les travaux de cette thèse consiste au développement de code de simulation pour le design de véhicule de rentrée atmosphérique. Le code mis à disposition est un code de frontières immergées, réduisant considérablement le temps de génération de maillage complexe. Plusieurs implémentations au sein du code permettent de réduire le temps de calcul tout en gagnant en précision. L'étude de phénomènes complexes se développant autour des objets simulés seront étudiés à l'aide d'analyse topologique, aidant au choix de méthode numérique à utiliser. D’un point de vue numérique, la conception d'un véhicule de rentrée atmosphérique pour sa tenue aérothermique, repose souvent sur des codes de calculs utilisant les équations de Navier-Stokes moyennées (RANS) et des maillages structurés body-fitted. Ces deux technologies permettent d'obtenir une représentation moyennée des phénomènes en un temps raisonnable. Cependant, l’utilisation d’un champ moyenné implique une moindre maîtrise des contraintes maximum qui pourraient s'appliquer sur le véhicule et la génération de ces maillages body-fitted est extrêmement coûteuse en temps. D’un point de vue visualisation, les méthodes traditionnelles d’analyse sont basées sur la géométrie des écoulements et des grandeurs moyennées à l’échelle du domaine. En raison des nombres de Mach et de Reynolds élevés et de la complexité géométrique des écoulements ces méthodes sont souvent poussées jusqu'aux limites de leur applicabilité, voire rendues obsolètes pour la segmentation et la comparaison de tourbillons. Cette thèse a pour but d'apporter des éléments de réponse aux préoccupations numériques et de visualisation scientifique citées précédemment. Pour améliorer les méthodes de frontières immergées, de nouveaux solveurs de Riemann et schémas de reconstruction d’ordre élevés, tels que les TENO et WENO ont été intégrés au sein d’un code de Simulation Numérique Directe (DNS). Pour réduire le coût en maillage des simulations DNS, le modèle de sous-maille 'Wall-Adapting Local Eddy-Viscosity' (WALE) a été implémenté. Ce modèle permet de réaliser des Simulations aux Grandes Échelles. Lors de ces simulations, on calcule les tourbillons les plus grands et on modélise les petits. La capture de la couche limite, c’est-à-dire des effets aérodynamiques et thermiques à la paroi du véhicule, est investiguée en proposant des lois de paroi pour des régimes de vol hypersoniques. Ces modèles de parois permettront de réduire le nombre de mailles et ainsi le coût de calculs en modélisant la couche limite. L’analyse topologique des données est une approche émergente particulièrement intéressante pour appréhender la quantité et la complexité des données générées en aérodynamique. Ce domaine, issu de l’informatique et des mathématiques appliquées, propose d’extraire, de mesurer et de comparer des informations structurelles cachées au sein de grands volumes de données complexes. Basée sur des techniques de projection et de réduction de dimensions ces approches permettent d’extraire des caractéristiques sur les données qui sont difficilement identifiables dans un espace géométrique et viennent compléter les fonctionnalités des logiciels de visualisation haute-performance tel que Paraview. Des protocoles d’analyse topologique ont été proposés pour comparer et valider les nouveaux solveurs de Riemann, les reconstructions d'ordre élevés implémentées dans le cadre de cette thèse. Ces protocoles sont appliqués sur des turbulences 2D et nous ont permis de choisir les couples de solveur de Riemann et de reconstructions d'ordre élevé pour réduire le coût de calcul des simulations tout en gardant une bonne précision pour la description des phénomènes étudiés
The aim of this thesis is to develop a simulation code for the design of atmospheric reentry vehicles. The code used is an immersed boundary code, which considerably reduces the time required to generate complex meshes. Several implementations within the code reduce computation time while increasing accuracy. The study of complex phenomena developing around simulated objects will be aided by topological analysis, helping in the choice of numerical method to be used. From a numerical point of view, the design of an atmospheric reentry vehicle for its aerothermal performance often relies on computational codes using averaged Navier-Stokes equations (RANS) and body-fitted structured meshes. These two technologies enable us to obtain an averaged representation of the phenomena in a reasonable time. However, the use of an averaged field implies less control over the maximum stresses that could be applied to the vehicle, and the generation of these body-fitted meshes is extremely time-consuming. From a visualization point of view, traditional analysis methods are based on flow geometry and field-averaged quantities. Due to high Mach and Reynolds numbers and the geometric complexity of flows, these methods are often pushed to the limits of their applicability, or even rendered obsolete for vortex segmentation and comparison. The aim of this thesis is to provide some answers to the above-mentioned numerical and scientific visualization concerns. To improve immersed boundary methods, new Riemann solvers and high-order reconstruction schemes such as TENO and WENO have been integrated within a Direct Numerical Simulation (DNS) code. To reduce the mesh cost of DNS simulations, the Wall-Adapting Local Eddy-Viscosity (WALE) subgrid-scale model has been implemented. This model able Large Eddy Simulation (LES) to be carried out. In these simulations, the larger vortices are computed and the smaller ones modeled. Boundary layer capture, i.e. aerodynamic and thermal effects at the vehicle wall, is investigated by proposing wall models for hypersonic flows. These wall models will make it possible to reduce the number of cells and thus the computational cost of modeling the boundary layer. Topological data analysis is a particularly interesting emerging approach to apprehend the quantity and complexity of data generated in aerodynamics. This field, born of computer science and applied mathematics, proposes to extract, measure and compare structural information hidden within large volumes of complex data. Based on projection and dimension reduction techniques, these approaches extract features from data that are difficult to identify in geometric space, and complement the functionalities of high-performance visualization software such as Paraview. Topological analysis protocols have been proposed to compare and validate the new Riemann solvers and high-order reconstructions implemented in this thesis. These protocols have been applied to 2D turbulence, and have enabled us to select pairs of Riemann solvers and high-order reconstructions to reduce the computational cost of simulations while maintaining good accuracy in describing the phenomena studied
APA, Harvard, Vancouver, ISO, and other styles
32

Peng, Tao. "Analyse de données loT en flux." Electronic Thesis or Diss., Aix-Marseille, 2021. http://www.theses.fr/2021AIXM0649.

Full text
Abstract:
Depuis l'avènement de l'IoT (Internet of Things), nous assistons à une augmentation sans précédent du volume des données générées par des capteurs. Pour l'imputation des données manquantes d'un capteur f, nous proposons le modèle ISTM (Incremental Space-Time Model), qui utilise la régression linéaire multiple incrémentale adaptée aux données en flux non-stationnaires. ISTM met à jour son modèle en sélectionnant : 1) les données des capteurs voisins géographiquement du capteur f, et 2) les données les plus récentes retournées par f. Pour mesurer la confiance, nous proposons un modèle générique de prédiction DTOM (Data Trustworthiness Online Model) qui s'appuie sur des méthodes ensemblistes de régression en ligne comme AddExp et BNNRW . DTOM permet de prédire des valeurs de confiance en temps réel et comporte trois phases : 1) une phase d'initialisation du modèle, 2) une phase d'estimation du score de confiance, et 3) une phase de mise à jour heuristique du régresseur. Enfin, nous nous intéressons à la prédiction dans une STS avec des sorties multiples en présence de déséquilibre, c'est à dire lorsqu'il y a plus d'instances dans un intervalle de valeurs que dans un autre. Nous proposons MORSTS, une méthode de régression ensembliste en ligne, avec les caractéristiques suivantes : 1) les sous-modèles sont à sorties multiples, 2) l'utilisation de la stratégie sensible aux coûts c'est à dire que l'instance incorrectement prédite a un poids plus élevé, et 3) le contrôle du sur-apprentissage des sous-modèles naissants par la méthode de validation croisée k-fold. Des expérimentations avec des données réelles ont été effectuées et comparées avec des techniques connues
Since the advent of the IoT (Internet of Things), we have witnessed an unprecedented growth in the amount of data generated by sensors. To exploit this data, we first need to model it, and then we need to develop analytical algorithms to process it. For the imputation of missing data from a sensor f, we propose ISTM (Incremental Space-Time Model), an incremental multiple linear regression model adapted to non-stationary data streams. ISTM updates its model by selecting: 1) data from sensors located in the neighborhood of f, and 2) the near-past most recent data gathered from f. To evaluate data trustworthiness, we propose DTOM (Data Trustworthiness Online Model), a prediction model that relies on online regression ensemble methods such as AddExp (Additive Expert) and BNNRW (Bagging NNRW) for assigning a trust score in real time. DTOM consists: 1) an initialization phase, 2) an estimation phase, and 3) a heuristic update phase. Finally, we are interested predicting multiple outputs STS in presence of imbalanced data, i.e. when there are more instances in one value interval than in another. We propose MORSTS, an online regression ensemble method, with specific features: 1) the sub-models are multiple output, 2) adoption of a cost sensitive strategy i.e. the incorrectly predicted instance has a higher weight, and 3) management of over-fitting by means of k-fold cross-validation. Experimentation with with real data has been conducted and the results were compared with reknown techniques
APA, Harvard, Vancouver, ISO, and other styles
33

Sibony, Eric. "Analyse mustirésolution de données de classements." Thesis, Paris, ENST, 2016. http://www.theses.fr/2016ENST0036/document.

Full text
Abstract:
Cette thèse introduit un cadre d’analyse multirésolution pour les données de classements. Initiée au 18e siècle dans le contexte d’élections, l’analyse des données de classements a attiré un intérêt majeur dans de nombreux domaines de la littérature scientifique : psychométrie, statistiques, économie, recherche opérationnelle, apprentissage automatique ou choix social computationel entre autres. Elle a de plus été revitalisée par des applications modernes comme les systèmes de recommandation, où le but est d’inférer les préférences des utilisateurs pour leur proposer les meilleures suggestions personnalisées. Dans ces contextes, les utilisateurs expriment leurs préférences seulement sur des petits sous-ensembles d’objets variant au sein d’un large catalogue. L’analyse de tels classements incomplets pose cependant un défi important, tant du point de vue statistique que computationnel, poussant les acteurs industriels à utiliser des méthodes qui n’exploitent qu’une partie de l’information disponible. Cette thèse introduit une nouvelle représentation pour les données, qui surmonte par construction ce double défi. Bien qu’elle repose sur des résultats de combinatoire et de topologie algébrique, ses nombreuses analogies avec l’analyse multirésolution en font un cadre naturel et efficace pour l’analyse des classements incomplets. Ne faisant aucune hypothèse sur les données, elle mène déjà à des estimateurs au-delà de l’état-de-l’art pour des petits catalogues d’objets et peut être combinée avec de nombreuses procédures de régularisation pour des larges catalogues. Pour toutes ces raisons, nous croyons que cette représentation multirésolution ouvre la voie à de nombreux développements et applications futurs
This thesis introduces a multiresolution analysis framework for ranking data. Initiated in the 18th century in the context of elections, the analysis of ranking data has attracted a major interest in many fields of the scientific literature : psychometry, statistics, economics, operations research, machine learning or computational social choice among others. It has been even more revitalized by modern applications such as recommender systems, where the goal is to infer users preferences in order to make them the best personalized suggestions. In these settings, users express their preferences only on small and varying subsets of a large catalog of items. The analysis of such incomplete rankings poses however both a great statistical and computational challenge, leading industrial actors to use methods that only exploit a fraction of available information. This thesis introduces a new representation for the data, which by construction overcomes the two aforementioned challenges. Though it relies on results from combinatorics and algebraic topology, it shares several analogies with multiresolution analysis, offering a natural and efficient framework for the analysis of incomplete rankings. As it does not involve any assumption on the data, it already leads to overperforming estimators in small-scale settings and can be combined with many regularization procedures for large-scale settings. For all those reasons, we believe that this multiresolution representation paves the way for a wide range of future developments and applications
APA, Harvard, Vancouver, ISO, and other styles
34

Sibony, Eric. "Analyse mustirésolution de données de classements." Electronic Thesis or Diss., Paris, ENST, 2016. http://www.theses.fr/2016ENST0036.

Full text
Abstract:
Cette thèse introduit un cadre d’analyse multirésolution pour les données de classements. Initiée au 18e siècle dans le contexte d’élections, l’analyse des données de classements a attiré un intérêt majeur dans de nombreux domaines de la littérature scientifique : psychométrie, statistiques, économie, recherche opérationnelle, apprentissage automatique ou choix social computationel entre autres. Elle a de plus été revitalisée par des applications modernes comme les systèmes de recommandation, où le but est d’inférer les préférences des utilisateurs pour leur proposer les meilleures suggestions personnalisées. Dans ces contextes, les utilisateurs expriment leurs préférences seulement sur des petits sous-ensembles d’objets variant au sein d’un large catalogue. L’analyse de tels classements incomplets pose cependant un défi important, tant du point de vue statistique que computationnel, poussant les acteurs industriels à utiliser des méthodes qui n’exploitent qu’une partie de l’information disponible. Cette thèse introduit une nouvelle représentation pour les données, qui surmonte par construction ce double défi. Bien qu’elle repose sur des résultats de combinatoire et de topologie algébrique, ses nombreuses analogies avec l’analyse multirésolution en font un cadre naturel et efficace pour l’analyse des classements incomplets. Ne faisant aucune hypothèse sur les données, elle mène déjà à des estimateurs au-delà de l’état-de-l’art pour des petits catalogues d’objets et peut être combinée avec de nombreuses procédures de régularisation pour des larges catalogues. Pour toutes ces raisons, nous croyons que cette représentation multirésolution ouvre la voie à de nombreux développements et applications futurs
This thesis introduces a multiresolution analysis framework for ranking data. Initiated in the 18th century in the context of elections, the analysis of ranking data has attracted a major interest in many fields of the scientific literature : psychometry, statistics, economics, operations research, machine learning or computational social choice among others. It has been even more revitalized by modern applications such as recommender systems, where the goal is to infer users preferences in order to make them the best personalized suggestions. In these settings, users express their preferences only on small and varying subsets of a large catalog of items. The analysis of such incomplete rankings poses however both a great statistical and computational challenge, leading industrial actors to use methods that only exploit a fraction of available information. This thesis introduces a new representation for the data, which by construction overcomes the two aforementioned challenges. Though it relies on results from combinatorics and algebraic topology, it shares several analogies with multiresolution analysis, offering a natural and efficient framework for the analysis of incomplete rankings. As it does not involve any assumption on the data, it already leads to overperforming estimators in small-scale settings and can be combined with many regularization procedures for large-scale settings. For all those reasons, we believe that this multiresolution representation paves the way for a wide range of future developments and applications
APA, Harvard, Vancouver, ISO, and other styles
35

Périnel, Emmanuel. "Segmentation en analyse de données symboliques : le cas de données probabilistes." Paris 9, 1996. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=1996PA090079.

Full text
Abstract:
Les méthodes de segmentation, ou d'arbre de décision, sont des techniques permettant d'expliquer une partition à priori d'une population d'objets décrite par des variables explicatives. Elles ont connu ces dernières années un net regain d'intérêt, aussi bien dans le domaine de la statistique que dans celui de l'apprentissage automatique en intelligence artificielle. Toutefois, ces méthodes sont souvent reconnues sensibles à une information dite imparfaite telle que, des erreurs de mesures, des imprécisions ou incertitudes, des jugements experts, ce phénomène résulte principalement du manque de flexibilité des langages de représentations employés pour décrire les objets étudiés, d'une part, et de la rigidité même du processus d'apprentissage (partitionnement récursif), d'autre part. Dans ce travail, nous proposons une méthodologie générale de construction d'arbre de décision appliquée à des données de nature probabiliste. Celles-ci sont représentées par des assertions probabilistes dans le contexte de l'analyse des données symboliques. Son langage de description, en offrant une représentation plus riche et complexe des objets étudiés, nous permet d'introduire plus de flexibilité dans le processus de segmentation. Le développement de l'arbre repose sur un critère de découpage basé sur la notion générale d'information ou de vraisemblance. La nature imprécise ou incertaine des données conduit, de façon naturelle, à la notion d'appartenance probabiliste des objets aux différents nœuds de l'arbre. La construction de l'arbre se présente alors sous la forme d'une succession de problèmes de mélange de lois de probabilité que l'on résout à l'aide d'un algorithme de type EM (espérance / maximisation). Nous faisons également le lien, dans un cadre probabiliste, entre la notion d'appartenance probabiliste précédente et celle consécutive à l'emploi d'une coupure souple ou floue. L'approche est illustrée sur un jeu de données médicales relatives à l'utilisation de marqueurs biologiques sur des types cellulaires, et dans l'objectif de caractériser le concept de système neuroendocrinien.
APA, Harvard, Vancouver, ISO, and other styles
36

Beaufils, Bertrand. "Topological Data Analysis and Statistical Learning for measuring pedestrian activities from inertial sensors." Thesis, université Paris-Saclay, 2020. http://www.theses.fr/2020UPASS107.

Full text
Abstract:
Cette thèse s’intéresse à la détection de mouvements spécifiques à partir du dispositif ActiMyo développé par la société Sysnav, système de capteurs inertiels miniatures bascoût pouvant se porté à la cheville et au poignet. En particulier, une approche d’apprentissage statistique supervisé vise à détecter les foulées dans les enregistrements cheville. Ce premier travail, combiné avec un algorithme breveté par l’entreprise Sysnav, permet de reconstruire la trajectoire du piéton. Cette trajectoire est ensuite utilisée dans une nouvelle méthode d’apprentissage supervisé pour la reconnaissance d’activité qui est une précieuse information notamment dans un contexte médical. Ces deux algorithmes proposent une approche innovante basée sur l’alignement des signaux inertiels et l’extraction d’intervalles candidats qui sont ensuite classés par l’algorithme de Gradient Boosting Trees. Le manuscrit présente également une architecture de réseaux de neurones combinant des channels de convolution et d’analyse topologique des données pour la détection de mouvements caractéristiques de la maladie de Parkinson tels que les tremblements et crises de dyskinésie
This thesis focuses on the detection of specific movements using ActiMyo, a device developed by the company Sysnav. This system is composed by low-cost miniature inertial sensors that can be worn on the ankle and wrist. In particular, a supervised statistical learning approach aims to detect strides in ankle recordings. This first work, combined with an algorithm patented by Sysnav, allows to compute the trajectory of the pedestrian. This trajectory is then used in a new supervised learning method for the activity recognition, which is valuable information, especially in a medical context. These two algorithms offer an innovative approach based on the alignment of inertial signals and the extraction of candidate intervals which are then classified by the Gradient Boosting Trees algorithm. This thesis also presents a neural network architecture combining convolutional channels and topological data analysis for the detection of movements representative of Parkinson’s disease such as tremors and dyskinesia crises
APA, Harvard, Vancouver, ISO, and other styles
37

Aaron, Catherine. "Connexité et analyse des données non linéaires." Phd thesis, Université Panthéon-Sorbonne - Paris I, 2005. http://tel.archives-ouvertes.fr/tel-00308495.

Full text
Abstract:
On s'intéresse dans cette thèse, à la mise en évidence des propriétés de connexité dans les données à analyser. Dans le cas de l'analyse des données ”classique” (i.e. linéaire), comme les surfaces de séparation des classes sont des hyperplans (des droites en dimension 2), la notion topologique sous-jacente est presque toujours la convexité. Au contraire dans tout ce qui suit, on cherche en priorité à segmenter les données en sous-ensembles (classes) connexes.
APA, Harvard, Vancouver, ISO, and other styles
38

Darlay, Julien. "Analyse combinatoire de données : structures et optimisation." Phd thesis, Université de Grenoble, 2011. http://tel.archives-ouvertes.fr/tel-00683651.

Full text
Abstract:
Cette thèse porte sur des problèmes d'exploration de données avec le point de vue de la recherche opérationnelle. L'exploration de données consiste en l'apprentissage de nouvelles connaissances à partir d'observations contenues dans une base de données. La nature des problèmes rencontrés dans ce domaine est proche de celle des problèmes de la recherche opérationnelle: grandes instances, objectifs complexes et difficulté algorithmique. L'exploration de données peut aussi se modéliser comme un problème d'optimisation avec un objectif partiellement connu. Cette thèse se divise en deux parties. La première est une introduction à l'exploration de données. Elle présente l'Analyse Combinatoire de Données (ACD), une méthode d'exploration de données issue de l'optimisation discrète. Cette méthode est appliquée à des données médicales originales et une extension aux problèmes d'analyse de temps de survie est proposée. L'analyse de temps de survie consiste à modéliser le temps avant un événement (typiquement un décès ou une rechute). Les heuristiques proposées utilisent des techniques classiques de recherche opérationnelle telles que la programmation linéaire en nombres entiers, la décomposition de problème, des algorithmes gloutons. La seconde partie est plus théorique et s'intéresse à deux problèmes combinatoires rencontrés dans le domaine de l'exploration de données. Le premier est un problème de partitionnement de graphes en sous-graphes denses pour l'apprentissage non supervisé. Nous montrons la complexité algorithmique de ce problème et nous proposons un algorithme polynomial basé sur la programmation dynamique lorsque le graphe est un arbre. Cet algorithme repose sur des résultats de la théorie des couplages. Le second problème est une généralisation des problèmes de couverture par les tests pour la sélection d'attributs. Les lignes d'une matrice sont coloriées en deux couleurs. L'objectif est de trouver un sous-ensemble minimum de colonnes tel que toute paire de lignes avec des couleurs différentes restent distinctes lorsque la matrice est restreinte au sous-ensemble de colonnes. Nous montrons des résultats de complexité ainsi que des bornes serrées sur la taille des solutions optimales pour différentes structures de matrices.
APA, Harvard, Vancouver, ISO, and other styles
39

Operto, Grégory. "Analyse structurelle surfacique de données fonctionnelles cétrébrales." Aix-Marseille 3, 2009. http://www.theses.fr/2009AIX30060.

Full text
Abstract:
Les images fonctionnelles par résonance magnétique contiennent une mesure de l'activité cérébrale en chaque point du cerveau. Si de nombreuses méthodes existent, l'analyse automatique de ces données reste un problème ouvert. Notamment, la très grande majorité des méthodes considère ces données de façon volumique, dans le domaine 3D d'acquisition. Pourtant, l'essentiel de l'activité a lieu dans le cortex, qui peut être considéré comme une surface. Considérer les données sur la surface corticale présente beaucoup d'avantages : d'une part sa géométrie peut être prise en compte dans toutes les étapes de traitement, d'autre part la prise en compte de l'ensemble du volume réduit le pouvoir de détection des tests statistiques généralement employés. Cette thèse propose ainsi une extension du champ d'application des méthodes volumiques vers le domaine surfacique en abordant la projection des données sur la surface, l'analyse multi-sujets ainsi que l'estimation de la validité des résultats
Functional data acquired by magnetic resonance contain a measure of the activity in every location of the brain. If many methods exist, the automatic analysis of these data remains an open problem. In particular, the huge majority of these methods consider these data in a volume-based fashion, in the 3D acquisition space. However, most of the activity is generated within the cortex, which can be considered as a surface. Considering the data on the cortical surface has many advantages : on one hand, its geometry can be taken into account in every processing step, on the other hand considering the whole volume reduces the detection power of usually employed statistical tests. This thesis hence proposes an extension of the application field of volume-based methods to the surface-based domain by adressing problems such as projecting data onto the surface, performing surface-based multi-subjects analysis, and estimating results validity
APA, Harvard, Vancouver, ISO, and other styles
40

Le, Béchec Antony. "Gestion, analyse et intégration des données transcriptomiques." Rennes 1, 2007. http://www.theses.fr/2007REN1S051.

Full text
Abstract:
Dans le cadre de l'étude des mécanismes moléculaires impliqués dans les processus biologiques liés aux pathologies, la transcriptomique permet d’étudier l’expression de plusieurs milliers de gènes en une seule expérience. Les standards internationaux permettent actuellement de gérer la grande quantité de données générées par cette technologie et de nombreux algorithmes permettent le traitement et l’analyse des données d’expression. Le grand défi d’aujourd’hui réside dans l’interprétation des données, notamment par l’intégration de connaissances biologiques supplémentaires permettant la création d’un contexte d’étude aidant à la compréhension des mécanismes biologiques. Afin de répondre aux besoins liés à l’exploitation de ces données transcriptomiques, un environnement complet et évolutif a été développé, M@IA (Micro@rray Integrated Application), permettant de gérer les expériences de puces à ADN mais également traiter et analyser les données d’expression. Une méthode de biologie intégrative combinant de multiples sources de données a été conçue pour exploiter des listes de gènes différentiellement exprimés par l’interprétation de réseaux de gènes représentés sous forme de graphes d’interaction. Egalement, une méthode de méta-analyse de données d’expression de gènes issues de la bibliographie a permis de sélectionner et combiner des études similaires associées à la progression tumorale du foie. En conclusion, ces travaux s’intègrent totalement à l’actuel développement de la biologie intégrative, indispensable à la résolution des mécanismes physiopathologiques
Aiming at a better understanding of diseases, transcriptomic approaches allow the analysis of several thousands of genes in a single experiment. To date, international standard initiatives have allowed the utilization of large quantity of data generated using transcriptomic approaches by the whole scientific community, and a large number of algorithms are available to process and analyze the data sets. However, the major challenge remaining to tackle is now to provide biological interpretations to these large sets of data. In particular, their integration with additional biological knowledge would certainly lead to an improved understanding of complex biological mechanisms. In my thesis work, I have developed a novel and evolutive environment for the management and analysis of transcriptomic data. Micro@rray Integrated Application (M@IA) allows for management, processing and analysis of large scale expression data sets. In addition, I elaborated a computational method to combine multiple data sources and represent differentially expressed gene networks as interaction graphs. Finally, I used a meta-analysis of gene expression data extracted from the literature to select and combine similar studies associated with the progression of liver cancer. In conclusion, this work provides a novel tool and original analytical methodologies thus contributing to the emerging field of integrative biology and indispensable for a better understanding of complex pathophysiological processes
APA, Harvard, Vancouver, ISO, and other styles
41

Abdali, Abdelkebir. "Systèmes experts et analyse de données industrielles." Lyon, INSA, 1992. http://www.theses.fr/1992ISAL0032.

Full text
Abstract:
L'analyse du fonctionnement des Systèmes de Production Industrielle s'appuie sur des informations de natures diverses. Une bonne partie d'entre elles se présentant sous forme numérisée, on leur applique des méthodes d'analyse des données dont les résultats doivent être confrontés, puis interprétés à l'aide des autres connaissances. Notre travail s'insère dans le cadre de l'application des techniques de l'Intelligence Artificielle à la Statistique. Il vise en particulier à étudier la faisabilité et le développement d'un Système Expert Statistique dans le domaine des Systèmes de Production Industrielle. Nous avons élaboré ALADIN (Aide Logicielle pour l'Analyse de Données Industrielles), un système destiné à aider un utilisateur non-spécialiste à analyser des données recueillies sur des procédés industriels. L'architecture de ce système est flexible et allie aspect qualitatif (connaissances sur les procédés industriels et connaissances sur les méthodes statistiques et d'analyse de données) et aspect quantitatif (collection de programmes d'analyse). Pour l'instant, nous nous sommes limités aux problèmes d'Analyse en Composantes Principales. Outre l'aspect industriel, ALADIN présente l'avantage de fournir une assistance au niveau de chacun des nombreux maillons de la conduite d'une analyse de données et particulièrement en amont de l'analyse proprement dite i. E. Lors de la phase de prétraitement et de préparation des données: cette étape, toujours nécessaire compte tenu de la nature des mesures, est en effet généralement longue et fastidieuse
To analyses industrial process behavio, many kinds of information are needed. As tye ar mostly numerical, statistical and data analysis methods are well-suited to this activity. Their results must be interpreted with other knowledge about analysis prcess. Our work falls within the framework of the application of the techniques of the Artificial Intelligence to the Statistics. Its aim is to study the feasibility and the development of statistical expert systems in an industrial process field. The prototype ALADIN is a knowledge-base system designed to be an intelligent assistant to help a non-specialist user analyze data collected on industrial processes, written in Turbo-Prolong, it is coupled with the statistical package MODULAD. The architecture of this system is flexible and combing knowledge with general plants, the studied process and statistical methods. Its validation is performed on continuous manufacturing processes (cement and cast iron processes). At present time, we have limited to principal Components analysis problems
APA, Harvard, Vancouver, ISO, and other styles
42

David, Claire. "Analyse de XML avec données non-bornées." Paris 7, 2009. http://www.theses.fr/2009PA077107.

Full text
Abstract:
Cette thèse est motivée par la spécification et l'analyse de schémas XML, en se focalisant sur données présentes dans les documents. On s'intéresse à des structure de mots et d'arbres dont chaque position ou noeud est étiqueté à la fois par une lettre provenant d'un alphabet fini et par une donnée provenant d'un domaine potentiellement infini muni d'une relation d'égalité. Le travail de cette thèse a été de proposer et étudier des formalismes permettant de spécifier des langages de mots/d'arbres de données et dont le problème de satisfaisabilité soit décidable. Toute la difficulté est de trouver un compromis entre expressivité, décidabilité (et complexité). Une première approche consiste à étendre la logique du premier ordre à l'aide d'un prédicat binaire testant l'égalité de données. On étudie la frontière de décidabilité ainsi que la complexité du problème de satisfaisabilité pour différents fragments/extensions de cette logique et on fait le lien avec la spécification de schémas. Cette approche est élégante et générique, malheureusement les complexités obtenues extrêmement élevées. Afin d'obtenir des résultats de complexité plus raisonnables, on étudie un formalisme basé sur des combinaisons booléennes d'objets appelés "patterns". On s'intéresse encore une fois à la frontière de décidabilité et la complexité du problème de satisfaisabilité, au problème de model-checking. Les complexités obtenues sont plus encourageantes. En terme d'expressivité, ce formalisme est incomparable au précédent, on explicite les liens par rapport aux schémas XML
The motivation of the work is the specification and static analysis of schema for XML documents paying special attention to data values. We consider words and trees whose positions are labeled both by a letter from a finite alphabet and a data value from an infinite domain. Our goal is to find formalisms which offer good trade-offs between expressibility, decidability and complexity (for the satisfiability problem). We first study an extension of first-order logic with a binary predicate representing data equality. We obtain interesting some interesting results when we consider the two variable fragment. This appraoch is elegant but the complexity results are not encouraging. We proposed another formalism based data patterns which can be desired, forbidden or any boolean combination thereof. We drw precisely the decidability frontier for various fragments on this model. The complexity results that we get, while still high, seems more amenable. In terms of expressivity theses two approaches are orthogonal, the two variable fragment of the extension of FO can expressed unary key and unary foreign key while the boolean combination of data pattern can express arbitrary key but can not express foreign key
APA, Harvard, Vancouver, ISO, and other styles
43

Carvalho, Francisco de. "Méthodes descriptives en analyse de données symboliques." Paris 9, 1992. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=1992PA090025.

Full text
Abstract:
L'analyse des données symboliques se propose d'étendre la problématique, les méthodes et les algorithmes de l'analyse des données au traitement de connaissances souvent complexes, représentées par les objets symboliques. Dans ce cadre, nous étendons des outils de description couramment utilisés en analyse des données, tels que des histogrammes et des indices de proximité, à la description d'une base de connaissances d'objets symboliques. A partir de l'étude du potentiel de description d'un objet symbolique, nous avons étendu la notion d'histogramme aux variables choisies pour décrire une base de connaissances d'objets symboliques. Nous avons constaté l'importance de certains types de dépendance logique entre les variables sur les résultats obtenus. Nous avons également étudié l'interprétation de ces histogrammes. Pour mesurer la proximité entre les objets symboliques nous avons pu, sous l'angle du potentiel de description, adapter à ces objets les indices de proximité conçus pour les variables binaires, ainsi que l'indice de Minkowski. Cette approche nous a permis d'utiliser la même mesure de proximité indépendamment du type de variable. Nous avons étudié quelques propriétés des indices proposés et nous avons pu établir l'équivalence entre quelques-uns de ces indices. Ces indices tiennent compte des dépendances logiques entre variables. Enfin, nous avons adapté l'algorithme général de classification ascendante hiérarchique pour obtenir une classification d'objets symboliques. Par rapport aux méthodes usuelles de l'analyse des données, nous obtenons une description immédiate de chaque palier par un objet symbolique, nous avons un indice d'agrégation qui est le même aussi bien pour les singletons que pour les paliers, et nous employons un indicage basé sur le potentiel de description de l'objet symbolique décrivant le palier. Nous fournissons aussi une aide à l'interprétation de l'arbre de classification basée sur la re-description des fils de chaque nœud de l'arbre par les variables qui les discriminent
APA, Harvard, Vancouver, ISO, and other styles
44

Royer, Jean-Jacques. "Analyse multivariable et filtrage des données régionalisées." Vandoeuvre-les-Nancy, INPL, 1988. http://www.theses.fr/1988NAN10312.

Full text
Abstract:
Ce travail est consacré à l'analyse multivariable et au filtrage des données régionalisées. On définit un indice de proximité entre échantillons. Une technique de filtrage basée sur l'analyse structurale, la déconvolution géostatistique, a été utilisée pour estimer la fonction de transfert ou identifier le signal de sortie. Le principe de la méthode repose sur le calcul au préalable des fonctions de covariance des signaux d'entrée et de sortie. Par ailleurs une relation théorique reliant la matrice de covariance des erreurs à la granulométrie du milieu étudié est démontrée
APA, Harvard, Vancouver, ISO, and other styles
45

Faye, Papa Abdoulaye. "Planification et analyse de données spatio-temporelles." Thesis, Clermont-Ferrand 2, 2015. http://www.theses.fr/2015CLF22638/document.

Full text
Abstract:
La Modélisation spatio-temporelle permet la prédiction d’une variable régionalisée à des sites non observés du domaine d’étude, basée sur l’observation de cette variable en quelques sites du domaine à différents temps t donnés. Dans cette thèse, l’approche que nous avons proposé consiste à coupler des modèles numériques et statistiques. En effet en privilégiant l’approche bayésienne nous avons combiné les différentes sources d’information : l’information spatiale apportée par les observations, l’information temporelle apportée par la boîte noire ainsi que l’information a priori connue du phénomène. Ce qui permet une meilleure prédiction et une bonne quantification de l’incertitude sur la prédiction. Nous avons aussi proposé un nouveau critère d’optimalité de plans d’expérience incorporant d’une part le contrôle de l’incertitude en chaque point du domaine et d’autre part la valeur espérée du phénomène
Spatio-temporal modeling allows to make the prediction of a regionalized variable at unobserved points of a given field, based on the observations of this variable at some points of field at different times. In this thesis, we proposed a approach which combine numerical and statistical models. Indeed by using the Bayesian methods we combined the different sources of information : spatial information provided by the observations, temporal information provided by the black-box and the prior information on the phenomenon of interest. This approach allowed us to have a good prediction of the variable of interest and a good quantification of incertitude on this prediction. We also proposed a new method to construct experimental design by establishing a optimality criterion based on the uncertainty and the expected value of the phenomenon
APA, Harvard, Vancouver, ISO, and other styles
46

Jamal, Sara. "Analyse spectrale des données du sondage Euclid." Thesis, Aix-Marseille, 2017. http://www.theses.fr/2017AIXM0263.

Full text
Abstract:
Les futurs sondages à grande échelle, comme la mission Euclid, produiront un large set de données qui nécessitera la mise en place de chaînes de traitement complètement automatisées pour analyser les données, extraire l'information et s'assurer que l'ensemble des exigences est respecté. À partir des données collectées, le redshift est une quantité essentielle à mesurer. Des méthodes distinctes pour l'estimation de redshift existent dans la littérature, mais il n'y a pas à l'heure actuelle une définition d'un critère de qualité automatisé pour juger de la fiabilité d'une mesure de redshift spectroscopique. Dans ce travail, nous avons présenté les techniques usuelles de l'analyse spectrale, comme le filtrage et l'extraction du continu, qui peuvent être réalisées en amont de l'estimation du redshift. Puis, nous nous sommes en grande partie intéressés à la problématique de prise de décision quant à l'évaluation de la fiabilité d'une mesure de redshift en développant une nouvelle méthodologie qui exploite les algorithmes de Machine Learning (ML) et les caractéristiques de la fonction de densité en probabilité du redshift (zPDF) définie dans un cadre bayésien.Notre idée consiste à quantifier, via le ML et des descripteurs des zPDFs, la fiabilité d'une mesure de redshift au sein de partitions distinctes qui décrivent différents niveaux de confiance. Par ex. une estimation de redshift obtenue à partir d'une zPDF multimodale ne dépeint pas le même niveau de confiance que celle obtenue à partir d'une zPDF unimodale. Nous estimons que cette nouvelle méthodologie pourra être exploitée dans le cadre de futurs sondages spectroscopiques à grande échelle comme Euclid
Large-scale surveys, as Euclid, will produce a large set of data that will require the development of fully automated data-processing pipelines to analyze the data, extract crucial information and ensure that all requirements are met. From a survey, the redshift is an essential quantity to measure. Distinct methods to estimate redshifts exist in the literature but there is no fully-automated definition of a reliability criterion for redshift measurements. In this work, we first explored common techniques of spectral analysis, as filtering and continuum extraction, that could be used as preprocessing to improve the accuracy of spectral features measurements, then focused on developing a new methodology to automate the reliability assessment of spectroscopic redshift measurements by exploiting Machine Learning (ML) algorithms and features of the posterior redshift probability distribution function (PDF). Our idea consists in quantifying, through ML and zPDFs descriptors, the reliability of a redshift measurement into distinct partitions that describe different levels of confidence. For example, a multimodal zPDF refers to multiple (plausible) redshift solutions possibly with similar probabilities, while a strong unimodal zPDF with a low dispersion and a unique and prominent peak depicts of a more "reliable" redshift estimate. We assess that this new methodology could be very promising for next-generation large spectroscopic surveys on the ground and space such as Euclid and WFIRST
APA, Harvard, Vancouver, ISO, and other styles
47

Bobin, Jérôme. "Diversité morphologique et analyse de données multivaluées." Paris 11, 2008. http://www.theses.fr/2008PA112121.

Full text
APA, Harvard, Vancouver, ISO, and other styles
48

Lambert, Thierry. "Réalisation d'un logiciel d'analyse de données." Paris 11, 1986. http://www.theses.fr/1986PA112274.

Full text
APA, Harvard, Vancouver, ISO, and other styles
49

Marie, Romain. "Exploration autonome et construction de cartes topologiques référencées vision omnidirectionnelle." Amiens, 2014. https://theses.hal.science/tel-04515697.

Full text
Abstract:
Dans ce travail, nous abordons l'exploration autonome d'un robot mobile terrestre et la construction de carte topologique en environnement inconnu, à partir d'un capteur de vision catadioptrique. L'image acquise à chaque instant permet de générer différentes représentations locales, qui offrent au robot une interprétation de la scène dans laquelle il évolue. D'un côté, un algorithme de squelettisation original est appliqué à l'espace navigable extrait dans l'image, et permet de caractériser la topologie de l'espace libre proximal. De l'autre, une signature de lieu est construite à partir du complément de l'espace navigable, afin de ne considérer que l'information photométrique la plus riche. Cette seconde représentation permet au robot d'indexer l'environnement en un ensemble de lieux, et de se localiser tout au long de sa mission. Ces représentations sont ensuite structurées sous la forme d'une carte topologique, qui, en fournissant un modèle de l'environnement, offre des possibilités comportementales élaborées (permettant notamment de répondre aux problématiques de couverture de l'espace)
In this work, we address the problem of autonomous exploration and topological map building in totally unknown environments for a mobile robot equipped with a sole catadioptric sensor. Multiple local representations for spatial knowledge are built upon visual information only. First, we develop an adaptated skeletonization algorithm. Applied on the extracted free space in the image, it carries the topological properties of the observed scene, and describes safe trajectories in the environment. Second, we propose a visual signature using the complement of the free space in the image, so that only the most relevant photometric information is considered. Using this representation, the robot can map the environment into a collection of places, and use them to keep track of its localization. The built representations are then organized in a topological map of the environment, which allows the robot to handle high-level behaviours (leading for instance to a structured exploration and coverage of the environment)
APA, Harvard, Vancouver, ISO, and other styles
50

Fraisse, Bernard. "Automatisation, traitement du signal et recueil de données en diffraction x et analyse thermique : Exploitation, analyse et représentation des données." Montpellier 2, 1995. http://www.theses.fr/1995MON20152.

Full text
Abstract:
La recherche en chimie du solide necessite l'utilisation et la maitrise de techniques indispensables telles que la diffraction des rayons x et l'analyse thermique. Tout en ameliorant leurs performances, l'automatisation des appareils classiques permet a un grand nombre de laboratoires d'acceder a ces techniques pour un cout modeste. Cette derniere n'a pu etre envisagee qu'apres le developpement d'outils informatiques, en particulier les bibliotheques de communication entre le micro-ordinateur et les differents peripheriques. Les logiciels d'acquisition, d'exploitation, de representation tridimensionnelle et de comparaison des diffractogrammes de rayons x avec ceux contenus dans un fichier de references, ont ete concus et ecrits au laboratoire. De plus, la realisation de chambres de mesures autorise l'enregistrement des diffractogrammes en fonction de la temperature. L'experience acquise a pu etre appliquee a l'analyse thermique: les logiciels ecrits permettent respectivement l'acquisition et l'exploitation des diagrammes d'analyse thermique, directe et differentielle
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography