Conecte-se

Bibliografias temáticas / Analyse non-supervisée / Teses / dissertações

Teses / dissertações sobre o tema "Analyse non-supervisée"

Siga este link para ver outros tipos de publicações sobre o tema: Analyse non-supervisée.

Autor: Grafiati

Publicado: 25 de maio de 2024

Última modificação: 15 de junho de 2024

Crie uma referência precisa em APA, MLA, Chicago, Harvard, e outros estilos

Selecione um tipo de fonte:

Veja os 50 melhores trabalhos (teses / dissertações) para estudos sobre o assunto "Analyse non-supervisée".

Ao lado de cada fonte na lista de referências, há um botão "Adicionar à bibliografia". Clique e geraremos automaticamente a citação bibliográfica do trabalho escolhido no estilo de citação de que você precisa: APA, MLA, Harvard, Chicago, Vancouver, etc.

Você também pode baixar o texto completo da publicação científica em formato .pdf e ler o resumo do trabalho online se estiver presente nos metadados.

Veja as teses / dissertações das mais diversas áreas científicas e compile uma bibliografia correta.

1

Goubet, Étienne. "Contrôle non destructif par analyse supervisée d'images 3D ultrasonores". Cachan, Ecole normale supérieure, 1999. http://www.theses.fr/1999DENS0011.

Texto completo da fonte

Resumo:

L'objet de cette thèse consiste en l'élaboration d'une chaine de traitements permettant d'extraire l'information utile de données 3d ultrasonores et de caractériser les défauts éventuellement présents dans la pièce inspectée. Cette caractérisation a été abordée pour des fissures contrôlées par un même émetteur/récepteur. Dans une première partie nous rappelons les principes du contrôle non destructif par ultrasons ainsi que les représentations classiques des données ultrasonores. La deuxième partie est consacrée à l'étude d'un modèle d'extraction de l'information d'échos présents sur les données au moyen d'une base d'ondelettes adaptée. L'utilisation d'une ondelette unique translatée dans le temps est rendue possible par un travail sur une représentation complexe des données réelles originales. Une première étape permet de détecter et de positionner les échos d'amplitude significative. Dans un deuxième temps, on effectue une régularisation spatialement cohérente des instants de détection à l'aide d'un modèle markovien. On élimine ainsi les échos dont les instants de détection ne font pas partie de surfaces d'instants régulières. Les parties suivantes traitent de la localisation et du dimensionnement des fissures. On utilise des caractéristiques extraites du faisceau ultrasonore afin de déterminer le trajet de l'onde ultrasonore du capteur à l'objet diffractant lorsque la réponse de l'écho est maximale. On met en correspondance l'instant de détection obtenu pour cet écho et le temps de parcours selon le trajet défini afin de positionner un point d'arête dans la pièce. On obtient ainsi un ensemble de points de discrétisation pour chaque arête. Dans le cadre de données 3d obtenues sur un matériau isotrope, on élimine les points d'arête extrêmes en utilisant un critère de comparaison sur les courbes échodynamiques associées aux points de détection sur les données réelles et sur des données simulées équivalentes. La localisation est abordée pour des fissures situées dans un matériau isotrope ou acier revêtu d'anisotrope.

Estilos ABNT, Harvard, Vancouver, APA, etc.

2

Huck, Alexis. "Analyse non-supervisée d’images hyperspectrales : démixage linéaire et détection d’anomalies". Aix-Marseille 3, 2009. http://www.theses.fr/2009AIX30036.

Texto completo da fonte

Resumo:

Cette thèse explore deux axes de recherche pour l'analyse non-supervisée d'Images HyperSpectrales (HSIs). Sous l'hypothèse du modèle de mélange linéaire de spectres, nous abordons d'abord la problématique du démixage par Factorisation en Matrices Non-négatives (NMF). D'une part, nous proposons de régulariser le problème en intégrant de l'information a priori spectrale et spatiale judicieuse, spécifique aux HSIs. D'autre part, nous proposons un estimateur du pas optimal pour la descente de gradient projeté. Nous montrons ainsi que, correctement régularisée, la NMF est un outil pertinent pour le démixage d'HSIs. Puis, nous explorons la problématique de la détection d'anomalies. Nous proposons un algorithme de Poursuite de Composantes Anormales (PCA), basé simultanément sur la poursuite de projections et sur un modèle probabiliste avec test d'hypothèses. Ainsi, la PCA détecte les anomalies à taux de fausse alarme constant et les discrimine en classes spectralement homogènes
This thesis focusses on two research fields regarding unsupervised analysis of hyperspectral images (HSIs). Under the assumptions of the linear spectral mixing model, the formalism of Non-Negative Matrix Factorization is investigated for unmixing purposes. We propose judicious spectral and spatial a priori knowledge to regularize the problem. In addition, we propose an estimator for the projected gradient optimal step-size. Thus, suitably regularized NMF is shown to be a relevant approach to unmix HSIs. Then, the problem of anomaly detection is considered. We propose an algorithm for Anomalous Component Pursuit (ACP), simultaneously based on projection pursuit and on a probabilistic model and hypothesis testing. ACP detects the anomalies with a constant false alarm rate and discriminates them into spectrally homogeneous classes

Estilos ABNT, Harvard, Vancouver, APA, etc.

3

Leblanc, Brice. "Analyse non supervisée de données issues de Systèmes de Transport Intelligent-Coopératif". Thesis, Reims, 2020. http://www.theses.fr/2020REIMS014.

Texto completo da fonte

Resumo:

Cette thèse se situe dans le contexte des réseaux véhiculaires (VANET), et plus particulièrement dans le contexte des Systèmes de Transport Intelligent-Coopératif (STI-C). Ces systèmes échangent des informations pour améliorer la sécurité routière.Le but de cette thèse est d'introduire des outils d'analyse de données qui peuvent fournir aux opérateurs routiers des informations sur l'utilisation et état de leurs infrastructures. Par conséquent, ces informations peuvent contribuer à améliorer la sécurité routière. Nous identifions deux cas que nous voulons traiter : l'identification des profils de conduite et la détection des obstacles routiers.Pour traiter ces questions, nous proposons d'utiliser des approches d'apprentissage non supervisées : des méthodes de regroupement pour l'identification des profils de conduite, et la détection de changement de concept pour la détection des obstacles. Cette thèse présente trois contributions principales : une méthodologie nous permettant de transformer les données brutes des STI-C en un ensemble de trajectoires puis de données d'apprentissage ; l'utilisation de méthodes classiques de regroupement et des points d'intérêt pour les profils de conduite avec des expériences sur les données issues des appareils mobiles et des journaux du réseau ; et la prise en compte d'une foule de véhicules fournissant des journaux du réseau considérés comme flux de données en entrée d'algorithmes de détection de changement de concept pour reconnaître les obstacles routiers
This thesis takes place in the context of Vehicular Ad-hoc Networks (VANET), and more specifically the context of Cooperative-Intelligent Transport System (C-ITS). These systems are exchanging information to enhance road safety.The purpose of this thesis is to introduce data analysis tools that may provide road operators information on the usage/state of their infrastructures. Therefore, this information may help to improve road safety. We identify two cases we want to deal with: driving profile identification and road obstacle detection.For dealing with those issues, we propose to use unsupervised learning approaches: clustering methods for driving profile identification, and concept drift detection for obstacle detection. This thesis introduces three main contributions: a methodology allowing us to transform raw C-ITS data in, first, trajectory, and then, learning data-set; the use of classical clustering methods and Points Of Interests for driving profiles with experiments on mobile device data and network logs data; and the consideration of a crowd of vehicles providing network log data as data streams and considered as input of concept drift detection algorithms to recognize road obstacles

Estilos ABNT, Harvard, Vancouver, APA, etc.

4

Fontaine, Michaël. "Segmentation non supervisée d'images couleur par analyse de la connexité des pixels". Lille 1, 2001. https://pepite-depot.univ-lille.fr/LIBRE/Th_Num/2001/50376-2001-305-306.pdf.

Texto completo da fonte

Resumo:

Dans le cadre de la segmentation d'images couleur en régions, nous proposons une méthode originale qui considère que les régions sont définies comme des ensembles de pixels connexes appartenant à une même classe de pixels. Notre approche considère au même titre les propriétés de connexité et les propriétés colorimétriques des pixels afin de construire des classes qui peuvent être non équiprobables. Nous définissons le degré de connexité couleur d'un ensemble de pixels qui est une mesure de la connexité d'un ensemble de pixels dont les couleurs appartiennent à un intervalle de couleurs. Nous supposons que les pixels de chaque région de l'image peuvent être regroupés en une classe de pixels et qu'une classe est un ensemble de pixels dont le degré de connexité couleur présente une valeur remarquablement élevée. Toute la difficulté consiste à identifier ces ensembles. Pour cela, nous définissons une structure de donnée originale, la pyramide des degrés de connexité couleur PDCC, qui recense de manière organisée et hiérarchique les degrés de connexité couleur de tous les ensembles de pixels possibles que peut contenir une image et dont les couleurs appartiennent à des intervalles de couleurs parfaitement définis. Pour des raisons d'implantation, nous ne pouvons construire cette pyramide qu'en tenant compte de deux composantes trichromatiques parmi les trois disponibles. Nous décomposons alors l'image originale en trois images bichromatiques associées respectivement aux couples de composantes (R,G), (G,B) et (B,R) et nous construisons la PDCC pour chacune de ces images. Une méthode d'analyse de chaque PDCC est proposée afin de construire les noyaux des classes présentes dans chaque image bichromatique.

Estilos ABNT, Harvard, Vancouver, APA, etc.

5

Rafi, Selwa. "Chaînes de Markov cachées et séparation non supervisée de sources". Thesis, Evry, Institut national des télécommunications, 2012. http://www.theses.fr/2012TELE0020/document.

Texto completo da fonte

Resumo:

Le problème de la restauration est rencontré dans domaines très variés notamment en traitement de signal et de l'image. Il correspond à la récupération des données originales à partir de données observées. Dans le cas de données multidimensionnelles, la résolution de ce problème peut se faire par différentes approches selon la nature des données, l'opérateur de transformation et la présence ou non de bruit. Dans ce travail, nous avons traité ce problème, d'une part, dans le cas des données discrètes en présence de bruit. Dans ce cas, le problème de restauration est analogue à celui de la segmentation. Nous avons alors exploité les modélisations dites chaînes de Markov couples et triplets qui généralisent les chaînes de Markov cachées. L'intérêt de ces modèles réside en la possibilité de généraliser la méthode de calcul de la probabilité à posteriori, ce qui permet une segmentation bayésienne. Nous avons considéré ces méthodes pour des observations bi-dimensionnelles et nous avons appliqué les algorithmes pour une séparation sur des documents issus de manuscrits scannés dans lesquels les textes des deux faces d'une feuille se mélangeaient. D'autre part, nous avons attaqué le problème de la restauration dans un contexte de séparation aveugle de sources. Une méthode classique en séparation aveugle de sources, connue sous l'appellation "Analyse en Composantes Indépendantes" (ACI), nécessite l'hypothèse d'indépendance statistique des sources. Dans des situations réelles, cette hypothèse n'est pas toujours vérifiée. Par conséquent, nous avons étudié une extension du modèle ACI dans le cas où les sources peuvent être statistiquement dépendantes. Pour ce faire, nous avons introduit un processus latent qui gouverne la dépendance et/ou l'indépendance des sources. Le modèle que nous proposons combine un modèle de mélange linéaire instantané tel que celui donné par ACI et un modèle probabiliste sur les sources avec variables cachées. Dans ce cadre, nous montrons comment la technique d'Estimation Conditionnelle Itérative permet d'affaiblir l'hypothèse usuelle d'indépendance en une hypothèse d'indépendance conditionnelle
The restoration problem is usually encountered in various domains and in particular in signal and image processing. It consists in retrieving original data from a set of observed ones. For multidimensional data, the problem can be solved using different approaches depending on the data structure, the transformation system and the noise. In this work, we have first tackled the problem in the case of discrete data and noisy model. In this context, the problem is similar to a segmentation problem. We have exploited Pairwise and Triplet Markov chain models, which generalize Hidden Markov chain models. The interest of these models consist in the possibility to generalize the computation procedure of the posterior probability, allowing one to perform bayesian segmentation. We have considered these methods for two-dimensional signals and we have applied the algorithms to retrieve of old hand-written document which have been scanned and are subject to show through effect. In the second part of this work, we have considered the restoration problem as a blind source separation problem. The well-known "Independent Component Analysis" (ICA) method requires the assumption that the sources be statistically independent. In practice, this condition is not always verified. Consequently, we have studied an extension of the ICA model in the case where the sources are not necessarily independent. We have introduced a latent process which controls the dependence and/or independence of the sources. The model that we propose combines a linear instantaneous mixing model similar to the one of ICA model and a probabilistic model on the sources with hidden variables. In this context, we show how the usual independence assumption can be weakened using the technique of Iterative Conditional Estimation to a conditional independence assumption

Estilos ABNT, Harvard, Vancouver, APA, etc.

6

RAFI, Selwa. "Chaînes de Markov cachées et séparation non supervisée de sources". Phd thesis, Institut National des Télécommunications, 2012. http://tel.archives-ouvertes.fr/tel-00995414.

Texto completo da fonte

Resumo:

Le problème de la restauration est rencontré dans domaines très variés notamment en traitement de signal et de l'image. Il correspond à la récupération des données originales à partir de données observées. Dans le cas de données multidimensionnelles, la résolution de ce problème peut se faire par différentes approches selon la nature des données, l'opérateur de transformation et la présence ou non de bruit. Dans ce travail, nous avons traité ce problème, d'une part, dans le cas des données discrètes en présence de bruit. Dans ce cas, le problème de restauration est analogue à celui de la segmentation. Nous avons alors exploité les modélisations dites chaînes de Markov couples et triplets qui généralisent les chaînes de Markov cachées. L'intérêt de ces modèles réside en la possibilité de généraliser la méthode de calcul de la probabilité à posteriori, ce qui permet une segmentation bayésienne. Nous avons considéré ces méthodes pour des observations bi-dimensionnelles et nous avons appliqué les algorithmes pour une séparation sur des documents issus de manuscrits scannés dans lesquels les textes des deux faces d'une feuille se mélangeaient. D'autre part, nous avons attaqué le problème de la restauration dans un contexte de séparation aveugle de sources. Une méthode classique en séparation aveugle de sources, connue sous l'appellation "Analyse en Composantes Indépendantes" (ACI), nécessite l'hypothèse d'indépendance statistique des sources. Dans des situations réelles, cette hypothèse n'est pas toujours vérifiée. Par conséquent, nous avons étudié une extension du modèle ACI dans le cas où les sources peuvent être statistiquement dépendantes. Pour ce faire, nous avons introduit un processus latent qui gouverne la dépendance et/ou l'indépendance des sources. Le modèle que nous proposons combine un modèle de mélange linéaire instantané tel que celui donné par ACI et un modèle probabiliste sur les sources avec variables cachées. Dans ce cadre, nous montrons comment la technique d'Estimation Conditionnelle Itérative permet d'affaiblir l'hypothèse usuelle d'indépendance en une hypothèse d'indépendance conditionnelle

Estilos ABNT, Harvard, Vancouver, APA, etc.

7

Cutrona, Jérôme. "Analyse de forme des objets biologiques : représentation, classification et suivi temporel". Reims, 2003. http://www.theses.fr/2003REIMS018.

Texto completo da fonte

Resumo:

En biologie, les relations entre la forme, élément majeur de la vision par ordinateur, et la fonction ont depuis longtemps été mises en évidence. Cette thèse présente une chaîne de traitement permettant d'aboutir à la classification non supervisée de formes, au suivi de déformation et à la classification supervisée de populations d'objets. Nous proposons dans un premier temps une contribution en segmentation automatique basée sur une procédure de classification floue, ainsi que deux méthodes semi-automatiques s'appuyant sur la connectivité floue et les lignes de partage des eaux. Nous menons ensuite une étude sur plusieurs descripteurs de la forme des objets utilisant des primitives et des anti-primitives, le contour , la silhouette et la courbure multi-échelle. Après mise en correspondance, les descripteurs sont soumis à une analyse statistique pour mettre en évidence les modes de variations au sein des échantillons. Le modèle statistique obtenu est à la base des applications proposées
N biology, the relationship between shape, a major element in computer vision, and function has been emphasized since a long time. This thesis proposes a processing line leading to unsupervised shape classification, deformation tracking and supervised classification of whole population of objects. We first propose a contribution to unsupervised segmentation based on a fuzzy classification method and two semi-automatic methods founded on fuzzy connectedness and watersheds. Next, we perform a study on several shape descriptors including primitives and anti-primitives, contour, silhouete and multi-scale curvature. After shape matching, the descriptors are submitted to statistical analysis to highlight the modes of variations within the samples. The obtained statistical model is the basis of the proposed applications

Estilos ABNT, Harvard, Vancouver, APA, etc.

8

Boubou, Mounzer. "Contribution aux méthodes de classification non supervisée via des approches prétopologiques et d'agrégation d'opinions". Phd thesis, Université Claude Bernard - Lyon I, 2007. http://tel.archives-ouvertes.fr/tel-00195779.

Texto completo da fonte

Resumo:

Le travail de thèse a porté sur une réflexion relative aux méthodes de classification automatique des données pour lesquelles il est bien connu qu'un effet « méthode » existe. Après une première partie qui présente la problématique générale de l'analyse des données et propose un survey des méthodes de classification, les travaux originaux de la thèse sont exposés. Ils relèvent de trois approches interconnectées : une approche basée sur l'agrégation d'opinions, une approche prétopologique et une approche basée sur l'agrégation des préférences. Chacune de ces approches se fonde sur un paradigme différent et propose une nouvelle vision des techniques de classification permettant d'apporter éventuellement de l'information exogène dans la méthode.

Estilos ABNT, Harvard, Vancouver, APA, etc.

9

Ta, Minh Thuy. "Techniques d'optimisation non convexe basée sur la programmation DC et DCA et méthodes évolutives pour la classification non supervisée". Electronic Thesis or Diss., Université de Lorraine, 2014. http://www.theses.fr/2014LORR0099.

Texto completo da fonte

Resumo:

Nous nous intéressons particulièrement, dans cette thèse, à quatre problèmes en apprentissage et fouille de données : clustering pour les données évolutives, clustering pour les données massives, clustering avec pondération de variables et enfin le clustering sans connaissance a priori du nombre de clusters avec initialisation optimale des centres de clusters. Les méthodes que nous décrivons se basent sur des approches d’optimisation déterministe, à savoir la programmation DC (Difference of Convex functions) et DCA (Difference of Convex Algorithms), pour la résolution de problèmes de clustering cités précédemment, ainsi que des approches évolutionnaires élitistes. Nous adaptons l’algorithme de clustering DCA–MSSC pour le traitement de données évolutives par fenêtres, en appréhendant les données évolutives avec deux modèles : fenêtres fixes et fenêtres glissantes. Pour le problème du clustering de données massives, nous utilisons l’algorithme DCA en deux phases. Dans la première phase, les données massives sont divisées en plusieurs sous-ensembles, sur lesquelles nous appliquons l’algorithme DCA–MSSC pour effectuer un clustering. Dans la deuxième phase, nous proposons un algorithme DCA-Weight pour effectuer un clustering pondéré sur l’ensemble des centres obtenues à la première phase. Concernant le clustering avec pondération de variables, nous proposons également deux approches: clustering dur avec pondération de variables et clustering floue avec pondération de variables. Nous testons notre approche sur un problème de segmentation d’image. Le dernier problème abordé dans cette thèse est le clustering sans connaissance a priori du nombre des clusters. Nous proposons pour cela une approche évolutionnaire élitiste. Le principe consiste à utiliser plusieurs algorithmes évolutionnaires (EAs) en même temps, de les faire concourir afin d’obtenir la meilleure combinaison de centres initiaux pour le clustering et par la même occasion le nombre optimal de clusters. Les différents tests réalisés sur plusieurs ensembles de données de grande taille sont très prometteurs et montrent l’efficacité des approches proposées
This thesis focus on four problems in data mining and machine learning: clustering data streams, clustering massive data sets, weighted hard and fuzzy clustering and finally the clustering without a prior knowledge of the clusters number. Our methods are based on deterministic optimization approaches, namely the DC (Difference of Convex functions) programming and DCA (Difference of Convex Algorithm) for solving some classes of clustering problems cited before. Our methods are also, based on elitist evolutionary approaches. We adapt the clustering algorithm DCA–MSSC to deal with data streams using two windows models: sub–windows and sliding windows. For the problem of clustering massive data sets, we propose to use the DCA algorithm with two phases. In the first phase, massive data is divided into several subsets, on which the algorithm DCA–MSSC performs clustering. In the second phase, we propose a DCA–Weight algorithm to perform a weighted clustering on the obtained centers in the first phase. For the weighted clustering, we also propose two approaches: weighted hard clustering and weighted fuzzy clustering. We test our approach on image segmentation application. The final issue addressed in this thesis is the clustering without a prior knowledge of the clusters number. We propose an elitist evolutionary approach, where we apply several evolutionary algorithms (EAs) at the same time, to find the optimal combination of initial clusters seed and in the same time the optimal clusters number. The various tests performed on several sets of large data are very promising and demonstrate the effectiveness of the proposed approaches

Estilos ABNT, Harvard, Vancouver, APA, etc.

10

Gan, Changquan. "Une approche de classification non supervisée basée sur la notion des K plus proches voisins". Compiègne, 1994. http://www.theses.fr/1994COMP765S.

Texto completo da fonte

Resumo:

La classification non supervisée a pour objectif de définir dans un ensemble de données des classes permettant de caractériser la structure interne des données. C’est une technique très utile dans de nombreux domaines technologiques comme en diagnostic des systèmes complexes (pour la mise en évidence de modes de fonctionnement) et en vision par ordinateur (pour la segmentation d'image). Les méthodes traditionnelles de la classification non supervisée présentent plusieurs problèmes en pratique, par exemple, la nécessité de préfixer le nombre de classes, le manque de stratégie appropriée pour le réglage de paramètres et la difficulté de valider le résultat obtenu. Dans cette thèse nous tentons d'apporter une solution à ces problèmes en développant une nouvelle approche basée sur la notion des K plus proches voisins. Alliant la détection de mode et la recherche de graphe reflétant la proximité des données, cette approche identifie d'abord les centres de classe, puis construit une classe autour de chaque centre. Elle n'emploie aucune connaissance a priori sur les données et ne possède qu'un seul paramètre. Une stratégie de réglage de ce paramètre a été établie après une étude théorique et une analyse expérimentale. L’idée est de rechercher la stabilité du résultat de classification. Des tests présentés dans ce mémoire montrent une bonne performance de l'approche proposée ; elle est libre d'hypothèse sur la nature des données, relativement robuste et facile à utiliser

Estilos ABNT, Harvard, Vancouver, APA, etc.

11

Ta, Minh Thuy. "Techniques d'optimisation non convexe basée sur la programmation DC et DCA et méthodes évolutives pour la classification non supervisée". Thesis, Université de Lorraine, 2014. http://www.theses.fr/2014LORR0099/document.

Texto completo da fonte

Resumo:

Nous nous intéressons particulièrement, dans cette thèse, à quatre problèmes en apprentissage et fouille de données : clustering pour les données évolutives, clustering pour les données massives, clustering avec pondération de variables et enfin le clustering sans connaissance a priori du nombre de clusters avec initialisation optimale des centres de clusters. Les méthodes que nous décrivons se basent sur des approches d’optimisation déterministe, à savoir la programmation DC (Difference of Convex functions) et DCA (Difference of Convex Algorithms), pour la résolution de problèmes de clustering cités précédemment, ainsi que des approches évolutionnaires élitistes. Nous adaptons l’algorithme de clustering DCA–MSSC pour le traitement de données évolutives par fenêtres, en appréhendant les données évolutives avec deux modèles : fenêtres fixes et fenêtres glissantes. Pour le problème du clustering de données massives, nous utilisons l’algorithme DCA en deux phases. Dans la première phase, les données massives sont divisées en plusieurs sous-ensembles, sur lesquelles nous appliquons l’algorithme DCA–MSSC pour effectuer un clustering. Dans la deuxième phase, nous proposons un algorithme DCA-Weight pour effectuer un clustering pondéré sur l’ensemble des centres obtenues à la première phase. Concernant le clustering avec pondération de variables, nous proposons également deux approches: clustering dur avec pondération de variables et clustering floue avec pondération de variables. Nous testons notre approche sur un problème de segmentation d’image. Le dernier problème abordé dans cette thèse est le clustering sans connaissance a priori du nombre des clusters. Nous proposons pour cela une approche évolutionnaire élitiste. Le principe consiste à utiliser plusieurs algorithmes évolutionnaires (EAs) en même temps, de les faire concourir afin d’obtenir la meilleure combinaison de centres initiaux pour le clustering et par la même occasion le nombre optimal de clusters. Les différents tests réalisés sur plusieurs ensembles de données de grande taille sont très prometteurs et montrent l’efficacité des approches proposées
This thesis focus on four problems in data mining and machine learning: clustering data streams, clustering massive data sets, weighted hard and fuzzy clustering and finally the clustering without a prior knowledge of the clusters number. Our methods are based on deterministic optimization approaches, namely the DC (Difference of Convex functions) programming and DCA (Difference of Convex Algorithm) for solving some classes of clustering problems cited before. Our methods are also, based on elitist evolutionary approaches. We adapt the clustering algorithm DCA–MSSC to deal with data streams using two windows models: sub–windows and sliding windows. For the problem of clustering massive data sets, we propose to use the DCA algorithm with two phases. In the first phase, massive data is divided into several subsets, on which the algorithm DCA–MSSC performs clustering. In the second phase, we propose a DCA–Weight algorithm to perform a weighted clustering on the obtained centers in the first phase. For the weighted clustering, we also propose two approaches: weighted hard clustering and weighted fuzzy clustering. We test our approach on image segmentation application. The final issue addressed in this thesis is the clustering without a prior knowledge of the clusters number. We propose an elitist evolutionary approach, where we apply several evolutionary algorithms (EAs) at the same time, to find the optimal combination of initial clusters seed and in the same time the optimal clusters number. The various tests performed on several sets of large data are very promising and demonstrate the effectiveness of the proposed approaches

Estilos ABNT, Harvard, Vancouver, APA, etc.

12

Gomes, Da Silva Alzennyr. "Analyse des données évolutives : application aux données d'usage du Web". Phd thesis, Université Paris Dauphine - Paris IX, 2009. http://tel.archives-ouvertes.fr/tel-00445501.

Texto completo da fonte

Resumo:

Le nombre d'accès aux pages Web ne cesse de croître. Le Web est devenu l'une des plates-formes les plus répandues pour la diffusion et la recherche d'information. Par conséquence, beaucoup d'opérateurs de sites Web sont incités à analyser l'usage de leurs sites afin d'améliorer leur réponse vis-à-vis des attentes des internautes. Or, la manière dont un site Web est visité peut changer en fonction de divers facteurs. Les modèles d'usage doivent ainsi être mis à jour continuellement afin de refléter fidèlement le comportement des visiteurs. Ceci reste difficile quand la dimension temporelle est négligée ou simplement introduite comme un attribut numérique additionnel dans la description des données. C'est précisément sur cet aspect que se focalise la présente thèse. Pour pallier le problème d'acquisition des données réelles d'usage, nous proposons une méthodologie pour la génération automatique des données artificielles permettant la simulation des changements. Guidés par les pistes nées des analyses exploratoires, nous proposons une nouvelle approche basée sur des fenêtres non recouvrantes pour la détection et le suivi des changements sur des données évolutives. Cette approche caractérise le type de changement subi par les groupes de comportement (apparition, disparition, fusion, scission) et applique deux indices de validation basés sur l'extension de la classification pour mesurer le niveau des changements repérés à chaque pas de temps. Notre approche est totalement indépendante de la méthode de classification et peut être appliquée sur différents types de données autres que les données d'usage. Des expérimentations sur des données artificielles ainsi que sur des données réelles issues de différents domaines (académique, tourisme et marketing) ont été réalisées pour l'évaluer l'efficacité de l'approche proposée.

Estilos ABNT, Harvard, Vancouver, APA, etc.

13

Maugis, Cathy. "Sélection de variables pour la classification non supervisée par mélanges gaussiens : application à l'étude de données transcriptomes". Phd thesis, Université Paris Sud - Paris XI, 2008. http://tel.archives-ouvertes.fr/tel-00344120.

Texto completo da fonte

Resumo:

Nous nous intéressons à la sélection de variables en classification non supervisée par mélanges gaussiens. Ces travaux sont en particulier motivés par la classification de gènes à partir de données transcriptomes. Dans les deux parties de cette thèse, le problème est ramené à celui de la sélection de modèles.
Dans la première partie, le modèle proposé, généralisant celui de Raftery et Dean (2006) permet de spécifier le rôle des variables vis-à-vis du processus de classification. Ainsi les variables non significatives peuvent être dépendantes d'une partie des variables retenues pour la classification. Ces modèles sont comparés grâce à un critère de type BIC. Leur identifiabilité est établie et la consistance du critère est démontrée sous des conditions de régularité. En pratique, le statut des variables est obtenu grâce à un algorithme imbriquant deux algorithmes descendants de sélection de variables pour la classification et pour la régression linéaire. L'intérêt de cette procédure est en particulier illustré sur des données transcriptomes. Une amélioration de la modélisation du rôle des variables, consistant à répartir les variables déclarées non significatives entre celles dépendantes et celles indépendantes des variables significatives pour la classification, est ensuite proposée pour pallier une surpénalisation de certains modèles. Enfin, la technologie des puces à ADN engendrant de nombreuses données manquantes, une extension de notre procédure tenant compte de l'existence de ces valeurs manquantes est suggérée, évitant leur
estimation préalable.
Dans la seconde partie, des mélanges gaussiens de formes spécifiques sont considérés et un critère pénalisé non asymptotique est proposé pour sélectionner simultanément le nombre de composantes du mélange et l'ensemble des variables pertinentes pour la classification. Un théorème général de sélection de modèles pour l'estimation de densités par maximum de vraisemblance, proposé par Massart (2007), est utilisé pour déterminer la forme de la pénalité. Ce théorème nécessite le contrôle de l'entropie à crochets des familles de mélanges gaussiens multidimensionnels étudiées. Ce critère dépendant de constantes multiplicatives inconnues, l'heuristique dite "de la pente" est mise en oeuvre pour permettre une utilisation effective de ce critère.

Estilos ABNT, Harvard, Vancouver, APA, etc.

14

Kassab, Randa. "Analyse des propriétés stationnaires et des propriétés émergentes dans les flux d'information changeant au cours du temps". Thesis, Nancy 1, 2009. http://www.theses.fr/2009NAN10027/document.

Texto completo da fonte

Resumo:

De nombreuses applications génèrent et reçoivent des données sous la forme de flux continu, illimité, et très rapide. Cela pose naturellement des problèmes de stockage, de traitement et d'analyse de données qui commencent juste à être abordés dans le domaine des flux de données. Il s'agit, d'une part, de pouvoir traiter de tels flux à la volée sans devoir mémoriser la totalité des données et, d'autre part, de pouvoir traiter de manière simultanée et concurrente l'analyse des régularités inhérentes au flux de données et celle des nouveautés, exceptions, ou changements survenant dans ce même flux au cours du temps. L'apport de ce travail de thèse réside principalement dans le développement d'un modèle d'apprentissage - nommé ILoNDF - fondé sur le principe de la détection de nouveauté. L'apprentissage de ce modèle est, contrairement à sa version de départ, guidé non seulement par la nouveauté qu'apporte une donnée d'entrée mais également par la donnée elle-même. De ce fait, le modèle ILoNDF peut acquérir constamment de nouvelles connaissances relatives aux fréquences d'occurrence des données et de leurs variables, ce qui le rend moins sensible au bruit. De plus, doté d'un fonctionnement en ligne sans répétition d'apprentissage, ce modèle répond aux exigences les plus fortes liées au traitement des flux de données. Dans un premier temps, notre travail se focalise sur l'étude du comportement du modèle ILoNDF dans le cadre général de la classification à partir d'une seule classe en partant de l'exploitation des données fortement multidimensionnelles et bruitées. Ce type d'étude nous a permis de mettre en évidence les capacités d'apprentissage pures du modèle ILoNDF vis-à-vis de l'ensemble des méthodes proposées jusqu'à présent. Dans un deuxième temps, nous nous intéressons plus particulièrement à l'adaptation fine du modèle au cadre précis du filtrage d'informations. Notre objectif est de mettre en place une stratégie de filtrage orientée-utilisateur plutôt qu'orientée-système, et ceci notamment en suivant deux types de directions. La première direction concerne la modélisation utilisateur à l'aide du modèle ILoNDF. Cette modélisation fournit une nouvelle manière de regarder le profil utilisateur en termes de critères de spécificité, d'exhaustivité et de contradiction. Ceci permet, entre autres, d'optimiser le seuil de filtrage en tenant compte de l'importance que pourrait donner l'utilisateur à la précision et au rappel. La seconde direction, complémentaire de la première, concerne le raffinement des fonctionnalités du modèle ILoNDF en le dotant d'une capacité à s'adapter à la dérive du besoin de l'utilisateur au cours du temps. Enfin, nous nous attachons à la généralisation de notre travail antérieur au cas où les données arrivant en flux peuvent être réparties en classes multiples
Many applications produce and receive continuous, unlimited, and high-speed data streams. This raises obvious problems of storage, treatment and analysis of data, which are only just beginning to be treated in the domain of data streams. On the one hand, it is a question of treating data streams on the fly without having to memorize all the data. On the other hand, it is also a question of analyzing, in a simultaneous and concurrent manner, the regularities inherent in the data stream as well as the novelties, exceptions, or changes occurring in this stream over time. The main contribution of this thesis concerns the development of a new machine learning approach - called ILoNDF - which is based on novelty detection principle. The learning of this model is, contrary to that of its former self, driven not only by the novelty part in the input data but also by the data itself. Thereby, ILoNDF can continuously extract new knowledge relating to the relative frequencies of the data and their variables. This makes it more robust against noise. Being operated in an on-line mode without repeated training, ILoNDF can further address the primary challenges for managing data streams. Firstly, we focus on the study of ILoNDF's behavior for one-class classification when dealing with high-dimensional noisy data. This study enabled us to highlight the pure learning capacities of ILoNDF with respect to the key classification methods suggested until now. Next, we are particularly involved in the adaptation of ILoNDF to the specific context of information filtering. Our goal is to set up user-oriented filtering strategies rather than system-oriented in following two types of directions. The first direction concerns user modeling relying on the model ILoNDF. This provides a new way of looking at user's need in terms of specificity, exhaustivity and contradictory profile-contributing criteria. These criteria go on to estimate the relative importance the user might attach to precision and recall. The filtering threshold can then be adjusted taking into account this knowledge about user's need. The second direction, complementary to the first one, concerns the refinement of ILoNDF's functionality in order to confer it the capacity of tracking drifting user's need over time. Finally, we consider the generalization of our previous work to the case where streaming data can be divided into multiple classes

Estilos ABNT, Harvard, Vancouver, APA, etc.

15

Kassab, Randa. "Analyse des propriétés stationnaires et des propriétés émergentes dans les flux d'informations changeant au cours du temps". Phd thesis, Université Henri Poincaré - Nancy I, 2009. http://tel.archives-ouvertes.fr/tel-00402644.

Texto completo da fonte

Resumo:

De nombreuses applications génèrent et reçoivent des données sous la forme de flux continu, illimité, et très rapide. Cela pose naturellement des problèmes de stockage, de traitement et d'analyse de données qui commencent juste à être abordés dans le domaine des flux de données. Il s'agit, d'une part, de pouvoir traiter de tels flux à la volée sans devoir mémoriser la totalité des données et, d'autre part, de pouvoir traiter de manière simultanée et concurrente l'analyse des régularités inhérentes au flux de données et celle des nouveautés, exceptions, ou changements survenant dans ce même flux au cours du temps.

L'apport de ce travail de thèse réside principalement dans le développement d'un modèle d'apprentissage - nommé ILoNDF - fondé sur le principe de la détection de nouveauté. L'apprentissage de ce modèle est, contrairement à sa version de départ, guidé non seulement par la nouveauté qu'apporte une donnée d'entrée mais également par la donnée elle-même. De ce fait, le modèle ILoNDF peut acquérir constamment de nouvelles connaissances relatives aux fréquences d'occurrence des données et de leurs variables, ce qui le rend moins sensible au bruit. De plus, doté d'un fonctionnement en ligne sans répétition d'apprentissage, ce modèle répond aux exigences les plus fortes liées au traitement des flux de données.

Dans un premier temps, notre travail se focalise sur l'étude du comportement du modèle ILoNDF dans le cadre général de la classification à partir d'une seule classe en partant de l'exploitation des données fortement multidimensionnelles et bruitées. Ce type d'étude nous a permis de mettre en évidence les capacités d'apprentissage pures du modèle ILoNDF vis-à-vis de l'ensemble des méthodes proposées jusqu'à présent. Dans un deuxième temps, nous nous intéressons plus particulièrement à l'adaptation fine du modèle au cadre précis du filtrage d'informations. Notre objectif est de mettre en place une stratégie de filtrage orientée-utilisateur plutôt qu'orientée-système, et ceci notamment en suivant deux types de directions. La première direction concerne la modélisation utilisateur à l'aide du modèle ILoNDF. Cette modélisation fournit une nouvelle manière de regarder le profil utilisateur en termes de critères de spécificité, d'exhaustivité et de contradiction. Ceci permet, entre autres, d'optimiser le seuil de filtrage en tenant compte de l'importance que pourrait donner l'utilisateur à la précision et au rappel. La seconde direction, complémentaire de la première, concerne le raffinement des fonctionnalités du modèle ILoNDF en le dotant d'une capacité à s'adapter à la dérive du besoin de l'utilisateur au cours du temps. Enfin, nous nous attachons à la généralisation de notre travail antérieur au cas où les données arrivant en flux peuvent être réparties en classes multiples.

Estilos ABNT, Harvard, Vancouver, APA, etc.

16

Allain, Guillaume. "Prévision et analyse du trafic routier par des méthodes statistiques". Toulouse 3, 2008. http://thesesups.ups-tlse.fr/351/.

Texto completo da fonte

Resumo:

La société Mediamobile édite et diffuse de l'information sur le trafic aux usagers. L'objectif de ce travail est l'enrichissement de cette information par la prévision et la complétion des conditions de route. Notre approche s'inspire parfois de la modélisation physique du trafic routier mais fait surtout appel à des méthodes statistiques afin de proposer des solutions automatisables, modulaires et adaptées aux contraintes industrielles. Dans un premier temps, nous décrivons une méthode de prévision de la vitesse de quelques minutes à plusieurs heures. Nous supposons qu'il existe un nombre fini de comportements types du trafic sur le réseau, dus aux déplacements périodiques des usagers. Nous faisons alors l'hypothèse que les courbes de vitesses observées en chaque point du réseau sont issues d'un modèle de mélange. Nous cherchons ensuite à améliorer cette méthode générale de prévision. La prévision à moyen terme fait appel à des variables bâties sur le calendrier. Nous retenons le modèle de mélange des courbes de vitesse et nous proposons également des modèles de régression fonctionnelle pour les courbes de vitesses. Ensuite nous proposons une modélisation par régression locale afin de capturer la dynamique physique du trafic à très court terme. Nous estimons la fonction de noyau à partir des observations du phénomène en intégrant des connaissances a priori sur la dynamique du trafic. La dernière partie est dédiée à l'analyse des vitesses issues de véhicules traceurs. Ces vitesses sont irrégulièrement observées en temps et en espace sur un axe routier. Nous proposons un modèle de régression locale à l'aide de polynômes locaux pour compléter et lisser ces données
The industrial partner of this work is Mediamobile/V-trafic, a company which processes and broadcasts live road-traffic information. The goal of our work is to enhance traffic information with forecasting and spatial extending. Our approach is sometimes inspired by physical modelling of traffic dynamic, but it mainly uses statistical methods in order to propose self-organising and modular models suitable for industrial constraints. In the first part of this work, we describe a method to forecast trafic speed within a time frame of a few minutes up to several hours. Our method is based on the assumption that traffic on the a road network can be summarized by a few typical profiles. Those profiles are linked to the users' periodical behaviors. We therefore make the assumption that observed speed curves on each point of the network are stemming from a probabilistic mixture model. The following parts of our work will present how we can refine the general method. Medium term forecasting uses variables built from the calendar. The mixture model still stands. Additionnaly we use a fonctionnal regression model to forecast speed curves. We then introduces a local regression model in order to stimulate short-term trafic dynamics. The kernel function is built from real speed observations and we integrate some knowledge about traffic dynamics. The last part of our work focuses on the analysis of speed data from in traffic vehicles. These observations are gathered sporadically in time and on the road segment. The resulting data is completed and smoothed by local polynomial regression

Estilos ABNT, Harvard, Vancouver, APA, etc.

17

Zullo, Anthony. "Analyse de données fonctionnelles en télédétection hyperspectrale : application à l'étude des paysages agri-forestiers". Thesis, Toulouse 3, 2016. http://www.theses.fr/2016TOU30135/document.

Texto completo da fonte

Resumo:

En imagerie hyperspectrale, chaque pixel est associé à un spectre provenant de la réflectance observée en d points de mesure (i.e., longueurs d'onde). On se retrouve souvent dans une situation où la taille d'échantillon n est relativement faible devant le nombre d de variables. Ce phénomène appelé "fléau de la dimension" est bien connu en statistique multivariée. Plus d augmente devant n, plus les performances des méthodologies statistiques standard se dégradent. Les spectres de réflectance intègrent dans leur dimension spectrale un continuum qui leur confère une nature fonctionnelle. Un hyperspectre peut être modélisé par une fonction univariée de la longueur d'onde, sa représentation produisant une courbe. L'utilisation de méthodes fonctionnelles sur de telles données permet de prendre en compte des aspects fonctionnels tels que la continuité, l'ordre des bandes spectrales, et de s'affranchir des fortes corrélations liées à la finesse de la grille de discrétisation. L'objectif principal de cette thèse est d'évaluer la pertinence de l'approche fonctionnelle dans le domaine de la télédétection hyperspectrale lors de l'analyse statistique. Nous nous sommes focalisés sur le modèle non-paramétrique de régression fonctionnelle, couvrant la classification supervisée. Dans un premier temps, l'approche fonctionnelle a été comparée avec des méthodes multivariées usuellement employées en télédétection. L'approche fonctionnelle surpasse les méthodes multivariées dans des situations délicates où l'on dispose d'une petite taille d'échantillon d'apprentissage combinée à des classes relativement homogènes (c'est-à-dire difficiles à discriminer). Dans un second temps, une alternative à l'approche fonctionnelle pour s'affranchir du fléau de la dimension a été développée à l'aide d'un modèle parcimonieux. Ce dernier permet, à travers la sélection d'un petit nombre de points de mesure, de réduire la dimensionnalité du problème tout en augmentant l'interprétabilité des résultats. Dans un troisième temps, nous nous sommes intéressés à la situation pratique quasi-systématique où l'on dispose de données fonctionnelles contaminées. Nous avons démontré que pour une taille d'échantillon fixée, plus la discrétisation est fine, meilleure sera la prédiction. Autrement dit, plus d est grand devant n, plus la méthode statistique fonctionnelle développée est performante
In hyperspectral imaging, each pixel is associated with a spectrum derived from observed reflectance in d measurement points (i.e., wavelengths). We are often facing a situation where the sample size n is relatively low compared to the number d of variables. This phenomenon called "curse of dimensionality" is well known in multivariate statistics. The mored increases with respect to n, the more standard statistical methodologies performances are degraded. Reflectance spectra incorporate in their spectral dimension a continuum that gives them a functional nature. A hyperspectrum can be modelised by an univariate function of wavelength and his representation produces a curve. The use of functional methods allows to take into account functional aspects such as continuity, spectral bands order, and to overcome strong correlations coming from the discretization grid fineness. The main aim of this thesis is to assess the relevance of the functional approach in the field of hyperspectral remote sensing for statistical analysis. We focused on the nonparametric fonctional regression model, including supervised classification. Firstly, the functional approach has been compared with multivariate methods usually involved in remote sensing. The functional approach outperforms multivariate methods in critical situations where one has a small training sample size combined with relatively homogeneous classes (that is to say, hard to discriminate). Secondly, an alternative to the functional approach to overcome the curse of dimensionality has been proposed using parsimonious models. This latter allows, through the selection of few measurement points, to reduce problem dimensionality while increasing results interpretability. Finally, we were interested in the almost systematic situation where one has contaminated functional data. We proved that for a fixed sample size, the finer the discretization, the better the prediction. In other words, the larger dis compared to n, the more effective the functional statistical methodis

Estilos ABNT, Harvard, Vancouver, APA, etc.

18

Frévent, Camille. "Contribution to spatial statistics for high-dimensional and survival data". Electronic Thesis or Diss., Université de Lille (2022-....), 2022. http://www.theses.fr/2022ULILS032.

Texto completo da fonte

Resumo:

Dans ce mémoire de thèse nous nous intéressons aux méthodes d'apprentissage statistique pour données spatiales en grande dimension et données de survie. L'objectif est de développer des méthodes de détection de clusters non supervisées avec des statistiques de scan spatiales, à la fois dans le cadre de l'analyse de données fonctionnelles, mais aussi pour l'analyse de données de survie. Nous considérons tout d'abord des données fonctionnelles univariées ou multivariées mesurées spatialement dans une région géographique. Nous proposons des statistiques de scan paramétriques et non paramétriques dans ce contexte. Ces approches fonctionnelles univariées et multivariées évitent la perte d'information respectivement d'une méthode univariée ou multivariée appliquée sur des observations moyennes au cours de la période d'étude. Nous étudions également les performances de ces approches sur des études de simulation, avant de les appliquer sur des données réelles économiques et environnementales. Nous nous intéressons également à la détection de clusters spatiaux de temps de survie. Bien qu'il existe déjà dans la littérature des approches de statistiques de scan spatiale dans ce cadre, celles-ci ne permettent pas de prendre en compte une éventuelle corrélation entre les temps de survie des individus d'une même unité spatiale. De plus, la nature spatiale des données implique une potentielle dépendance entre les unités spatiales, qui doit être prise en compte. L'originalité de l'approche que nous proposons est le développement d'une nouvelle statistique de scan spatiale basée sur un modèle de Cox à fragilité spatiale, permettant à la fois la prise en compte de la corrélation entre les temps de survie des individus d'une même unité spatiale, et une éventuelle dépendance entre les unités spatiales. Nous avons comparé les performances de cette nouvelle approche avec les méthodes existantes et nous les avons appliquées sur des données réelles de temps de survie des personnes âgées atteintes d'insuffisance rénale chronique terminale dans le nord de la France. Enfin, nous proposons un certain nombre de perspectives à notre travail, à la fois avec des prolongements directs à cette thèse dans le cadre des statistiques de scan spatiales pour données en grande dimension et données de survie, mais également avec des perspectives dans un cadre plus large d'analyse spatiale non supervisée (clustering spatial pour données en grande dimension modélisées par des tenseurs), et d'apprentissage spatial supervisé (régression)
In this thesis, we are interested in statistical spatial learning for high-dimensional and survival data. The objective is to develop unsupervised cluster detection methods by means of spatial scan statistics in the contexts of functional data analysis in one hand and survival data analysis in the other hand. In the first two chapters, we consider univariate and multivariate functional data measured spatially in a geographical area. We propose both parametric and nonparametric spatial scan statistics in this framework. These univariate and multivariate functional approaches avoid the loss of information respectively of a univariate method or a multivariate method applied on the average of the observations during the study period. We study the new methods' performances in simulation studies before applying them on economic and environmental real data. We are also interested in spatial cluster detection of survival data. Although there exist already spatial scan statistics approaches in this framework in the literature, these do not take into account a potential correlation of survival times between individuals of the same spatial unit. Moreover, the spatial nature of the data implies a potential dependence between the spatial units, which should be taken into account. The originality of our proposed method is to introduce a spatial scan statistic based on a Cox model with a spatial frailty, allowing to take into account both the potential correlation between the survival times of the individuals of the same spatial unit and the potential dependence between the spatial units. We compare the performances of this new approach with the existing methods and apply them on real data corresponding to survival times of elderly people with end-stage kidney failure in northern France. Finally, we propose a number of perspectives to our work, both in a direct extension of this thesis in the framework of spatial scan statistics for high-dimensional and survival data, but also perspectives in a broader context of unsupervised spatial analysis (spatial clustering for high-dimensional data (tensors)), and supervised spatial learning (regression)

Estilos ABNT, Harvard, Vancouver, APA, etc.

19

Nait-Chabane, Ahmed. "Segmentation invariante en rasance des images sonar latéral par une approche neuronale compétitive". Phd thesis, Université de Bretagne occidentale - Brest, 2013. http://tel.archives-ouvertes.fr/tel-00968199.

Texto completo da fonte

Resumo:

Un sonar latéral de cartographie enregistre les signaux qui ont été rétrodiffusés par le fond marin sur une large fauchée. Les signaux sont ainsi révélateurs de l'interaction entre l'onde acoustique émise et le fond de la mer pour une large plage de variation de l'angle de rasance. L'analyse des statistiques de ces signaux rétrodiffusés montre une dépendance à ces angles de rasance, ce qui pénalise fortement la segmentation des images en régions homogènes. Pour améliorer cette segmentation, l'approche classique consiste à corriger les artefacts dus à la formation de l'image sonar (géométrie d'acquisition, gains variables, etc.) en considérant un fond marin plat et en estimant des lois physiques (Lambert, Jackson, etc.) ou des modèles empiriques. L'approche choisie dans ce travail propose de diviser l'image sonar en bandes dans le sens de la portée ; la largeur de ces bandes étant suffisamment faible afin que l'analyse statistique de la rétrodiffusion puisse être considérée indépendante de l'angle de rasance. Deux types d'analyse de texture sont utilisés sur chaque bande de l'image. La première technique est basée sur l'estimation d'une matrice des cooccurrences et de différents attributs d'Haralick. Le deuxième type d'analyse est l'estimation d'attributs spectraux. La bande centrale localisée à la moitié de la portée du sonar est segmentée en premier par un réseau de neurones compétitifs basé sur l'algorithme SOFM (Self-Organizing Feature Maps) de Kohonen. Ensuite, la segmentation est réalisée successivement sur les bandes adjacentes, jusqu'aux limites basse et haute de la portée sonar. A partir des connaissances acquises sur la segmentation de cette première bande, le classifieur adapte sa segmentation aux bandes voisines. Cette nouvelle méthode de segmentation est évaluée sur des données réelles acquises par le sonar latéral Klein 5000. Les performances de segmentation de l'algorithme proposé sont comparées avec celles obtenues par des techniques classiques.

Estilos ABNT, Harvard, Vancouver, APA, etc.

20

Blanchard, Frédéric. "Visualisation et classification de données multidimensionnelles : Application aux images multicomposantes". Reims, 2005. http://theses.univ-reims.fr/exl-doc/GED00000287.pdf.

Texto completo da fonte

Resumo:

L'analyse des images multicomposantes est un problème crucial. Les questions de la visualisation et de la classification pour ces images sont importantes. Nous nous sommes intéressés à ces deux problèmes en nous plaçant dans le cadre plus général de l'analyse des données multidimensionnelles, et avons apporté deux éléments de réponses. Avant de traiter ces questions, nous nous sommes intéressés aux problèmes pratiques et théoriques liés à la dimensionnalité et étudions quelques unes des techniques courantes de réduction de dimensionnalité. La question de la visualisation est alors exposée et une nouvelle méthode utilisant l'image couleur est proposée. Cette technique permet une visualisation immédiate et synthétique des données, sans connaissance a priori. Elle est illustrée par des applications. Nous présentons également une contribution à la classification non supervisée de données qui se situe en amont du processus de classification proprement dit. Nous avons conçu une nouvelle façon de représenter les données et leurs liens à l'aide de la théorie des ensembles flous. Cette méthode permet, en classification, de traiter avec succès des échantillons de données dont les classes sont d'effectifs et de densités différents, sans faire d'a priori sur leur forme. Un algorithme de classification et des exemples de son application sont proposés. Ce travail présente deux contributions importantes aux problématiques de la visualisation et la classification, et fait intervenir des concepts issus de thématiques diverses comme l'analyse de données ou la théorie des ensembles flous. Il peut ainsi être utilisé dans d'autres contextes que celui de l'analyse d'images multicomposantes
The analysis of multicomponent images is a crucial problem. Visualization and clustering problem are two relevant questions about it. We decided to work in the more general frame of data analysis to answer to these questions. The preliminary step of this work is describing the problems induced by the dimensionality and studying the current dimensionality reduction methods. The visualization problem is then considered and a contribution is exposed. We propose a new method of visualization through color image that provides an immediate and sythetic image od data. Applications are presented. The second contribution lies upstream with the clustering procedure strictly speaking. We etablish a new kind of data representation by using rank transformation, fuzziness and agregation procedures. Its use inprove the clustering procedures by dealing with clusters with dissimilar density or variant effectives and by making them more robust. This work presents two important contributions to the field of data analysis applied to multicomponent image. The variety of the tools involved (originally from decision theory, uncertainty management, data mining or image processing) make the presented methods usable in many diversified areas as well as multicomponent images analysis

Estilos ABNT, Harvard, Vancouver, APA, etc.

21

Happillon, Teddy. "Aide au diagnostic de cancers cutanés et de la leucémie lymphoïde chronique par microspectroscopies vibrationnelles couplées à des analyses numériques multivariées". Thesis, Reims, 2013. http://www.theses.fr/2013REIMP204/document.

Texto completo da fonte

Resumo:

La spectroscopie vibrationnelle est une technologie permettant de générer une grande quantité de données très informatives quant à la composition moléculaire des échantillons analysés. Lorsqu'elle est couplée à des méthodes chimiométriques de traitement et de classification de données, elle devient un outil très performant pour l'identification de structures et sous-structures des échantillons. Appliqué dans le domaine du biomédical, cet outil présente alors un fort potentiel pour le diagnostic de maladie. C'est dans ce cadre qu'ont été réalisés les travaux de ce manuscrit. Dans une première étude relevant du développement algorithmique, un algorithme automatique de classification non supervisée (basé sur les Fuzzy C-Means) et récemment implémenté au sein du laboratoire pour apporter une aide au diagnostic de cancers cutanés par imagerie infrarouge, a été amélioré afin de i) considérablement réduire le temps nécessaire à son exécution ii) augmenter la qualité des résultats obtenus sur les données infrarouge et iii) étendre son champs d'application à des données réelles et simulées, habituellement employées dans la littérature. Cet outil a été testé sur des données infrarouge acquises sur 16 échantillons de cancers cutanés (BCC, SCC, maladie de Bowen et mélanomes), et sur 49 jeux de données réels et simulés. Les résultats obtenus ont montré la capacité de ce nouvel algorithme à estimer des partitions proches de la réalité quelque soit le type de données étudié. La seconde étude de ce manuscrit avait pour but de mettre au point un outil chimiométrique autonome d'aide au diagnostic de la leucémie lymphoïde chronique par spectroscopie Raman. Dans ce travail, des traitements numériques et l'algorithme de classification supervisée Support Vector Machines, ont été appliqués à des données acquises sur des cellules sanguine de 27 témoins et 49 patients présentant une leucémie lymphoïde chronique. Les résultats de classification obtenus ont montré une sensibilité de 80% et une spécificité de 100% dans la détection de la maladie
Vibrational spectroscopy is a technology able to record a large amount of molecular information from studied samples. Coupled with chemometrics and classification methods, vibrational spectroscopy is an efficient tool to identify sample structures and substructures. When applied to the biomedical field, this tool shows a high potential for disease diagnosis. It is in this context that the works presented in this thesis have been realized. In a first study, dealing with algorithmic development, an automatic and unsupervised classification algorithm (based on the Fuzzy C-Means) and developed by our laboratory in order to help for skin cancer diagnosis using IR spectroscopy, was improved in order to i) reduce the computational time needed to realize clustering, ii) increase results quality obtained on infrared data, iii) and extend its application fields to simulated and real datasets, commonly used in the literature. This tool has been tested on 16 infrared spectral images of skin cancers (BCC, SCC, Bowen's disease and melanoma), and 49 real and simulated datasets. The obtained results showed the ability of this new algorithm to estimate realistic data partitions regardless the considered dataset. The second study of this work aimed at developing an independent chemometric tool to assist for chronic lymphocytic leukemia diagnosis by Raman spectroscopy. In this second work, different numerical preprocessing steps and a supervised classification algorithm, Support Vector Machines, have been applied on data recorded on blood cells coming from 27 healthy persons and 49 patients with chronic lymphocytic leukemia. The classification results showed a sensitivity of 80% and a specificity of 100% in the disease diagnosis

Estilos ABNT, Harvard, Vancouver, APA, etc.

22

Kurtz, Camille. "Une approche collaborative segmentation - classification pour l'analyse descendante d'images multirésolutions". Phd thesis, Université de Strasbourg, 2012. http://tel.archives-ouvertes.fr/tel-00735217.

Texto completo da fonte

Resumo:

Depuis la fin des années 1990, les images optiques à très hautes résolutions spatiales issues de capteurs satellitaires sont de plus en plus accessibles par une vaste communauté d'utilisateurs. En particulier, différents systèmes satellitaires sont maintenant disponibles et produisent une quantité de données importante, utilisable pour l'observation de la Terre. En raison de cet important volume de données,les méthodes analytiques manuelles deviennent inadaptées pour un traitement efficace de ces données. Il devient donc crucial d'automatiser ces méthodes par des procédés informatiques, capables de traiter cette quantité de données hétérogènes.Dans le cadre de cette thèse, nos recherches se sont focalisées sur le développement de nouvelles approches basées régions (i.e., segmentation et classification) permettant l'extraction de plusieurs niveaux de connaissance et d'information à partir d'ensembles d'images à différentes résolutions spatiales. De telles images offrent en effet des vues différentes de la scène étudiée, ce qui peut permettre de faciliter l'extraction des objets d'intérêt. Ces derniers étant structurés sous la forme de hiérarchies d'objets complexes, nos travaux se sont naturellement tournés (1) vers l'utilisation d'approches de segmentation hiérarchique fournissant des ensembles de partitions de la scène à différents niveaux de détail et (2) vers l'intégration de connaissances de haut-niveau dans les processus de fouille de données. De manière plus générale, nous nous sommes intéressés à élaborer un outil informatique reposant sur une stratégie d'analyse descendante,similaire à celle d'un utilisateur, qui consiste à interpréter la scène en considérant, en premier lieu, les grandes zones composant les territoires (à partir des images aux résolutions les plus grossières) puis à affiner récursivement le niveau d'interprétation pour en extraire des zones plus spécialisées (à partir des images aux résolutions les plus fines).L'ensemble de ces travaux a été implanté dans une bibliothèque logicielle et validé dans le contexte de l'analyse d'environnements urbains à partir d'ensembles d'images multi résolutions.

Estilos ABNT, Harvard, Vancouver, APA, etc.

23

Rigouste, Loïs. "Méthodes probabilistes pour l'analyse exploratoire de données textuelles". Phd thesis, Télécom ParisTech, 2006. http://pastel.archives-ouvertes.fr/pastel-00002424.

Texto completo da fonte

Resumo:

Nous abordons le problème de la classification non supervisée de documents par des méthodes probabilistes. Notre étude se concentre sur le modèle de mélange de lois multinomiales avec variables latentes thématiques au niveau des documents. La construction de groupes de documents thématiquement homogènes est une des technologies de base de la fouille de texte, et trouve de multiples applications, aussi bien en recherche documentaire qu'en catégorisation de documents, ou encore pour le suivi de thèmes et la construction de résumés. Diverses propositions récentes ont été faites de modèles probabilistes permettant de déterminer de tels regroupements. Les modèles de classification probabilistes peuvent également être vus comme des outils de construction de représentations numériques synthétiques d'informations contenues dans le document. Ces modèles, qui offrent des facilités pour la généralisation et l'interprétation des résultats, posent toutefois des problèmes d'estimation difficiles, dûs en particulier à la très grande dimensionnalité du vocabulaire. Notre contribution à cette famille de travaux est double: nous présentons d'une part plusieurs algorithmes d'inférence, certains originaux, pour l'estimation du modèle de mélange de multinomiales; nous présentons également une étude systématique des performances de ces algorithmes, fournissant ainsi de nouveaux outils méthodologiques pour mesurer les performances des outils de classification non supervisée. Les bons résultats obtenus par rapport à d'autres algorithmes classiques illustrent, à notre avis, la pertinence de ce modèle de mélange simple pour les corpus regroupant essentiellement des documents monothématiques.

Estilos ABNT, Harvard, Vancouver, APA, etc.

24

Pradet, Quentin. "Annotation en rôles sémantiques du français en domaine spécifique". Sorbonne Paris Cité, 2015. https://hal.inria.fr/tel-01182711/document.

Texto completo da fonte

Resumo:

Cette thèse de Traitement Automatique des Langues a pour objectif l'annotation automatique en rôles sémantiques du français en domaine spécifique. Cette tâche désambiguïse le sens des prédicats d'un texte et annote les syntagmes liés avec des rôles sémantiques tels qu'Agent, Patient ou Destination. Elle aide de nombreuses applications dans les domaines où des corpus annotés existent, mais est difficile à utiliser quand ce n'est pas le cas. Nous avons d'abord évalué sur le corpus FrameNet une méthode existante d'annotation basée uniquement sur VerbNet et donc indépendante du domaine considéré. Nous montrons que des améliorations conséquentes peuvent être obtenues à la fois d'un point de vue syntaxique avec la prise en compte de la voix passive et d'un point de vue sémantique en utilisant les restrictions de sélection indiquées dans VerbNet. Pour utiliser cette méthode en français, nous traduisons deux ressources lexicales anglaises. Nous commençons par la base de données lexicales WordNet. Nous traduisons ensuite le lexique VerbNet dans lequel les verbes sont regroupés sémantiquement grâce à leurs traits syntaxiques. La traduction, VerbNet, a été obtenue en réutilisant deux lexiques verbaux du français (le Lexique-Grammaire et Les Verbes Français) puis en modifiant manuellement l'ensemble des informations obtenues. Enfin, une fois ces briques en place, nous évaluons la faisabilité de l'annotation en rôles sémantiques en anglais et en français dans trois domaines spécifiques. Nous évaluons quels sont les avantages et inconvénients de se baser sur VerbNet et VerbuNet pour annoter ces domaines, avant d'indiquer nos perspectives pour poursuivre ces travaux
Ln th is Natural Language Processing Ph. D. Thesis, we aim to perform semantic role labeling on French domain-specific texts. This task first disambiguates the sense of predicates in a given text and annotates its child chunks with semantic roles such as Agent, Patient or Destination. The task helps many applications in domains where annotated corpora exist, but is difficult to use otherwise. We first evaluate on the FrameNet corpus an existing method based on VerbNet, which explains why the method is domain-independant. We show that substantial improvements can be obtained. We first use syntactic information by handling the passive voice. Next, we use semantic informations by taking advantage of the selectional restrictions present in VerbNet. To apply this method to French, we first translate lexical resources. We first translate the WordNet lexical database. Next, we translate the VerbNet lexicon which is organized semantically using syntactic information. We obtains its translation, VerbuNet, by reusing two French verb lexicons (the Lexique-Grammaire and Les Verbes Français) and by manually modifying and reorganizing the resulting lexicon. Finally, once those building blocks are in place, we evaluate the feasibilty of semantic role labeling of French and English in three specific domains. We study the pros and cons of using VerbNet and VerbnNet to annotate those domains before explaining our future work

Estilos ABNT, Harvard, Vancouver, APA, etc.

25

Carel, Elodie. "Segmentation de documents administratifs en couches couleur". Thesis, La Rochelle, 2015. http://www.theses.fr/2015LAROS014/document.

Texto completo da fonte

Resumo:

Les entreprises doivent traiter quotidiennement de gros volumes de documents papiers de toutes sortes. Automatisation, traçabilité, alimentation de systèmes d’informations, réduction des coûts et des délais de traitement, la dématérialisation a un impact économique évident. Pour respecter les contraintes industrielles, les processus historiques d’analyse simplifient les images grâce à une séparation fond/premier-plan. Cependant, cette binarisation peut être source d’erreurs lors des étapes de segmentation et de reconnaissance. Avec l’amélioration des techniques, la communauté d’analyse de documents a montré un intérêt croissant pour l’intégration d’informations colorimétriques dans les traitements, ceci afin d’améliorer leurs performances. Pour respecter le cadre imposé par notre partenaire privé, l’objectif était de mettre en place des processus non supervisés. Notre but est d’être capable d’analyser des documents même rencontrés pour la première fois quels que soient leurs contenus, leurs structures, et leurs caractéristiques en termes de couleurs. Les problématiques de ces travaux ont été d’une part l’identification d’un nombre raisonnable de couleurs principales sur une image ; et d’autre part, le regroupement en couches couleur cohérentes des pixels ayant à la fois une apparence colorimétrique très proche, et présentant une unité logique ou sémantique. Fournies sous forme d’un ensemble d’images binaires, ces couches peuvent être réinjectées dans la chaîne de dématérialisation en fournissant une alternative à l’étape de binarisation classique. Elles apportent en plus des informations complémentaires qui peuvent être exploitées dans un but de segmentation, de localisation, ou de description. Pour cela, nous avons proposé une segmentation spatio-colorimétrique qui permet d’obtenir un ensemble de régions locales perceptuellement cohérentes appelées superpixels, et dont la taille s’adapte au contenu spécifique des images de documents. Ces régions sont ensuite regroupées en couches couleur globales grâce à une analyse multi-résolution
Industrial companies receive huge volumes of documents everyday. Automation, traceability, feeding information systems, reducing costs and processing times, dematerialization has a clear economic impact. In order to respect the industrial constraints, the traditional digitization process simplifies the images by performing a background/foreground separation. However, this binarization can lead to some segmentation and recognition errors. With the improvements of technology, the community of document analysis has shown a growing interest in the integration of color information in the process to enhance its performance. In order to work within the scope provided by our industrial partner in the digitization flow, an unsupervised segmentation approach was chosen. Our goal is to be able to cope with document images, even when they are encountered for the first time, regardless their content, their structure, and their color properties. To this end, the first issue of this project was to identify a reasonable number of main colors which are observable on an image. Then, we aim to group pixels having both close color properties and a logical or semantic unit into consistent color layers. Thus, provided as a set of binary images, these layers may be reinjected into the digitization chain as an alternative to the conventional binarization. Moreover, they also provide extra-information about colors which could be exploited for segmentation purpose, elements spotting, or as a descriptor. Therefore, we have proposed a spatio-colorimetric approach which gives a set of local regions, known as superpixels, which are perceptually meaningful. Their size is adapted to the content of the document images. These regions are then merged into global color layers by means of a multiresolution analysis

Estilos ABNT, Harvard, Vancouver, APA, etc.

26

Eke, Samuel. "Stratégie d'évaluation de l'état des transformateurs : esquisse de solutions pour la gestion intégrée des transformateurs vieillissants". Thesis, Lyon, 2018. http://www.theses.fr/2018LYSEC013/document.

Texto completo da fonte

Resumo:

Cette thèse de doctorat traite des méthodes d’évaluation de l’état des transformateurs de puissance à huile. Elle apporte une approche particulière de mise en oeuvre des méthodes de classification dans la fouille de données. Elle propose une stratégie qui met en oeuvre deux nouveaux indicateurs de santé de l’huile construit à partir d’un système neuro flou ANFIS (Adaptative Neuro-Fuzzy Inference System) et un classifieur ou prédicteur de défaut construit à partir des méthodes de classification supervisée, notamment le classifieur Bayésien naïf. Un organigramme simple et efficace d’évaluation de l’état des transformateurs y est proposé. Il permet de faire une analyse rapide des paramètres issus des analyses physico-chimiques de l’huile et de des gaz dissous. Une exploitation des méthodes de classification non supervisée, notamment les méthodes de k-moyennes et C-moyennes flous a permis de reconstruire les périodes de fonctionnement d’un transformateur marquées par des défauts particuliers. Il a aussi été démontré comment ces méthodes peuvent servir d’outil d’aide à l’organisation de la maintenance d’un groupe de transformateurs à partir des données d’analyses d’huile disponibles
This PhD thesis deals the assessment method of the state of power transformers filled with oil. It brings a new approach by implementing classification methods and data mining dedicated to transformer maintenance. It proposes a strategy based on two new oil health indicators built from an adaptive Neuro-Fuzzy Inference System (ANFIS). Two classifiers were built on a labeled learning database. The Naive Bayes classifier was retained for the detection of fault from gases dissolved in oil. A simple and efficient flowchart for evaluating the condition of transformers is proposed. It allows a quick analysis of the parameters resulting from physicochemical analyzes of oil and dissolved gases. Using unsupervised classification techniques through the methods of kmeans and fuzzy C-means allowed to reconstruct operating periods of a transformer, with some particular faults. It has also been demonstrated how these methods can be used as tool to help the maintenance of a group of transformers from available oil analysis data

Estilos ABNT, Harvard, Vancouver, APA, etc.

27

El, Golli Aïcha. "Extraction de données symboliques et cartes topologiques: application aux données ayant une structure complexe". Phd thesis, Université Paris Dauphine - Paris IX, 2004. http://tel.archives-ouvertes.fr/tel-00178900.

Texto completo da fonte

Resumo:

Un des objectifs de lanalyse de données symboliques est de permettre une meilleure modélisation des variations et des imprécisions des données réelles. Ces données expriment en effet, un niveau de connaissance plus élevé, la modélisation doit donc offrir un formalisme plus riche que dans le cadre de lanalyse de données classiques. Un ensemble dopérateurs de généralisation symbolique existent et permettent une synthèse et représentation des données par le formalisme des assertions, formalisme défini en analyse de données symboliques. Cette généralisation étant supervisée, est souvent sensible aux observations aberrantes. Lorsque les données que lon souhaite généraliser sont hétérogènes, certaines assertions incluent des observations virtuelles. Face à ce nouveau formalisme et donc cette extension dordre sémantique que lanalyse de données symbolique a apporté, une nouvelle approche de traitement et dinterprétation simpose. Notre objectif au cours de ce travail est daméliorer tout dabord cette généralisation et de proposer ensuite une méthode de traitement de ces données. Les contributions originales de cette thèse portent sur de nouvelles approches de représentation et de classification des données à structure complexe. Nous proposons donc une décomposition permettant daméliorer la généralisation tout en offrant le formalisme symbolique. Cette décomposition est basée sur un algorithme divisif de classification. Nous avons aussi proposé une méthode de généralisation symbolique non supervisée basée sur l'algorithme des cartes topologiques de Kohonen. L'avantage de cette méthode est de réduire les données d'une manière non supervisée et de modéliser les groupes homogènes obtenus par des données symboliques. Notre seconde contribution porte sur lélaboration dune méthode de classification traitant les données à structure complexe. Cette méthode est une adaptation de la version batch de lalgorithme des cartes topologiques de Kohonen aux tableaux de dissimilarités. En effet, seule la définition dune mesure de dissimilarité adéquate, est nécessaire pour le bon déroulement de la méthode.

Estilos ABNT, Harvard, Vancouver, APA, etc.

28

Puigt, Mathieu. "Méthodes de séparation aveugle de sources fondées sur des transformées temps-fréquence. Application à des signaux de parole". Phd thesis, Université Paul Sabatier - Toulouse III, 2007. http://tel.archives-ouvertes.fr/tel-00270811.

Texto completo da fonte

Resumo:

Plusieurs méthodes de séparation aveugle de source (SAS), fondées sur des transformées temps-fréquence (TF), ont été proposées au cours de cette thèse. En sortie des systèmes utilisés, une contribution de chaque source est estimée, uniquement à l'aide des signaux mélangés. Toutes les méthodes étudiées dans ce manuscrit trouvent des petites zones du plan TF où une seule source est présente et estiment dans ces zones les paramètres de mélange. Ces approches sont particulièrement adaptées aux sources non-stationnaires.
Nous avons tout d'abord étudié et amélioré des méthodes proposées précédemment par l'équipe, basées sur des critères de variance ou de corrélation, pour des mélanges linéaires instantanés. Elles apportent d'excellentes performances pour des signaux de parole et peuvent aussi séparer des spectres issus de données astrophysiques. Cependant, la nature des mélanges qu'elles peuvent traiter limite leur champ d'application.
Nous avons donc étendu ces approches à des mélanges plus réalistes. Les premières extensions considèrent des mélanges de sources atténuées et décalées temporellement, ce qui correspond physiquement aux mélanges en chambre anéchoïque. Elles nécessitent des hypothèses de parcimonie beaucoup moins fortes que certaines approches de la littérature, tout en traitant le même type de mélanges. Nous avons étudié l'apport de méthodes de classification non-supervisée sur nos approches et avons obtenu de bonnes performances pour des mélanges de signaux de parole.
Enfin, une extension théorique aux mélanges convolutifs généraux est décrite mais nécessite de fortes hypothèses de parcimonie et le réglage d'indéterminations propres aux méthodes fréquentielles.

Estilos ABNT, Harvard, Vancouver, APA, etc.

29

Wynen, Daan. "Une représentation archétypale de style artistique : résumer et manipuler des stylesartistiques d'une façon interprétable". Thesis, Université Grenoble Alpes, 2020. http://www.theses.fr/2020GRALM066.

Texto completo da fonte

Resumo:

Dans cette thèse, nous étudions les représentations utilisées pour décrire et manipuler le style artistique d'œuvres d'art. Dans la littérature sur le transfert de style, différentes représentations ont été proposées, mais ces dernières années, les représentations de style artistique qui constituent le paradigme dominant en vision par ordinateur ont été celles apprises par des réseaux de neurones profonds et qui sont entraînés avec des images naturelles. Nous nous appuyons sur ces représentations avec le double objectif de résumer les styles artistiques présents dans de grandes collections d’œuvres d’art numérisées, ainsi que la manipulation des styles d’images naturelles ou artistiques.Pour cela, nous proposons une représentation concise et intuitive basée sur l’analyse archétypale, une méthode d’apprentissage classique non supervisée avec des propriétés qui la rendent particulièrement adaptée à cette tâche. Nousmontrons comment cette représentation archétypale du style peut être utilisée pour découvrir et décrire, de manière interprétable, quels styles sont présents dans une grande collection. Cela permet d’explorer les styles présents dansune collection sous différents angles ; différentes manières de visualiser les résultats d’analyse permettent de poser différentes questions. Ceux-ci peuvent concerner un style qui a été identifié dans la collection des œuvres d’art, sur le style d’une œuvre d’art particulière, ou plus largement sur la relation entre les styles identifiés.Nous appliquons notre analyse à une collection d’œuvres d’art issues de WikiArt, un effort de collecte en ligne d’arts visuels poursuivi par des bénévoles. Cet ensemble de données comprend également des métadonnées telles que l’identité des artistes, le genre et le style des œuvres d’art. Nous utilisons ces métadonnées pour une analyse plus approfondie de la représentation de style archétypale le long des lignes biographiques des artistes. et avec une analyse des relations au sein de groupes d’artistes
In this thesis we study the representations used to describe and manipulate artistic style of visual arts.In the neural style transfer literature and related strains of research, different representations have been proposed, but in recent years the by far dominant representations of artistic style in the computer vision community have been those learned by deep neural networks, trained on natural images.We build on these representations with the dual goal of summarizing the artistic styles present in large collections of digitized artworks, as well as manipulating the styles of images both natural and artistic.To this end, we propose a concise and intuitive representation based on archetypal analysis, a classic unsupervised learning method with properties that make it especially suitable for the task. We demonstrate how this archetypal representation of style can be used to discover and describe, in an interpretable way, which styles are present in a large collection.This enables the exploration of styles present in a collection from different angles; different ways of visualizing the information allow for different questions to be asked.These can be about a style that was identified across artworks, about the style of a particular artwork, or more broadly about how the styles that were identified relate to one another.We apply our analysis to a collection of artworks obtained from WikiArt, an online collection effort of visual arts driven by volunteers. This dataset also includes metadata such as artist identies, genre, and style of the artworks. We use this metadata for further analysis of the archetypal style representation along biographic lines of artists and with an eye on the relationships within groups of artists

Estilos ABNT, Harvard, Vancouver, APA, etc.

30

Grissa, Dhouha. "Etude comportementale des mesures d'intérêt d'extraction de connaissances". Phd thesis, Université Blaise Pascal - Clermont-Ferrand II, 2013. http://tel.archives-ouvertes.fr/tel-01023975.

Texto completo da fonte

Resumo:

La recherche de règles d'association intéressantes est un domaine important et actif en fouille de données. Puisque les algorithmes utilisés en extraction de connaissances à partir de données (ECD), ont tendance à générer un nombre important de règles, il est difficile à l'utilisateur de sélectionner par lui même les connaissances réellement intéressantes. Pour répondre à ce problème, un post-filtrage automatique des règles s'avère essentiel pour réduire fortement leur nombre. D'où la proposition de nombreuses mesures d'intérêt dans la littérature, parmi lesquelles l'utilisateur est supposé choisir celle qui est la plus appropriée à ses objectifs. Comme l'intérêt dépend à la fois des préférences de l'utilisateur et des données, les mesures ont été répertoriées en deux catégories : les mesures subjectives (orientées utilisateur ) et les mesures objectives (orientées données). Nous nous focalisons sur l'étude des mesures objectives. Néanmoins, il existe une pléthore de mesures objectives dans la littérature, ce qui ne facilite pas le ou les choix de l'utilisateur. Ainsi, notre objectif est d'aider l'utilisateur, dans sa problématique de sélection de mesures objectives, par une approche par catégorisation. La thèse développe deux approches pour assister l'utilisateur dans sa problématique de choix de mesures objectives : (1) étude formelle suite à la définition d'un ensemble de propriétés de mesures qui conduisent à une bonne évaluation de celles-ci ; (2) étude expérimentale du comportement des différentes mesures d'intérêt à partir du point de vue d'analyse de données. Pour ce qui concerne la première approche, nous réalisons une étude théorique approfondie d'un grand nombre de mesures selon plusieurs propriétés formelles. Pour ce faire, nous proposons tout d'abord une formalisation de ces propriétés afin de lever toute ambiguïté sur celles-ci. Ensuite, nous étudions, pour différentes mesures d'intérêt objectives, la présence ou l'absence de propriétés caractéristiques appropriées. L'évaluation des mesures est alors un point de départ pour une catégorisation de celle-ci. Différentes méthodes de classification ont été appliquées : (i) méthodes sans recouvrement (CAH et k-moyennes) qui permettent l'obtention de groupes de mesures disjoints, (ii) méthode avec recouvrement (analyse factorielle booléenne) qui permet d'obtenir des groupes de mesures qui se chevauchent. Pour ce qui concerne la seconde approche, nous proposons une étude empirique du comportement d'une soixantaine de mesures sur des jeux de données de nature différente. Ainsi, nous proposons une méthodologie expérimentale, où nous cherchons à identifier les groupes de mesures qui possèdent, empiriquement, un comportement semblable. Nous effectuons par la suite une confrontation avec les deux résultats de classification, formel et empirique dans le but de valider et mettre en valeur notre première approche. Les deux approches sont complémentaires, dans l'optique d'aider l'utilisateur à effectuer le bon choix de la mesure d'intérêt adaptée à son application.

Estilos ABNT, Harvard, Vancouver, APA, etc.

31

Sharma, Avinash. "Représentation et enregistrement de formes visuelles 3D à l'aide de Laplacien graphe et noyau de la chaleur". Phd thesis, Université de Grenoble, 2012. http://tel.archives-ouvertes.fr/tel-00860533.

Texto completo da fonte

Resumo:

Analyse de la forme 3D est un sujet de recherche extrêmement actif dans les deux l'infographie et vision par ordinateur. Dans la vision par ordinateur, l'acquisition de formes et de modélisation 3D sont généralement le résultat du traitement des données complexes et des méthodes d'analyse de données. Il existe de nombreuses situations concrètes où une forme visuelle est modélisé par un nuage de points observés avec une variété de capteurs 2D et 3D. Contrairement aux données graphiques, les données sensorielles ne sont pas, dans le cas général, uniformément répartie sur toute la surface des objets observés et ils sont souvent corrompus par le bruit du capteur, les valeurs aberrantes, les propriétés de surface (diffusion, spécularités, couleur, etc), l'auto occlusions, les conditions d'éclairage variables. Par ailleurs, le même objet que l'on observe par différents capteurs, à partir de points de vue légèrement différents, ou à des moments différents cas peuvent donner la répartition des points tout à fait différentes, des niveaux de bruit et, plus particulièrement, les différences topologiques, par exemple, la fusion des mains. Dans cette thèse, nous présentons une représentation de multi-échelle des formes articulés et concevoir de nouvelles méthodes d'analyse de forme, en gardant à l'esprit les défis posés par les données de forme visuelle. En particulier, nous analysons en détail le cadre de diffusion de chaleur pour représentation multi-échelle de formes 3D et proposer des solutions pour la segmentation et d'enregistrement en utilisant les méthodes spectrales graphique et divers algorithmes d'apprentissage automatique, à savoir, le modèle de mélange gaussien (GMM) et le Espérance-Maximisation (EM). Nous présentons d'abord l'arrière-plan mathématique sur la géométrie différentielle et l'isomorphisme graphique suivie par l'introduction de la représentation spectrale de formes 3D articulés. Ensuite, nous présentons une nouvelle méthode non supervisée pour la segmentation de la forme 3D par l'analyse des vecteurs propres Laplacien de graphe. Nous décrivons ensuite une solution semi-supervisé pour la segmentation de forme basée sur un nouveau paradigme d'apprendre, d'aligner et de transférer. Ensuite, nous étendre la représentation de forme 3D à une configuration multi-échelle en décrivant le noyau de la chaleur cadre. Enfin, nous présentons une méthode d'appariement dense grâce à la représentation multi-échelle de la chaleur du noyau qui peut gérer les changements topologiques dans des formes visuelles et de conclure par une discussion détaillée et l'orientation future des travaux.

Estilos ABNT, Harvard, Vancouver, APA, etc.

32

Touleimat, Nizar. "Méthodologie d'extraction et d'analyse de réseaux de régulation de gènes : analyse de la réponse transcriptionnelle à l'irradiation chez S. cerevisiæ". Phd thesis, Université d'Evry-Val d'Essonne, 2008. http://tel.archives-ouvertes.fr/tel-00877095.

Texto completo da fonte

Resumo:

La réponse cellulaire aux dommages de l'ADN provoqués par l'irradiation (IR) est relativement bien étudiée mais de nombreuses observations montrent l'implication de l'expression de nombreux gènes. Nous souhaitons identifier les différentes formes de la réponse transcriptionnelle à l'IR et reconstruire un réseau de régulation génique impliqué dans son contrôle. La problématique réside dans l'exploitation de dynamiques d'expression de gènes dans des conditions de perturbations génétiques et dans l'intégration d'informations biologiques systémiques. Nous définissons une approche constituée d'une étape automatisée de déduction de régulations à partir de perturbations et de deux étapes d'induction qui permettent d'analyser la dynamique d'expression des gènes et d'extraire des régulations des données additionnelles. Cela nous a permis d'identifier, chez la levure, une réponse complexe à l'IR et de proposer un modèle de régulation dont certaines relations ont été validées expérimentalement.

Estilos ABNT, Harvard, Vancouver, APA, etc.

33

Puigt, Matthieu. "Méthodes de séparation aveugle de sources fondées sur des transformées temps-fréquence : application à des signaux de parole". Toulouse 3, 2007. http://thesesups.ups-tlse.fr/217/.

Texto completo da fonte

Resumo:

Plusieurs méthodes de séparation aveugle de source (SAS), fondées sur des transformées temps-fréquence (TF), ont été proposées au cours de cette thèse. En sortie des systèmes utilisés, une contribution de chaque source est estimée, uniquement à l'aide des signaux mélangés. Toutes les méthodes étudiées dans ce manuscrit trouvent des petites zones du plan TF où une seule source est présente et estiment dans ces zones les paramètres de mélange. Ces approches sont particulièrement adaptées aux sources non-stationnaires. Nous avons tout d'abord étudié et amélioré des méthodes proposées précédemment par l'équipe, basées sur des critères de variance ou de corrélation, pour des mélanges linéaires instantanés. Elles apportent d'excellentes performances pour des signaux de parole et peuvent aussi séparer des spectres issus de données astrophysiques. Cependant, la nature des mélanges qu'elles peuvent traiter limite leur champ d'application. Nous avons donc étendu ces approches à des mélanges plus réalistes. Les premières extensions considèrent des mélanges de sources atténuées et décalées temporellement, ce qui correspond physiquement aux mélanges en chambre anéchoïque. Elles nécessitent des hypothèses de parcimonie beaucoup moins fortes que certaines approches de la littérature, tout en traitant le même type de mélanges. Nous avons étudié l'apport de méthodes de classification non-supervisée sur nos approches et avons obtenu de bonnes performances pour des mélanges de signaux de parole. Enfin, une extension théorique aux mélanges convolutifs généraux est décrite mais nécessite de fortes hypothèses de parcimonie et le réglage d'indéterminations propres aux méthodes fréquentielles
Several time-frequency (TF) blind source separation (BSS) methods have been proposed in this thesis. In the systems output that have been used, a contribution of each source is estimated, using only mixed signals. All the methods proposed in this manuscript find tiny TF zones where only one source is active and estimate the mixing parameters in these zones. These approaches are particularly well suited for non-stationary sources (speech, music). We first studied and improved linear instantaneous methods based on variance or correlation criteria, that have been previously proposed by our team. They yield excellent performance for signals of speech and can also separate spectra from astrophysical data. However, the nature of the mixtures that they can process limits their application fields. We have extended these approaches to more realistic mixtures. The first extensions consider attenuated and delayed mixtures of sources, which corresponds to mixtures in anechoic chamber. They require less restrictive sparsity assumptions than some approaches previously proposed in the literature, while addressing the same type of mixtures. We have studied the contribution of clustering techniques to our approaches and have achieved good performance for mixtures of speech signals. Lastly, a theoretical extension of these methods to general convolutive mixtures is described. It needs strong sparsity hypotheses and we have to solve classical indeterminacies of frequency-domain BSS methods

Estilos ABNT, Harvard, Vancouver, APA, etc.

34

Corneli, Marco. "Dynamic stochastic block models, clustering and segmentation in dynamic graphs". Thesis, Paris 1, 2017. http://www.theses.fr/2017PA01E012/document.

Texto completo da fonte

Resumo:

Cette thèse porte sur l’analyse de graphes dynamiques, définis en temps discret ou continu. Nous introduisons une nouvelle extension dynamique du modèle a blocs stochastiques (SBM), appelée dSBM, qui utilise des processus de Poisson non homogènes pour modéliser les interactions parmi les paires de nœuds d’un graphe dynamique. Les fonctions d’intensité des processus ne dépendent que des classes des nœuds comme dans SBM. De plus, ces fonctions d’intensité ont des propriétés de régularité sur des intervalles temporels qui sont à estimer, et à l’intérieur desquels les processus de Poisson redeviennent homogènes. Un récent algorithme d’estimation pour SBM, qui repose sur la maximisation d’un critère exact (ICL exacte) est ici adopté pour estimer les paramètres de dSBM et sélectionner simultanément le modèle optimal. Ensuite, un algorithme exact pour la détection de rupture dans les séries temporelles, la méthode «pruned exact linear time» (PELT), est étendu pour faire de la détection de rupture dans des données de graphe dynamique selon le modèle dSBM. Enfin, le modèle dSBM est étendu ultérieurement pour faire de l’analyse de réseau textuel dynamique. Les réseaux sociaux sont un exemple de réseaux textuels: les acteurs s’échangent des documents (posts, tweets, etc.) dont le contenu textuel peut être utilisé pour faire de la classification et détecter la structure temporelle du graphe dynamique. Le modèle que nous introduisons est appelé «dynamic stochastic topic block model» (dSTBM)
This thesis focuses on the statistical analysis of dynamic graphs, both defined in discrete or continuous time. We introduce a new extension of the stochastic block model (SBM) for dynamic graphs. The proposed approach, called dSBM, adopts non homogeneous Poisson processes to model the interaction times between pairs of nodes in dynamic graphs, either in discrete or continuous time. The intensity functions of the processes only depend on the node clusters, in a block modelling perspective. Moreover, all the intensity functions share some regularity properties on hidden time intervals that need to be estimated. A recent estimation algorithm for SBM, based on the greedy maximization of an exact criterion (exact ICL) is adopted for inference and model selection in dSBM. Moreover, an exact algorithm for change point detection in time series, the "pruned exact linear time" (PELT) method is extended to deal with dynamic graph data modelled via dSBM. The approach we propose can be used for change point analysis in graph data. Finally, a further extension of dSBM is developed to analyse dynamic net- works with textual edges (like social networks, for instance). In this context, the graph edges are associated with documents exchanged between the corresponding vertices. The textual content of the documents can provide additional information about the dynamic graph topological structure. The new model we propose is called "dynamic stochastic topic block model" (dSTBM).Graphs are mathematical structures very suitable to model interactions between objects or actors of interest. Several real networks such as communication networks, financial transaction networks, mobile telephone networks and social networks (Facebook, Linkedin, etc.) can be modelled via graphs. When observing a network, the time variable comes into play in two different ways: we can study the time dates at which the interactions occur and/or the interaction time spans. This thesis only focuses on the first time dimension and each interaction is assumed to be instantaneous, for simplicity. Hence, the network evolution is given by the interaction time dates only. In this framework, graphs can be used in two different ways to model networks. Discrete time […] Continuous time […]. In this thesis both these perspectives are adopted, alternatively. We consider new unsupervised methods to cluster the vertices of a graph into groups of homogeneous connection profiles. In this manuscript, the node groups are assumed to be time invariant to avoid possible identifiability issues. Moreover, the approaches that we propose aim to detect structural changes in the way the node clusters interact with each other. The building block of this thesis is the stochastic block model (SBM), a probabilistic approach initially used in social sciences. The standard SBM assumes that the nodes of a graph belong to hidden (disjoint) clusters and that the probability of observing an edge between two nodes only depends on their clusters. Since no further assumption is made on the connection probabilities, SBM is a very flexible model able to detect different network topologies (hubs, stars, communities, etc.)

Estilos ABNT, Harvard, Vancouver, APA, etc.

35

Pitou, Cynthia. "Extraction d'informations textuelles au sein de documents numérisés : cas des factures". Thesis, La Réunion, 2017. http://www.theses.fr/2017LARE0015.

Texto completo da fonte

Resumo:

Le traitement automatique de documents consiste en la transformation dans un format compréhensible par un système informatique de données présentes au sein de documents et compréhensibles par l'Homme. L'analyse de document et la compréhension de documents sont les deux phases du processus de traitement automatique de documents. Étant donnée une image de document constituée de mots, de lignes et d'objets graphiques tels que des logos, l'analyse de documents consiste à extraire et isoler les mots, les lignes et les objets, puis à les regrouper au sein de blocs. Les différents blocs ainsi formés constituent la structure géométrique du document. La compréhension de documents fait correspondre à cette structure géométrique une structure logique en considérant des liaisons logiques (à gauche, à droite, au-dessus, en-dessous) entre les objets du document. Un système de traitement de documents doit être capable de : (i) localiser une information textuelle, (ii) identifier si cette information est pertinente par rapport aux autres informations contenues dans le document, (iii) extraire cette information dans un format compréhensible par un programme informatique. Pour la réalisation d'un tel système, les difficultés à surmonter sont liées à la variabilité des caractéristiques de documents, telles que le type (facture, formulaire, devis, rapport, etc.), la mise en page (police, style, agencement), la langue, la typographie et la qualité de numérisation du document. Dans ce mémoire, nous considérons en particulier des documents numérisés, également connus sous le nom d'images de documents. Plus précisément, nous nous intéressons à la localisation d'informations textuelles au sein d'images de factures, afin de les extraire à l'aide d'un moteur de reconnaissance de caractères. Les factures sont des documents très utilisés mais non standards. En effet, elles contiennent des informations obligatoires (le numéro de facture, le numéro siret de l'émetteur, les montants, etc.) qui, selon l'émetteur, peuvent être localisées à des endroits différents. Les contributions présentées dans ce mémoire s'inscrivent dans le cadre de la localisation et de l'extraction d'informations textuelles fondées sur des régions identifiées au sein d'une image de document.Tout d'abord, nous présentons une approche de décomposition d'une image de documents en sous-régions fondée sur la décomposition quadtree. Le principe de cette approche est de décomposer une image de documents en quatre sous-régions, de manière récursive, jusqu'à ce qu'une information textuelle d'intérêt soit extraite à l'aide d'un moteur de reconnaissance de caractères. La méthode fondée sur cette approche, que nous proposons, permet de déterminer efficacement les régions contenant une information d'intérêt à extraire.Dans une autre approche, incrémentale et plus flexible, nous proposons un système d'extraction d'informations textuelles qui consiste en un ensemble de régions prototypes et de chemins pour parcourir ces régions prototypes. Le cycle de vie de ce système comprend cinq étapes:- Construction d'un jeu de données synthétiques à partir d'images de factures réelles contenant les informations d'intérêts.- Partitionnement des données produites.- Détermination des régions prototypes à partir de la partition obtenue.- Détermination des chemins pour parcourir les régions prototypes, à partir du treillis de concepts d'un contexte formel convenablement construit.- Mise à jour du système de manière incrémentale suite à l'insertion de nouvelles données
Document processing is the transformation of a human understandable data in a computer system understandable format. Document analysis and understanding are the two phases of document processing. Considering a document containing lines, words and graphical objects such as logos, the analysis of such a document consists in extracting and isolating the words, lines and objects and then grouping them into blocks. The subsystem of document understanding builds relationships (to the right, left, above, below) between the blocks. A document processing system must be able to: locate textual information, identify if that information is relevant comparatively to other information contained in the document, extract that information in a computer system understandable format. For the realization of such a system, major difficulties arise from the variability of the documents characteristics, such as: the type (invoice, form, quotation, report, etc.), the layout (font, style, disposition), the language, the typography and the quality of scanning.This work is concerned with scanned documents, also known as document images. We are particularly interested in locating textual information in invoice images. Invoices are largely used and well regulated documents, but not unified. They contain mandatory information (invoice number, unique identifier of the issuing company, VAT amount, net amount, etc.) which, depending on the issuer, can take various locations in the document. The present work is in the framework of region-based textual information localization and extraction.First, we present a region-based method guided by quadtree decomposition. The principle of the method is to decompose the images of documents in four equals regions and each regions in four new regions and so on. Then, with a free optical character recognition (OCR) engine, we try to extract precise textual information in each region. A region containing a number of expected textual information is not decomposed further. Our method allows to determine accurately in document images, the regions containing text information that one wants to locate and retrieve quickly and efficiently.In another approach, we propose a textual information extraction model consisting in a set of prototype regions along with pathways for browsing through these prototype regions. The life cycle of the model comprises five steps:- Produce synthetic invoice data from real-world invoice images containing the textual information of interest, along with their spatial positions.- Partition the produced data.- Derive the prototype regions from the obtained partition clusters.- Derive pathways for browsing through the prototype regions, from the concept lattice of a suitably defined formal context.- Update incrementally the set of protype regions and the set of pathways, when one has to add additional data

Estilos ABNT, Harvard, Vancouver, APA, etc.

36

Doan, Tien Tai. "Réalisation d’une aide au diagnostic en orthodontie par apprentissage profond". Electronic Thesis or Diss., université Paris-Saclay, 2021. http://www.theses.fr/2021UPASG033.

Texto completo da fonte

Resumo:

L'analyse et le diagnostic précis à partir d'images dentaires sont un facteur essentiel de la réussite des traitements orthodontiques. De nombreux procédés de traitement d'image ont été proposés pour résoudre ce problème. Cependant, ces études fonctionnent principalement sur de petits ensembles de données de radiographies dans des conditions de laboratoire et ne sont pas vraiment applicables en tant que produits ou services complets. Dans cette thèse, nous construisons des modèles d'apprentissage profond pour diagnostiquer des problèmes dentaires tels que la gingivite et les dents chevauchées à l'aide de photos prises par de téléphones portables. Nous étudions les couches cachées de ces modèles pour trouver les forces et les limites de chaque méthode. Nous proposons un pipeline complet intégrant le prétraitement des images, l'apprentissage du modèle et le post-traitement des résultats pour créer un processus d'analyse complet prêt à être mis en production en situation réel. Afin d'améliorer la fiabilité des modèles, nous avons étudié différentes méthodes d'augmentation des données, en particulier les méthodes d'adaptation de domaine en utilisant des approche de transfert d'images, à la fois supervisée et non supervisée, et obtenons des résultats prometteurs. Les approches de transformation d'images sont également utilisés pour simplifier le choix des appareils orthodontiques par les patients en leur montrant à quoi pourraient ressembler leurs dents pendant le traitement. Nos méthodes permettent de générées des images réalistes et en haute définition. Nous proposons également un nouveau modèle de transformation d'image non supervisé qui peut manipuler les caractéristiques de l'image sans nécessiter d'annotation supplémentaire. Notre modèle surpasse les techniques de pointe sur plusieurs applications de transformation d'images et est également étendu pour les problèmes de « few-shot learning »
Accurate processing and diagnosis of dental images is an essential factor determining the success of orthodontic treatment. Many image processing methods have been proposed to address this problem. Those studies mainly work on small datasets of radiographs under laboratory conditions and are not highly applicable as complete products or services. In this thesis, we train deep learning models to diagnose dental problems such as gingivitis and crowded teeth using mobile phones' images. We study feature layers of these models to find the strengths and limitations of each method. Besides training deep learning models, we also embed each of them in a pipeline, including preprocessing and post-processing steps, to create a complete product. For the lack of training data problem, we studied a variety of methods for data augmentation, especially domain adaptation methods using image-to-image translation models, both supervised and unsupervised, and obtain promising results. Image translation networks are also used to simplifying patients' choice of orthodontic appliances by showing them how their teeth could look like during treatment. Generated images have are realistic and in high resolution. Researching further into unsupervised image translation neural networks, we propose an unsupervised imageto- image translation model which can manipulate features of objects in the image without requiring additional annotation. Our model outperforms state-of-the-art techniques on multiple image translation applications and is also extended for few-shot learning problems

Estilos ABNT, Harvard, Vancouver, APA, etc.

37

Sublemontier, Jacques-Henri. "Classification non supervisée : de la multiplicité des données à la multiplicité des analyses". Phd thesis, Université d'Orléans, 2012. http://tel.archives-ouvertes.fr/tel-00801555.

Texto completo da fonte

Resumo:

La classification automatique non supervisée est un problème majeur, aux frontières de multiples communautés issues de l'Intelligence Artificielle, de l'Analyse de Données et des Sciences de la Cognition. Elle vise à formaliser et mécaniser la tâche cognitive de classification, afin de l'automatiser pour la rendre applicable à un grand nombre d'objets (ou individus) à classer. Des visées plus applicatives s'intéressent à l'organisation automatique de grands ensembles d'objets en différents groupes partageant des caractéristiques communes. La présente thèse propose des méthodes de classification non supervisées applicables lorsque plusieurs sources d'informations sont disponibles pour compléter et guider la recherche d'une ou plusieurs classifications des données. Pour la classification non supervisée multi-vues, la première contribution propose un mécanisme de recherche de classifications locales adaptées aux données dans chaque représentation, ainsi qu'un consensus entre celles-ci. Pour la classification semi-supervisée, la seconde contribution propose d'utiliser des connaissances externes sur les données pour guider et améliorer la recherche d'une classification d'objets par un algorithme quelconque de partitionnement de données. Enfin, la troisième et dernière contribution propose un environnement collaboratif permettant d'atteindre au choix les objectifs de consensus et d'alternatives pour la classification d'objets mono-représentés ou multi-représentés. Cette dernière contribution ré-pond ainsi aux différents problèmes de multiplicité des données et des analyses dans le contexte de la classification non supervisée, et propose, au sein d'une même plate-forme unificatrice, une proposition répondant à des problèmes très actifs et actuels en Fouille de Données et en Extraction et Gestion des Connaissances.

Estilos ABNT, Harvard, Vancouver, APA, etc.

38

Jouini, Mohamed Soufiane. "Caractérisation des réservoirs basée sur des textures des images scanners de carottes". Thesis, Bordeaux 1, 2009. http://www.theses.fr/2009BOR13769/document.

Texto completo da fonte

Resumo:

Les carottes, extraites lors des forages de puits de pétrole, font partie des éléments les plus importants dans la chaîne de caractérisation de réservoir. L’acquisition de celles-ci à travers un scanner médical permet d’étudier de façon plus fine les variations des types de dépôts. Le but de cette thèse est d’établir les liens entre les imageries scanners 3D de carottes, et les différentes propriétés pétrophysiques et géologiques. Pour cela la phase de modélisation des images, et plus particulièrement des textures, est très importante et doit fournir des descripteurs extraits qui présentent un assez haut degrés de confiance. Une des solutions envisagée pour la recherche de descripteurs a été l’étude des méthodes paramétriques permettant de valider l’analyse faite sur les textures par un processus de synthèse. Bien que ceci ne représente pas une preuve pour un lien bijectif entre textures et paramètres, cela garantit cependant au moins une confiance en ces éléments. Dans cette thèse nous présentons des méthodes et algorithmes développés pour atteindre les objectifs suivants : 1. Mettre en évidence les zones d’homogénéités sur les zones carottées. Cela se fait de façon automatique à travers de la classification et de l’apprentissage basés sur les paramètres texturaux extraits. 2. Établir les liens existants entre images scanners et les propriétés pétrophysiques de la roche. Ceci se fait par prédiction de propriétés pétrophysiques basées sur l’apprentissage des textures et des calibrations grâce aux données réelles.
Cores extracted, during wells drilling, are essential data for reservoirs characterization. A medical scanner is used for their acquisition. This feature provide high resolution images improving the capacity of interpretation. The main goal of the thesis is to establish links between these images and petrophysical data. Then parametric texture modelling can be used to achieve this goal and should provide reliable set of descriptors. A possible solution is to focus on parametric methods allowing synthesis. Even though, this method is not a proven mathematically, it provides high confidence on set of descriptors and allows interpretation into synthetic textures. In this thesis methods and algorithms were developed to achieve the following goals : 1. Segment main representative texture zones on cores. This is achieved automatically through learning and classifying textures based on parametric model. 2. Find links between scanner images and petrophysical parameters. This is achieved though calibrating and predicting petrophysical data with images (Supervised Learning Process)

Estilos ABNT, Harvard, Vancouver, APA, etc.

39

Al-Najdi, Atheer. "Une approche basée sur les motifs fermés pour résoudre le problème de clustering par consensus". Thesis, Université Côte d'Azur (ComUE), 2016. http://www.theses.fr/2016AZUR4111/document.

Texto completo da fonte

Resumo:

Le clustering est le processus de partitionnement d’un ensemble de données en groupes, de sorte que les instances du même groupe sont plus semblables les unes aux autres qu’avec celles de tout autre groupe. De nombreux algorithmes de clustering ont été proposés, mais aucun d’entre eux ne s’avère fournir une partitiondes données pertinente dans toutes les situations. Le clustering par consensus vise à améliorer le processus de regroupement en combinant différentes partitions obtenues à partir de divers algorithmes afin d’obtenir une solution de consensus de meilleure qualité. Dans ce travail, une nouvelle méthode de clustering par consensus, appelée MultiCons, est proposée. Cette méthode utilise la technique d’extraction des itemsets fréquents fermés dans le but de découvrir les similitudes entre les différentes solutions de clustering dits de base. Les similitudes identifiées sont représentées sous une forme de motifs de clustering, chacun définissant un accord entre un ensemble de clusters de bases sur le regroupement d’un ensemble d’instances. En traitant ces motifs par groupes, en fonction du nombre de clusters de base qui définissent le motif, la méthode MultiCons génère une solution de consensus pour chaque groupe, générant par conséquence plusieurs consensus candidats. Ces différentes solutions sont ensuite représentées dans une structure arborescente appelée arbre de consensus, ouConsTree. Cette représentation graphique facilite la compréhension du processus de construction des multiples consensus, ainsi que les relations entre les instances et les structures d’instances dans l’espace de données
Clustering is the process of partitioning a dataset into groups, so that the instances in the same group are more similar to each other than to instances in any other group. Many clustering algorithms were proposed, but none of them proved to provide good quality partition in all situations. Consensus clustering aims to enhance the clustering process by combining different partitions obtained from different algorithms to yield a better quality consensus solution. In this work, a new consensus clustering method, called MultiCons, is proposed. It uses the frequent closed itemset mining technique in order to discover the similarities between the different base clustering solutions. The identified similarities are presented in a form of clustering patterns, that each defines the agreement between a set of base clusters in grouping a set of instances. By dividing these patterns into groups based on the number of base clusters that define the pattern, MultiCons generates a consensussolution from each group, resulting in having multiple consensus candidates. These different solutions are presented in a tree-like structure, called ConsTree, that facilitates understanding the process of building the multiple consensuses, and also the relationships between the data instances and their structuring in the data space. Five consensus functions are proposed in this work in order to build a consensus solution from the clustering patterns. Approach 1 is to just merge any intersecting clustering patterns. Approach 2 can either merge or split intersecting patterns based on a proposed measure, called intersection ratio

Estilos ABNT, Harvard, Vancouver, APA, etc.

40

Kalinicheva, Ekaterina. "Unsupervised satellite image time series analysis using deep learning techniques". Electronic Thesis or Diss., Sorbonne université, 2020. http://www.theses.fr/2020SORUS335.

Texto completo da fonte

Resumo:

Cette thèse présente un ensemble d'algorithmes non-supervisés pour l'analyse générique de séries temporelles d'images satellites (STIS). Nos algorithmes exploitent des méthodes de machine learning et, notamment, les réseaux de neurones afin de détecter les différentes entités spatio-temporelles et leurs changements éventuels dans le temps. Nous visons à identifier trois types de comportement temporel : les zones sans changements, les changements saisonniers, les changements non triviaux (changements permanents comme les constructions, la rotation des cultures agricoles, etc).Par conséquent, nous proposons deux frameworks : pour la détection et le clustering des changements non-triviaux et pour le clustering des changements saisonniers et des zones sans changements. Le premier framework est composé de deux étapes : la détection de changements bi-temporels et leur interprétation dans le contexte multi-temporel avec une approche basée graphes. La détection de changements bi-temporels est faite pour chaque couple d’images consécutives et basée sur la transformation des features avec les autoencodeurs (AEs). A l’étape suivante, les changements à différentes dates qui appartiennent à la même zone géographique forment les graphes d’évolution qui sont par la suite clusterisés avec un modèle AE de réseaux de neurones récurrents. Le deuxième framework présente le clustering basé objets de STIS. Premièrement, la STIS est encodée en image unique avec un AE convolutif 3D multi-vue. Dans un deuxième temps, nous faisons la segmentation en deux étapes en utilisant à la fois l’image encodée et la STIS. Finalement, les segments obtenus sont clusterisés avec leurs descripteurs encodés
This thesis presents a set of unsupervised algorithms for satellite image time series (SITS) analysis. Our methods exploit machine learning algorithms and, in particular, neural networks to detect different spatio-temporal entities and their eventual changes in the time.In our thesis, we aim to identify three different types of temporal behavior: no change areas, seasonal changes (vegetation and other phenomena that have seasonal recurrence) and non-trivial changes (permanent changes such as constructions or demolishment, crop rotation, etc). Therefore, we propose two frameworks: one for detection and clustering of non-trivial changes and another for clustering of “stable” areas (seasonal changes and no change areas). The first framework is composed of two steps which are bi-temporal change detection and the interpretation of detected changes in a multi-temporal context with graph-based approaches. The bi-temporal change detection is performed for each pair of consecutive images of the SITS and is based on feature translation with autoencoders (AEs). At the next step, the changes from different timestamps that belong to the same geographic area form evolution change graphs. The graphs are then clustered using a recurrent neural networks AE model to identify different types of change behavior. For the second framework, we propose an approach for object-based SITS clustering. First, we encode SITS with a multi-view 3D convolutional AE in a single image. Second, we perform a two steps SITS segmentation using the encoded SITS and original images. Finally, the obtained segments are clustered exploiting their encoded descriptors

Estilos ABNT, Harvard, Vancouver, APA, etc.

41

Mure, Simon. "Classification non supervisée de données spatio-temporelles multidimensionnelles : Applications à l’imagerie". Thesis, Lyon, 2016. http://www.theses.fr/2016LYSEI130/document.

Texto completo da fonte

Resumo:

Avec l'augmentation considérable d'acquisitions de données temporelles dans les dernières décennies comme les systèmes GPS, les séquences vidéo ou les suivis médicaux de pathologies ; le besoin en algorithmes de traitement et d'analyse efficaces d'acquisition longitudinales n'a fait qu'augmenter. Dans cette thèse, nous proposons une extension du formalisme mean-shift, classiquement utilisé en traitement d'images, pour le groupement de séries temporelles multidimensionnelles. Nous proposons aussi un algorithme de groupement hiérarchique des séries temporelles basé sur la mesure de dynamic time warping afin de prendre en compte les déphasages temporels. Ces choix ont été motivés par la nécessité d'analyser des images acquises en imagerie par résonance magnétique sur des patients atteints de sclérose en plaques. Cette maladie est encore très méconnue tant dans sa genèse que sur les causes des handicaps qu'elle peut induire. De plus aucun traitement efficace n'est connu à l'heure actuelle. Le besoin de valider des hypothèses sur les lésions de sclérose en plaque nous a conduit à proposer des méthodes de groupement de séries temporelles ne nécessitant pas d'a priori sur le résultat final, méthodes encore peu développées en traitement d'images
Due to the dramatic increase of longitudinal acquisitions in the past decades such as video sequences, global positioning system (GPS) tracking or medical follow-up, many applications for time-series data mining have been developed. Thus, unsupervised time-series data mining has become highly relevant with the aim to automatically detect and identify similar temporal patterns between time-series. In this work, we propose a new spatio-temporal filtering scheme based on the mean-shift procedure, a state of the art approach in the field of image processing, which clusters multivariate spatio-temporal data. We also propose a hierarchical time-series clustering algorithm based on the dynamic time warping measure that identifies similar but asynchronous temporal patterns. Our choices have been motivated by the need to analyse magnetic resonance images acquired on people affected by multiple sclerosis. The genetics and environmental factors triggering and governing the disease evolution, as well as the occurrence and evolution of individual lesions, are still mostly unknown and under intense investigation. Therefore, there is a strong need to develop new methods allowing automatic extraction and quantification of lesion characteristics. This has motivated our work on time-series clustering methods, which are not widely used in image processing yet and allow to process image sequences without prior knowledge on the final results

Estilos ABNT, Harvard, Vancouver, APA, etc.

42

Knefati, Muhammad Anas. "Estimation non-paramétrique du quantile conditionnel et apprentissage semi-paramétrique : applications en assurance et actuariat". Thesis, Poitiers, 2015. http://www.theses.fr/2015POIT2280/document.

Texto completo da fonte

Resumo:

La thèse se compose de deux parties : une partie consacrée à l'estimation des quantiles conditionnels et une autre à l'apprentissage supervisé. La partie "Estimation des quantiles conditionnels" est organisée en 3 chapitres : Le chapitre 1 est consacré à une introduction sur la régression linéaire locale, présentant les méthodes les plus utilisées, pour estimer le paramètre de lissage. Le chapitre 2 traite des méthodes existantes d’estimation nonparamétriques du quantile conditionnel ; Ces méthodes sont comparées, au moyen d’expériences numériques sur des données simulées et des données réelles. Le chapitre 3 est consacré à un nouvel estimateur du quantile conditionnel et que nous proposons ; Cet estimateur repose sur l'utilisation d'un noyau asymétrique en x. Sous certaines hypothèses, notre estimateur s'avère plus performant que les estimateurs usuels. La partie "Apprentissage supervisé" est, elle aussi, composée de 3 chapitres : Le chapitre 4 est une introduction à l’apprentissage statistique et les notions de base utilisées, dans cette partie. Le chapitre 5 est une revue des méthodes conventionnelles de classification supervisée. Le chapitre 6 est consacré au transfert d'un modèle d'apprentissage semi-paramétrique. La performance de cette méthode est montrée par des expériences numériques sur des données morphométriques et des données de credit-scoring
The thesis consists of two parts: One part is about the estimation of conditional quantiles and the other is about supervised learning. The "conditional quantile estimate" part is organized into 3 chapters. Chapter 1 is devoted to an introduction to the local linear regression and then goes on to present the methods, the most used in the literature to estimate the smoothing parameter. Chapter 2 addresses the nonparametric estimation methods of conditional quantile and then gives numerical experiments on simulated data and real data. Chapter 3 is devoted to a new conditional quantile estimator, we propose. This estimator is based on the use of asymmetrical kernels w.r.t. x. We show, under some hypothesis, that this new estimator is more efficient than the other estimators already used. The "supervised learning" part is, too, with 3 chapters: Chapter 4 provides an introduction to statistical learning, remembering the basic concepts used in this part. Chapter 5 discusses the conventional methods of supervised classification. Chapter 6 is devoted to propose a method of transferring a semiparametric model. The performance of this method is shown by numerical experiments on morphometric data and credit-scoring data

Estilos ABNT, Harvard, Vancouver, APA, etc.

43

Hajjar, Chantal. "Cartes auto-organisatrices pour la classification de données symboliques mixtes, de données de type intervalle et de données discrétisées". Thesis, Supélec, 2014. http://www.theses.fr/2014SUPL0066/document.

Texto completo da fonte

Resumo:

Cette thèse s'inscrit dans le cadre de la classification automatique de données symboliques par des méthodes géométriques bio-inspirées, plus spécifiquement par les cartes auto-organisatrices. Nous mettons en place plusieurs algorithmes d'apprentissage des cartes auto-organisatrices pour classifier des données symboliques mixtes ainsi que des données de type intervalle et des données discrétisées. Plusieurs jeux de données symboliques simulées et réelles, dont deux construits dans le cadre de cette thèse, sont utilisés pour tester les méthodes proposées. En plus, nous proposons une carte auto-organisatrice pour les données discrétisées (binned data) dans le but d'accélérer l'apprentissage des cartes classiques et nous appliquons la méthode proposée à la segmentation d'images
This thesis concerns the clustering of symbolic data with bio-inspired geometric methods, more specifically with Self-Organizing Maps. We set up several learning algorithms for the self-organizing maps in order to cluster mixed-feature symbolic data as well as interval-valued data and binned data. Several simulated and real symbolic data sets, including two sets built as part of this thesis, are used to test the proposed methods. In addition, we propose a self-organizing map for binned data in order to accelerate the learning of standard maps, and we use the proposed method for image segmentation

Estilos ABNT, Harvard, Vancouver, APA, etc.

44

Ternynck, Camille. "Contributions à la modélisation de données spatiales et fonctionnelles : applications". Thesis, Lille 3, 2014. http://www.theses.fr/2014LIL30062/document.

Texto completo da fonte

Resumo:

Dans ce mémoire de thèse, nous nous intéressons à la modélisation non paramétrique de données spatiales et/ou fonctionnelles, plus particulièrement basée sur la méthode à noyau. En général, les échantillons que nous avons considérés pour établir les propriétés asymptotiques des estimateurs proposés sont constitués de variables dépendantes. La spécificité des méthodes étudiées réside dans le fait que les estimateurs prennent en compte la structure de dépendance des données considérées.Dans une première partie, nous appréhendons l’étude de variables réelles spatialement dépendantes. Nous proposons une nouvelle approche à noyau pour estimer les fonctions de densité de probabilité et de régression spatiales ainsi que le mode. La particularité de cette approche est qu’elle permet de tenir compte à la fois de la proximité entre les observations et de celle entre les sites. Nous étudions les comportements asymptotiques des estimateurs proposés ainsi que leurs applications à des données simulées et réelles.Dans une seconde partie, nous nous intéressons à la modélisation de données à valeurs dans un espace de dimension infinie ou dites "données fonctionnelles". Dans un premier temps, nous adaptons le modèle de régression non paramétrique introduit en première partie au cadre de données fonctionnelles spatialement dépendantes. Nous donnons des résultats asymptotiques ainsi que numériques. Puis, dans un second temps, nous étudions un modèle de régression de séries temporelles dont les variables explicatives sont fonctionnelles et le processus des innovations est autorégressif. Nous proposons une procédure permettant de tenir compte de l’information contenue dans le processus des erreurs. Après avoir étudié le comportement asymptotique de l’estimateur à noyau proposé, nous analysons ses performances sur des données simulées puis réelles.La troisième partie est consacrée aux applications. Tout d’abord, nous présentons des résultats de classification non supervisée de données spatiales (multivariées), simulées et réelles. La méthode de classification considérée est basée sur l’estimation du mode spatial, obtenu à partir de l’estimateur de la fonction de densité spatiale introduit dans le cadre de la première partie de cette thèse. Puis, nous appliquons cette méthode de classification basée sur le mode ainsi que d’autres méthodes de classification non supervisée de la littérature sur des données hydrologiques de nature fonctionnelle. Enfin, cette classification des données hydrologiques nous a amené à appliquer des outils de détection de rupture sur ces données fonctionnelles
In this dissertation, we are interested in nonparametric modeling of spatial and/or functional data, more specifically based on kernel method. Generally, the samples we have considered for establishing asymptotic properties of the proposed estimators are constituted of dependent variables. The specificity of the studied methods lies in the fact that the estimators take into account the structure of the dependence of the considered data.In a first part, we study real variables spatially dependent. We propose a new kernel approach to estimating spatial probability density of the mode and regression functions. The distinctive feature of this approach is that it allows taking into account both the proximity between observations and that between sites. We study the asymptotic behaviors of the proposed estimates as well as their applications to simulated and real data. In a second part, we are interested in modeling data valued in a space of infinite dimension or so-called "functional data". As a first step, we adapt the nonparametric regression model, introduced in the first part, to spatially functional dependent data framework. We get convergence results as well as numerical results. Then, later, we study time series regression model in which explanatory variables are functional and the innovation process is autoregressive. We propose a procedure which allows us to take into account information contained in the error process. After showing asymptotic behavior of the proposed kernel estimate, we study its performance on simulated and real data.The third part is devoted to applications. First of all, we present unsupervised classificationresults of simulated and real spatial data (multivariate). The considered classification method is based on the estimation of spatial mode, obtained from the spatial density function introduced in the first part of this thesis. Then, we apply this classification method based on the mode as well as other unsupervised classification methods of the literature on hydrological data of functional nature. Lastly, this classification of hydrological data has led us to apply change point detection tools on these functional data

Estilos ABNT, Harvard, Vancouver, APA, etc.

45

Belghiti, Moulay Tayeb. "Modélisation et techniques d'optimisation en bio-informatique et fouille de données". Thesis, Rouen, INSA, 2008. http://www.theses.fr/2008ISAM0002.

Texto completo da fonte

Resumo:

Cette thèse est particulièrement destinée à traiter deux types de problèmes : clustering et l'alignement multiple de séquence. Notre objectif est de résoudre de manière satisfaisante ces problèmes globaux et de tester l'approche de la Programmation DC et DCA sur des jeux de données réelles. La thèse comporte trois parties : la première partie est consacrée aux nouvelles approches de l'optimisation non convexe. Nous y présentons une étude en profondeur de l'algorithme qui est utilisé dans cette thèse, à savoir la programmation DC et l'algorithme DC (DCA). Dans la deuxième partie, nous allons modéliser le problème clustering en trois sous-problèmes non convexes. Les deux premiers sous-problèmes se distinguent par rapport au choix de la norme utilisée, (clustering via les normes 1 et 2). Le troisième sous-problème utilise la méthode du noyau, (clustering via la méthode du noyau). La troisième partie sera consacrée à la bio-informatique. On va se focaliser sur la modélisation et la résolution de deux sous-problèmes : l'alignement multiple de séquence et l'alignement de séquence d'ARN par structure. Tous les chapitres excepté le premier se terminent par des tests numériques
This Ph.D. thesis is particularly intended to treat two types of problems : clustering and the multiple alignment of sequence. Our objective is to solve efficiently these global problems and to test DC Programming approach and DCA on real datasets. The thesis is divided into three parts : the first part is devoted to the new approaches of nonconvex optimization-global optimization. We present it a study in depth of the algorithm which is used in this thesis, namely the programming DC and the algorithm DC ( DCA). In the second part, we will model the problem clustering in three nonconvex subproblems. The first two subproblems are distinguished compared to the choice from the norm used, (clustering via norm 1 and 2). The third subproblem uses the method of the kernel, (clustering via the method of the kernel). The third part will be devoted to bioinformatics, one goes this focused on the modeling and the resolution of two subproblems : the multiple alignment of sequence and the alignment of sequence of RNA. All the chapters except the first end in numerical tests

Estilos ABNT, Harvard, Vancouver, APA, etc.

46

Chaari, Anis. "Nouvelle approche d'identification dans les bases de données biométriques basée sur une classification non supervisée". Phd thesis, Université d'Evry-Val d'Essonne, 2009. http://tel.archives-ouvertes.fr/tel-00549395.

Texto completo da fonte

Resumo:

Les travaux effectués dans le cadre de cette thèse portent sur l'identification automatique de visages dans des bases de données d'images numériques. L'objectif est de simplifier le déroulement de l'identification biométrique qui consiste à la recherche de l'identité requête parmi l'ensemble des individus de la base de données préenregistrée, appelée aussi galerie. En effet, le schéma d'identification classique est complexe et très coûteux notamment dans le cas de grandes bases de données biométriques. Le processus original que nous proposons ici a pour objectif de réduire la complexité et d'améliorer les performances en terme de temps de calcul et de taux d'identification. Dans ce cadre biométrique, nous avons proposé une étape de classification non supervisée ou clustering des visages pour partitionner la base d'images en plusieurs sous ensembles cohérents et bien discriminés. Pour ce faire, l'algorithme de clustering vise à extraire, pour chaque visage, un ensemble de descripteurs, appelé signature, qui lui soit spécifique. Trois techniques de représentation faciales ont été développées dans le but d'extraire des informations différentes et complémentaires décrivant le visage humain : deux méthodes factorielles d'analyse multidimensionnelle et de projection des données (méthodes dites « Eigenfaces » et « Fisherfaces ») ainsi qu'une méthode d'extraction des moments géométriques de Zernike. Sur la base des différentes classes de signatures extraites pour chaque visage plusieurs méthodes de clustering sont mises en compétition afin de dégager la classification optimale qui conduit à une meilleure réduction de la galerie. Les méthodes retenues sont, soit de type « centres mobiles » telles que les K-moyennes et les centres mobiles de Forgy, ou de type « agglomérative » telle que la méthode de BIRCH. Sur la base de la dépendance des partitions générées, ces différentes stratégies classificatoires sont ensuite combinées suivant une architecture parallèle de manière à optimiser la réduction de l'espace de recherche à un sous ensemble de la base de données. Les clusters retenus in fine étant ceux pour lesquels la probabilité d'appartenance de l'identité requête est quasi certaine.

Estilos ABNT, Harvard, Vancouver, APA, etc.

47

Gorin, Arseniy. "Structuration du modèle acoustique pour améliorer les performance de reconnaissance automatique de la parole". Thesis, Université de Lorraine, 2014. http://www.theses.fr/2014LORR0161/document.

Texto completo da fonte

Resumo:

Cette thèse se concentre sur la structuration du modèle acoustique pour améliorer la reconnaissance de la parole par modèle de Markov. La structuration repose sur l’utilisation d’une classification non supervisée des phrases du corpus d’apprentissage pour tenir compte des variabilités dues aux locuteurs et aux canaux de transmission. L’idée est de regrouper automatiquement les phrases prononcées en classes correspondant à des données acoustiquement similaires. Pour la modélisation multiple, un modèle acoustique indépendant du locuteur est adapté aux données de chaque classe. Quand le nombre de classes augmente, la quantité de données disponibles pour l’apprentissage du modèle de chaque classe diminue, et cela peut rendre la modélisation moins fiable. Une façon de pallier ce problème est de modifier le critère de classification appliqué sur les données d’apprentissage pour permettre à une phrase d’être associée à plusieurs classes. Ceci est obtenu par l’introduction d’une marge de tolérance lors de la classification ; et cette approche est étudiée dans la première partie de la thèse. L’essentiel de la thèse est consacré à une nouvelle approche qui utilise la classification automatique des données d’apprentissage pour structurer le modèle acoustique. Ainsi, au lieu d’adapter tous les paramètres du modèle HMM-GMM pour chaque classe de données, les informations de classe sont explicitement introduites dans la structure des GMM en associant chaque composante des densités multigaussiennes avec une classe. Pour exploiter efficacement cette structuration des composantes, deux types de modélisations sont proposés. Dans la première approche on propose de compléter cette structuration des densités par des pondérations des composantes gaussiennes dépendantes des classes de locuteurs. Pour cette modélisation, les composantes gaussiennes des mélanges GMM sont structurées en fonction des classes et partagées entre toutes les classes, tandis que les pondérations des composantes des densités sont dépendantes de la classe. Lors du décodage, le jeu de pondérations des gaussiennes est sélectionné en fonction de la classe estimée. Dans une deuxième approche, les pondérations des gaussiennes sont remplacées par des matrices de transition entre les composantes gaussiennes des densités. Les approches proposées dans cette thèse sont analysées et évaluées sur différents corpus de parole qui couvrent différentes sources de variabilité (âge, sexe, accent et bruit)
This thesis focuses on acoustic model structuring for improving HMM-Based automatic speech recognition. The structuring relies on unsupervised clustering of speech utterances of the training data in order to handle speaker and channel variability. The idea is to split the data into acoustically similar classes. In conventional multi-Modeling (or class-Based) approach, separate class-Dependent models are built via adaptation of a speaker-Independent model. When the number of classes increases, less data becomes available for the estimation of the class-Based models, and the parameters are less reliable. One way to handle such problem is to modify the classification criterion applied on the training data, allowing a given utterance to belong to more than one class. This is obtained by relaxing the classification decision through a soft margin. This is investigated in the first part of the thesis. In the main part of the thesis, a novel approach is proposed that uses the clustered data more efficiently in a class-Structured GMM. Instead of adapting all HMM-GMM parameters separately for each class of data, the class information is explicitly introduced into the GMM structure by associating a given density component with a given class. To efficiently exploit such structured HMM-GMM, two different approaches are proposed. The first approach combines class-Structured GMM with class-Dependent mixture weights. In this model the Gaussian components are shared across speaker classes, but they are class-Structured, and the mixture weights are class-Dependent. For decoding an utterance, the set of mixture weights is selected according to the estimated class. In the second approach, the mixture weights are replaced by density component transition probabilities. The approaches proposed in the thesis are analyzed and evaluated on various speech data, which cover different types of variability sources (age, gender, accent and noise)

Estilos ABNT, Harvard, Vancouver, APA, etc.

48

Berard, Caroline. "Modèles à variables latentes pour des données issues de tiling arrays : Applications aux expériences de ChIP-chip et de transcriptome". Thesis, Paris, AgroParisTech, 2011. http://www.theses.fr/2011AGPT0067.

Texto completo da fonte

Resumo:

Les puces tiling arrays sont des puces à haute densité permettant l'exploration des génomes à grande échelle. Elles sont impliquées dans l'étude de l'expression des gènes et de la détection de nouveaux transcrits grâce aux expériences de transcriptome, ainsi que dans l'étude des mécanismes de régulation de l'expression des gènes grâce aux expériences de ChIP-chip. Dans l'objectif d'analyser des données de ChIP-chip et de transcriptome, nous proposons une modélisation fondée sur les modèles à variables latentes, en particulier les modèles de Markov cachés, qui sont des méthodes usuelles de classification non-supervisée. Les caractéristiques biologiques du signal issu des puces tiling arrays telles que la dépendance spatiale des observations le long du génome et l'annotation structurale sont intégrées dans la modélisation. D'autre part, les modèles sont adaptés en fonction de la question biologique et une modélisation est proposée pour chaque type d'expériences. Nous proposons un mélange de régressions pour la comparaison de deux échantillons dont l'un peut être considéré comme un échantillon de référence (ChIP-chip), ainsi qu'un modèle gaussien bidimensionnel avec des contraintes sur la matrice de variance lorsque les deux échantillons jouent des rôles symétriques (transcriptome). Enfin, une modélisation semi-paramétrique autorisant des distributions plus flexibles pour la loi d'émission est envisagée. Dans un objectif de classification, nous proposons un contrôle de faux-positifs dans le cas d'une classification à deux groupes et pour des observations indépendantes. Puis, nous nous intéressons à la classification d'un ensemble d'observations constituant une région d'intérêt, telle que les gènes. Les différents modèles sont illustrés sur des jeux de données réelles de ChIP-chip et de transcriptome issus d'une puce NimbleGen couvrant le génome entier d'Arabidopsis thaliana
Tiling arrays make possible a large scale exploration of the genome with high resolution. Biological questions usually addressed are either the gene expression or the detection of transcribed regions which can be investigated via transcriptomic experiments, and also the regulation of gene expression thanks to ChIP-chip experiments. In order to analyse ChIP-chip and transcriptomic data, we propose latent variable models, especially Hidden Markov Models, which are part of unsupervised classification methods. The biological features of the tiling arrays signal, such as the spatial dependence between observations along the genome and structural annotation are integrated in the model. Moreover, the models are adapted to the biological question at hand and a model is proposed for each type of experiment. We propose a mixture of regressions for the comparison of two samples, when one sample can be considered as a reference sample (ChIP-chip), and a two-dimensional Gaussian model with constraints on the variance parameter when the two samples play symmetrical roles (transcriptome). Finally, a semi-parametric modeling is considered, allowing more flexible emission distributions. With the objective of classification, we propose a false-positive control in the case of a two-cluster classification and for independent observations. Then, we focus on the classification of a set of observations forming a region of interest such as a gene. The different models are illustrated on real ChIP-chip and transcriptomic datasets coming from a NimbleGen tiling array covering the entire genome of Arabidopsis thaliana

Estilos ABNT, Harvard, Vancouver, APA, etc.

49

Vinot, Romain. "Classification automatique de textes dans des catégories non thématiques". Phd thesis, Télécom ParisTech, 2004. http://pastel.archives-ouvertes.fr/pastel-00000812.

Texto completo da fonte

Resumo:

La classification automatique de textes était jusqu'à présent employée pour l'indexation documentaire. À travers quatre exemples, nous présentons quelques caractéristiques de nouveaux contextes applicatifs ainsi que leurs conséquences pour les algorithmes existants. Nous mettons en évidence le fait que Rocchio, d'ordinaire peu performant, est particulièrement adapté aux corpus bruités et à une utilisation semi-automatique mais très désavantagé avec des classes définies par plusieurs thèmes. Nous proposons une extension de Rocchio, Rocchio Multi-Prototypes, pour gérer les classes multi-thématiques en adaptant la complexité de son modèle d'apprentissage. RMP utilise un algorithme de classification faiblement supervisée qui détecte des sous-classes et sélectionne les plus utiles pour la catégorisation. Nous proposons aussi un algorithme de détection de changements de concepts dans des corpus à flux temporel à partir du calcul du taux d'activité des sous-classes.

Estilos ABNT, Harvard, Vancouver, APA, etc.

50

Gorin, Arseniy. "Structuration du modèle acoustique pour améliorer les performance de reconnaissance automatique de la parole". Electronic Thesis or Diss., Université de Lorraine, 2014. http://www.theses.fr/2014LORR0161.

Texto completo da fonte

Resumo:

Cette thèse se concentre sur la structuration du modèle acoustique pour améliorer la reconnaissance de la parole par modèle de Markov. La structuration repose sur l’utilisation d’une classification non supervisée des phrases du corpus d’apprentissage pour tenir compte des variabilités dues aux locuteurs et aux canaux de transmission. L’idée est de regrouper automatiquement les phrases prononcées en classes correspondant à des données acoustiquement similaires. Pour la modélisation multiple, un modèle acoustique indépendant du locuteur est adapté aux données de chaque classe. Quand le nombre de classes augmente, la quantité de données disponibles pour l’apprentissage du modèle de chaque classe diminue, et cela peut rendre la modélisation moins fiable. Une façon de pallier ce problème est de modifier le critère de classification appliqué sur les données d’apprentissage pour permettre à une phrase d’être associée à plusieurs classes. Ceci est obtenu par l’introduction d’une marge de tolérance lors de la classification ; et cette approche est étudiée dans la première partie de la thèse. L’essentiel de la thèse est consacré à une nouvelle approche qui utilise la classification automatique des données d’apprentissage pour structurer le modèle acoustique. Ainsi, au lieu d’adapter tous les paramètres du modèle HMM-GMM pour chaque classe de données, les informations de classe sont explicitement introduites dans la structure des GMM en associant chaque composante des densités multigaussiennes avec une classe. Pour exploiter efficacement cette structuration des composantes, deux types de modélisations sont proposés. Dans la première approche on propose de compléter cette structuration des densités par des pondérations des composantes gaussiennes dépendantes des classes de locuteurs. Pour cette modélisation, les composantes gaussiennes des mélanges GMM sont structurées en fonction des classes et partagées entre toutes les classes, tandis que les pondérations des composantes des densités sont dépendantes de la classe. Lors du décodage, le jeu de pondérations des gaussiennes est sélectionné en fonction de la classe estimée. Dans une deuxième approche, les pondérations des gaussiennes sont remplacées par des matrices de transition entre les composantes gaussiennes des densités. Les approches proposées dans cette thèse sont analysées et évaluées sur différents corpus de parole qui couvrent différentes sources de variabilité (âge, sexe, accent et bruit)
This thesis focuses on acoustic model structuring for improving HMM-Based automatic speech recognition. The structuring relies on unsupervised clustering of speech utterances of the training data in order to handle speaker and channel variability. The idea is to split the data into acoustically similar classes. In conventional multi-Modeling (or class-Based) approach, separate class-Dependent models are built via adaptation of a speaker-Independent model. When the number of classes increases, less data becomes available for the estimation of the class-Based models, and the parameters are less reliable. One way to handle such problem is to modify the classification criterion applied on the training data, allowing a given utterance to belong to more than one class. This is obtained by relaxing the classification decision through a soft margin. This is investigated in the first part of the thesis. In the main part of the thesis, a novel approach is proposed that uses the clustered data more efficiently in a class-Structured GMM. Instead of adapting all HMM-GMM parameters separately for each class of data, the class information is explicitly introduced into the GMM structure by associating a given density component with a given class. To efficiently exploit such structured HMM-GMM, two different approaches are proposed. The first approach combines class-Structured GMM with class-Dependent mixture weights. In this model the Gaussian components are shared across speaker classes, but they are class-Structured, and the mixture weights are class-Dependent. For decoding an utterance, the set of mixture weights is selected according to the estimated class. In the second approach, the mixture weights are replaced by density component transition probabilities. The approaches proposed in the thesis are analyzed and evaluated on various speech data, which cover different types of variability sources (age, gender, accent and noise)

Estilos ABNT, Harvard, Vancouver, APA, etc.

Oferecemos descontos em todos os planos premium para autores cujas obras estão incluídas em seleções literárias temáticas. Contate-nos para obter um código promocional único!