Acceder

Bibliografías temáticas / Classification automatique floue / Tesis

Siga este enlace para ver otros tipos de publicaciones sobre el tema: Classification automatique floue.

Tesis sobre el tema "Classification automatique floue"

Autor: Grafiati

Publicado: 13 de abril de 2024

Crea una cita precisa en los estilos APA, MLA, Chicago, Harvard y otros

Elija tipo de fuente:

Consulte los 40 mejores tesis para su investigación sobre el tema "Classification automatique floue".

Junto a cada fuente en la lista de referencias hay un botón "Agregar a la bibliografía". Pulsa este botón, y generaremos automáticamente la referencia bibliográfica para la obra elegida en el estilo de cita que necesites: APA, MLA, Harvard, Vancouver, Chicago, etc.

También puede descargar el texto completo de la publicación académica en formato pdf y leer en línea su resumen siempre que esté disponible en los metadatos.

Explore tesis sobre una amplia variedad de disciplinas y organice su bibliografía correctamente.

1

Girard, Régis. "Classification conceptuelle sur des données arborescentes et imprécises". La Réunion, 1997. http://elgebar.univ-reunion.fr/login?url=http://thesesenligne.univ.run/97_08_Girard.pdf.

Texto completo

Resumen

Les travaux exposés dans cette thèse se situent dans le cadre de la classification conceptuelle automatique. Nous présentons un formalisme de représentations de données structurées et imprécises fondées sur la notion d'attribut et de valeur : les arborescences symboliques nuancées (ASN). La définition de treillis de nuances permet de prendre en compte l'imprécision d'une valeur. Les attributs peuvent être de plusieurs types : simple, structure ou même récursif et permettent de manipuler des données de nature arborescente. L'introduction de contraintes de validité entre les valeurs des attributs donne la possibilité de représenter des connaissances sur le domaine d'application. Nous proposons des algorithmes permettant de manipuler des observations définies à partir du modèle proposé et de trouver des concepts aisément interprétables. Dans un premier temps, nous définissons une correspondance de galois entre des entités et leurs descriptions à partir d'attributs nuancés mais non structurés, et nous proposons un algorithme de calcul des concepts. Ensuite, nous précisons les algorithmes de généralisation et de comparaison de deux ASN et nous présentons un algorithme incrémental de construction du treillis de galois entre des entités et des ASN. Nous étendons ainsi les treillis de galois au cas de données arborescentes et nuancées. Les concepts trouvés sont décrits de manière imprécise par des ASN. Le treillis des concepts étant de grande taille, l'introduction d'un indice de distance défini sur les ASN nous permet de générer un sous-treillis de galois formé de concepts ne dépassant pas un seuil donné de généralité. Enfin, nous définissons une mesure de similarité sur les ASN et nous proposons un algorithme d'extraction d'un graphe hiérarchique de concepts à partir d'un treillis de galois. Dans la dernière partie de la thèse, nous présentons le système CID fondé sur le formalisme des ASN et nous terminons par deux exemples d'application.

Los estilos APA, Harvard, Vancouver, ISO, etc.

2

Turpin-Dhilly, Sandrine. "Adaptation des outils de la morphologie floue à l'analyse de données multidimensionnelles". Lille 1, 2000. http://www.theses.fr/2000LIL10035.

Texto completo

Los estilos APA, Harvard, Vancouver, ISO, etc.

3

Albert, Benoit. "Méthodes d'optimisation avancées pour la classification automatique". Electronic Thesis or Diss., Université Clermont Auvergne (2021-...), 2024. http://www.theses.fr/2024UCFA0005.

Texto completo

Resumen

En partitionnement de données, l'objectif consiste à regrouper des objets en fonction de leur similarité. K-means est un des modèles les plus utilisés, chaque classe est représentée par son centroïde. Les objets sont assignés à la classe la plus proche selon une distance. Le choix de cette distance revêt une grande importance pour prendre en compte la similarité entre les données. En optant pour la distance de Mahalanobis au lieu de la distance euclidienne, le modèle est capable de détecter des classes de forme ellipsoïdale et non plus seulement sphérique. L'utilisation de cette distance offre de nombreuses opportunités, mais elle soulève également de nouveaux défis explorés dansma thèse.L'objectif central concerne l'optimisation des modèles, en particulier FCM-GK (variante floue de k-means) qui est un problème non convexe. L'idée est d'obtenir un partitionnement de meilleure qualité, sans créer un nouveau modèle en appliquant des méthodes d'optimisation plus robustes. À cet égard, nous proposons deux approches :ADMM (Alternating Direction Method of Multipliers) et la méthode du gradient accéléré de Nesterov. Les expériences numériques soulignent l'intérêt particulier de l'optimisation par ADMM, surtout lorsque le nombre d'attributs dans le jeu de données est significativement plus élevé que le nombre de clusters. L'incorporation de la distance de Mahalanobis dans le modèle requiert l'introduction d'une mesure d'évaluation dédiée aux partitions basées sur cette distance. Une extension de la mesure d'évaluation de Xie et Beni est proposée. Cet index apparaît comme un outil pour déterminer la distance optimale à utiliser.Enfin, la gestion des sous-ensembles dans ECM (variante évidentielle) est traitée en abordant la détermination optimale de la zone d'imprécision. Une nouvelle formulation des centroides et des distances des sous-ensembles à partir des clusters est introduite. Les analyses théoriques et les expérimentations numériques mettent en évidence la pertinence de cette nouvelle formulation
In data partitioning, the goal is to group objects based on their similarity. K-means is one of the most commonly used models, where each cluster is represented by its centroid. Objects are assigned to the nearest cluster based on a distance metric. The choice of this distance is crucial to account for the similarity between the data points. Opting for the Mahalanobis distance instead of the Euclidean distance enables the model to detect classes of ellipsoidal shape rather than just spherical ones. The use of this distance metric presents numerous opportunities but also raises new challenges explored in my thesis.The central objective is the optimization of models, particularly FCM-GK (a fuzzy variant of k-means), which is a non-convex problem. The idea is to achieve a higher-quality partitioning without creating a new model by applying more robust optimization methods. In this regard, we propose two approaches: ADMM (Alternating Direction Method of Multipliers) and Nesterov's accelerated gradient method. Numerical experiments highlight the particular effectiveness of ADMM optimization, especially when the number of attributes in the dataset is significantly higher than the number of clusters.Incorporating the Mahalanobis distance into the model requires the introduction of an evaluation measure dedicated to partitions based on this distance. An extension of the Xie and Beni evaluation measure is proposed. This index serves as a tool to determine the optimal distance to use.Finally, the management of subsets in ECM (evidential variant) is addressed by determining the optimal imprecision zone. A new formulation of centroids and distances for subsets from clusters is introduced. Theoretical analyses and numerical experiments underscore the relevance of this new formulation

Los estilos APA, Harvard, Vancouver, ISO, etc.

4

Benouhiba, Toufik. "Approche génétique et floue pour les systèmes d'agents adaptatifs : application à la reconnaissance des scenarii". Troyes, 2005. http://www.theses.fr/2005TROY0014.

Texto completo

Resumen

L’objectif de la thèse est l’utilisation minimale de connaissances a priori pour engendrer des règles incertaines manipulant des données imprécises. Cet objectif a été testé via une structure multi-agents et appliqué à la reconnaissance de scénarii. Les travaux réalisés sont répartis sur trois axes : - Le premier concerne le raisonnement incertain en utilisant des données imprécises. La théorie de l’évidence et la logique bi-floue ont été utilisées pour modéliser ce raisonnement. – Le deuxième axe correspond aux systèmes classifieurs et à la programmation génétique utilisés dans le but d’engendrer les règles de reconnaissance. L’approche développée utilise la puissance offerte par la programmation génétique et la combine aux systèmes classifieurs. Un nouveau mécanisme d’apprentissage par renforcement a été proposé assurant l’utilisation de la théorie de l’évidence comme outil de raisonnement. – Le troisième axe concerne la coopération dans les systèmes multi-agents adaptatifs. Le rendement des systèmes classifieurs a été amélioré en introduisant une coopération explicite entre des agents classifieurs. Nous proposons également un nouvel opérateur de fusion de données basé sur la théorie de l’évidence et adapté aux types de données manipulées. L’approche développée a été appliquée à la reconnaissance des manœuvres automobiles. Dans ce sens, nous proposons une architecture multi-agents pour la reconnaissance et un découpage des manœuvres en plusieurs couches assurant leur reconnaissance avec un certain niveau de granularité
The objective of this thesis is to use minimal a priori knowledge in order to generate uncertain rules which manipulate imprecise data. The proposed architecture has been tested on a multi-agent system to recognize scenarios. The realized works are distributed into three axis: - The first one concerns uncertain reasoning with imprecise data. The evidence theory and intuitionistic fuzzy logic have been used to model such reasoning. – The second axis corresponds to classifier systems and genetic programming. The proposed approach use the power of genetic programming and combine it to classifier systems. A new learning mechanism based on evidence theory is introduced in order to use this theory as a support of reasoning. – The third axis concerns cooperation in adaptive multi-agents systems. Classifier systems have been improved by using an explicit cooperation between a number of classifier agents. We also propose a new data fusion operator based on evidence theory and adapted to the manipulated data. The developed system has been used to recognize car’s maneuvers. In fact, we have proposed a multi-agent architecture to make recognition. Maneuvers are decomposed into several layers in order to recognize them with a given granularity level

Los estilos APA, Harvard, Vancouver, ISO, etc.

5

Aldea, Emanuel. "Apprentissage de données structurées pour l'interprétation d'images". Paris, Télécom ParisTech, 2009. http://www.theses.fr/2009ENST0053.

Texto completo

Resumen

La plupart des méthodes de classification d’images s'appuient en premier lieu sur les attributs des objets d'intérêt. Cependant, les informations spatiales liées aux relations entre ces objets sont également utiles, comme cela a été montré en segmentation et reconnaissance de structures dans les images, et leur intégration dans des méthodes d'apprentissage et de classification commence à apparaître et évoluer. Les modélisations floues permettent de représenter à la fois l'imprécision de la relation et le passage graduel de la satisfaction à la non satisfaction de cette relation. L'objectif de ce travail est d'explorer les techniques de représentation de l’information spatiale et leur intégration dans les classifieurs d'images qui utilisent les noyaux de graphes. Nous justifions le choix de graphes étiquetés pour représenter les images dans le contexte de l'apprentissage SVM, ainsi que les adaptations nécessaires par rapport aux domaines connexes. A partir des mesures d’adjacence floues entre les objets d'intérêt, nous définissons une famille de représentations de graphes déterminés par des seuils différents appliqués à ces mesures spatiales. Enfin, nous employons plusieurs noyaux dans un apprentissage multiple afin de mettre en place des classifieurs qui peuvent tenir compte des différentes représentations graphiques de la même image à la fois. Les résultats montrent que l'information spatiale complète les caractéristiques visuelles des éléments distinctifs dans les images et que l'adaptation des fonctions noyau pour les représentations spatiales floues est bénéfique en termes de performances
Image interpretation methods use primarily the visual features of low-level or high-level interest elements. However, spatial information concerning the relative positioning of these elements is equally beneficial, as it has been shown previously in segmentation and structure recognition. Fuzzy representations permit to assess at the same time the imprecision degree of a relation and the gradual transition between the satisfiability and the non-satisfiability of a relation. The objective of this work is to explore techniques of spatial information representation and their integration in the learning process, within the context of image classifiers that make use of graph kernels. We motivate our choice of labeled graphs for representing images, in the context of learning with SVM classifiers. Graph kernels have been studied intensively in computational chemistry and biology, but an adaptation for image related graphs is necessary, since image structures and properties of the information encoded in the labeling are fundamentally different. We illustrate the integration of spatial information within the graphical model by considering fuzzy adjacency measures between interest elements, and we define a family of graph representations determined by different thresholds applied to these spatial measures. Finally, we employ multiple kernel learning in order to build up classifiers that can take into account different graphical representations of the same image at once. Results show that spatial information complements the visual features of distinctive elements in images and that adapting the discriminative kernel functions for the fuzzy spatial representations is beneficial in terms of performance

Los estilos APA, Harvard, Vancouver, ISO, etc.

6

Mokhtari, Aimed. "Diagnostic des systèmes hybrides : développement d'une méthode associant la détection par classification et la simulation dynamique". Phd thesis, INSA de Toulouse, 2007. http://tel.archives-ouvertes.fr/tel-00200034.

Texto completo

Resumen

Ce travail s'inscrit dans le domaine du diagnostic des systèmes hybrides et est basé sur l'utilisation d'un modèle. Il a pour objectif de diagnostiquer les fautes à partir de la connaissance structurelle, comportementale ou fonctionnelle du système en représentant ces connaissances (modèle du système) séparément de la connaissance sur la tâche de diagnostic. Les systèmes hybrides incluent à la fois des variables continues et discrètes. La dynamique continue est généralement fournie par des équations différentielles et algébriques alors que la partie discrète est modélisée par des automates ou des systèmes à transition. Le formalisme adopté dans ce travail pour modéliser ces systèmes s'appuie sur le modèle " Réseau de Petri Différentiel à Objet " (RdPDO) qui est intégré dans la plate forme de simulation PrODHyS (Process Object Dynamic Hybrid Simulator). Il possède l'avantage de prendre en compte le comportement hybride d'une part, en associant les variables continues aux jetons et d'autre part, en associant un système algébro-différentiel aux places permettant de faire évoluer les variables d'état continues. La méthodologie de diagnostic proposée s'effectue en deux étapes. La première étape consiste à détecter à l'aide d'une classification floue, des fautes qui présentent les mêmes symptômes - à partir d'une connaissance préalable des états de défaillance obtenue par apprentissage - afin de réduire les chemins ou les scénarios à explorer lors de la seconde phase. Cette dernière sert à diagnostiquer la faute parmi celles détectées à l'étape précédente en levant l'ambiguïté. Pour ce faire, deux raisonnements ont été suivis. Le premier, qualifié de raisonnement avant, consiste à former pour chaque faute incriminée, un critère d'écarts entre les mesures effectuées sur le système et celles émanant du modèle avec la faute simulée, sur une fenêtre temporelle et d'isoler ainsi la faute aboutissant au critère le plus faible. Le second raisonnement qualifié de raisonne ment arrière, effectue des calculs similaires mais sur l'évolution temporelle passée du système par une simulation arrière effectuée avec PrODHys, offrant la possibilité supplémentaire par rapport au premier raisonnement de remonter à l'instant de la défaillance. La méthodologie développée est illustrée sur un système hydraulique souvent utilisé comme " benchmark ". Comme nous ne disposons pas d'un système réel, celui-ci est simulé à l'aide d'un modèle de simulation de type RdPDO qui cette fois-ci contient les états de défaillances et des différences (bruits, erreurs de modélisation) par rapport au modèle utilisé pour le diagnostic.

Los estilos APA, Harvard, Vancouver, ISO, etc.

7

Gokana, Denis. "Contribution à la reconnaissance automatique de caractères manuscrits : application à la lecture optique de caractères sur supports mobiles". Paris 11, 1986. http://www.theses.fr/1986PA112063.

Texto completo

Resumen

Cette thèse présente un travail de recherche en vision par ordinateur concernant la définition d'un système de vision, capable d'identifier des caractères manuscrits isolés disposés sur un support horizontal mobile. La technique employée consiste en l'analyse de l'information contenue dans les contours du polygone circonscrit au caractère. Après leurs extractions, ces contours sont décrits par des chaînes de segments de droite pour donner lieu à une nouvelle méthode de représentation des caractères : la représentation à l'aide des profils gauche et droit et des invariants algébriques et topologiques. Nous présentons également une méthode de reconnaissance par arborescence multiniveaux. Le premier niveau effectue une classification floue munie d'une comparaison dynamique entre les profils par application d'une distance définie par un codage des orientations des contours. Les niveaux suivants raffinent la décision par utilisation des invariants algébriques et topologiques. Des résultats concrets sont présentés et nous atteignons des taux de reconnaissance supérieurs à 98% dans le cas des caractères numériques manuscrits, démontrant ainsi la puissance de notre algorithme.

Los estilos APA, Harvard, Vancouver, ISO, etc.

8

Ragot, Nicolas. "MÉLIDIS : Reconnaissance de formes par modélisation mixte intrinsèque/discriminante à base de systèmes d'inférence floue hiérarchisés". Phd thesis, Rennes 1, 2003. http://www.theses.fr/2003REN10078.

Texto completo

Resumen

Pour faciliter la mise au point de systèmes de reconnaissance de formes, nous proposons une méthodologie de classification visant à réunir un ensemble de propriétés rarement satisfaites dans une même approche : performances, généricité, fiabilité, robustesse, compacité et interprétabilité. Ce dernier point permet au concepteur d'adapter, de maintenir et d'optimiser le système plus facilement. L’approche proposée, centrée sur la notion de connaissances dans un classifieur, est entièrement guidée par les données. L’originalité réside notamment dans l’exploitation conjointe de connaissances intrinsèques et discriminantes extraites automatiquement et organisées sur deux niveaux pour bénéficier au mieux de leur complémentarité : le premier modélise les classes par des prototypes flous et le second effectue une discrimination des formes similaires par des arbres de décision flous. L’ensemble est formalisé par des systèmes d'inférence floue qui sont combinés pour la classification.

Los estilos APA, Harvard, Vancouver, ISO, etc.

9

Cutrona, Jérôme. "Analyse de forme des objets biologiques : représentation, classification et suivi temporel". Reims, 2003. http://www.theses.fr/2003REIMS018.

Texto completo

Resumen

En biologie, les relations entre la forme, élément majeur de la vision par ordinateur, et la fonction ont depuis longtemps été mises en évidence. Cette thèse présente une chaîne de traitement permettant d'aboutir à la classification non supervisée de formes, au suivi de déformation et à la classification supervisée de populations d'objets. Nous proposons dans un premier temps une contribution en segmentation automatique basée sur une procédure de classification floue, ainsi que deux méthodes semi-automatiques s'appuyant sur la connectivité floue et les lignes de partage des eaux. Nous menons ensuite une étude sur plusieurs descripteurs de la forme des objets utilisant des primitives et des anti-primitives, le contour , la silhouette et la courbure multi-échelle. Après mise en correspondance, les descripteurs sont soumis à une analyse statistique pour mettre en évidence les modes de variations au sein des échantillons. Le modèle statistique obtenu est à la base des applications proposées
N biology, the relationship between shape, a major element in computer vision, and function has been emphasized since a long time. This thesis proposes a processing line leading to unsupervised shape classification, deformation tracking and supervised classification of whole population of objects. We first propose a contribution to unsupervised segmentation based on a fuzzy classification method and two semi-automatic methods founded on fuzzy connectedness and watersheds. Next, we perform a study on several shape descriptors including primitives and anti-primitives, contour, silhouete and multi-scale curvature. After shape matching, the descriptors are submitted to statistical analysis to highlight the modes of variations within the samples. The obtained statistical model is the basis of the proposed applications

Los estilos APA, Harvard, Vancouver, ISO, etc.

10

Isaza, Narvaez Claudia Victoria. "Diagnostic par techniques d'apprentissage floues: concept d'une méthode de validation et d'optimisation des partitions". Phd thesis, INSA de Toulouse, 2007. http://tel.archives-ouvertes.fr/tel-00190884.

Texto completo

Resumen

Ce travail se situe dans le domaine du diagnostic des processus défini comme étant l'identification de ses états fonctionnels. Dans le cas où l'obtention d'un modèle précis du processus est délicate ou impossible, la connaissance sur le système peut être extraite à partir des signaux obtenus lors d'un fonctionnement normal ou anormal en incluant des mécanismes d'apprentissage. Cette connaissance s'organise sous l'aspect d'une partition de l'espace des données sous forme de classes (représentant les états du système). Parmi les techniques d'apprentissage, celles incluant de la logique floue ont l'avantage d'exprimer les appartenances d'un individu à plusieurs classes, ceci permet de mieux connaître la situation réelle du système et prévoir des changements vers des états de défaillance. Nonobstant leurs performances adéquates, leur forte dépendance aux paramètres d'initialisation est une difficulté pour l'apprentissage. Cette thèse se situe dans l'amélioration de ces techniques, en particulier notre objectif est l'élaboration d'une méthode permettant de valider et d'adapter automatiquement la partition de l'espace de données obtenue par une technique de classification floue. Elle permet de trouver automatiquement une partition optimale en termes de compacité et de séparation des classes, à partir uniquement de la matrice des degrés d'appartenance obtenue par une classification antérieure. Cette méthode est donc une aide importante donnée à l'expert du processus pour établir les états fonctionnels dans l'implémentation d'une technique de surveillance d'un procédé complexe. Son application est illustrée sur des exemples académiques et sur le diagnostic de 3 procédés chimiques.

Los estilos APA, Harvard, Vancouver, ISO, etc.

11

Laleye, Frejus Adissa Akintola. "Contributions à l'étude et à la reconnaissance automatique de la parole en Fongbe". Thesis, Littoral, 2016. http://www.theses.fr/2016DUNK0452/document.

Texto completo

Resumen

L'une des difficultés d'une langue peu dotée est l'inexistence des services liés aux technologies du traitement de l'écrit et de l'oral. Dans cette thèse, nous avons affronté la problématique de l'étude acoustique de la parole isolée et de la parole continue en Fongbe dans le cadre de la reconnaissance automatique de la parole. La complexité tonale de l'oral et la récente convention de l'écriture du Fongbe nous ont conduit à étudier le Fongbe sur toute la chaîne de la reconnaissance automatique de la parole. En plus des ressources linguistiques collectées (vocabulaires, grands corpus de texte, grands corpus de parole, dictionnaires de prononciation) pour permettre la construction des algorithmes, nous avons proposé une recette complète d'algorithmes (incluant des algorithmes de classification et de reconnaissance de phonèmes isolés et de segmentation de la parole continue en syllabe), basés sur une étude acoustique des différents sons, pour le traitement automatique du Fongbe. Dans ce manuscrit, nous avons aussi présenté une méthodologie de développement de modèles accoustiques et de modèles du langage pour faciliter la reconnaissance automatique de la parole en Fongbe. Dans cette étude, il a été proposé et évalué une modélisation acoustique à base de graphèmes (vu que le Fongbe ne dispose pas encore de dictionnaire phonétique) et aussi l'impact de la prononciation tonale sur la performance d'un système RAP en Fongbe. Enfin, les ressources écrites et orales collectées pour le Fongbe ainsi que les résultats expérimentaux obtenus pour chaque aspect de la chaîne de RAP en Fongbe valident le potentiel des méthodes et algorithmes que nous avons proposés
One of the difficulties of an unresourced language is the lack of technology services in the speech and text processing. In this thesis, we faced the problematic of an acoustical study of the isolated and continous speech in Fongbe as part of the speech recognition. Tonal complexity of the oral and the recent agreement of writing the Fongbe led us to study the Fongbe throughout the chain of an automatic speech recognition. In addition to the collected linguistic resources (vocabularies, large text and speech corpus, pronunciation dictionaries) for building the algorithms, we proposed a complete recipe of algorithms (including algorithms of classification and recognition of isolated phonemes and segmentation of continuous speech into syllable), based on an acoustic study of the different sounds, for Fongbe automatic processing. In this manuscript, we also presented a methodology for developing acoustic models and language models to facilitate speech recognition in Fongbe. In this study, it was proposed and evaluated an acoustic modeling based on grapheme (since the Fongbe don't have phonetic dictionary) and also the impact of tonal pronunciation on the performance of a Fongbe ASR system. Finally, the written and oral resources collected for Fongbe and experimental results obtained for each aspect of an ASR chain in Fongbe validate the potential of the methods and algorithms that we proposed

Los estilos APA, Harvard, Vancouver, ISO, etc.

12

Ribes, Jean-Christophe. "Définition d'une stratégie de surveillance de l'installation AIRIX dans un but de maintenance prédictive". Reims, 2001. http://www.theses.fr/2001REIMS016.

Texto completo

Resumen

L'objet de cette thèse est l'étude et le développement d'un outil de surveillance de l'installation AIRIX dans un but de maintenance prédictive. AIRIX est un générateur de rayons X monocoup, mis en service début 2000, destiné aux expériences de détonique. Les rayons X sont générés lors de l'interaction d'un faisceau d'électrons intense sur une cible lourde. Les difficultés ainsi que le coût de telles expérimentations imposent de disposer de mesures fiables. Pour garantir des performances optimales pour l'expérimentation, il faut être en mesure de quantifier l'état de fonctionnement de l'installation. Cela se traduit par le développement et l'optimisation des outils de diagnostic et du traitement de l'information disponible afin d'améliorer la surveillance et par la suite la maintenance. Lors de chaque tir machine, environ 300 signaux permettent d'effectuer le diagnostic du fonctionnement de l'installation. En utilisant les différentes représentations du signal, nous pouvons extraire les informations nécessaires à la mise en œuvre d'un diagnostic efficace. Cette information, souvent redondante, est synthétisée à l'aide d'algorithmes de traitement de données en mode non supervisé (ACP, ACC). Cela nous permet de créer une base d'apprentissage à partir des expériences réalisées durant la première année de fonctionnement. Nous avons ensuite développé un classifieur basé sur un réseau de neurones RBF suivant une approche originale. Celle-ci combine deux algorithmes de classification, le fuzzy-c-means et un arbre hiérarchique. Cette structure à deux niveaux permet de construire le réseau RBF à partir de données non supervisées.

Los estilos APA, Harvard, Vancouver, ISO, etc.

13

Hirsch, Gérard. "Équations de relation floue et mesures d'incertain en reconnaissance de formes". Nancy 1, 1987. http://www.theses.fr/1987NAN10030.

Texto completo

Resumen

Il est appelé que le sylogisme indirect n'est pas parfait quelque soit l'opérateur de composition floue. Un opérateur de maximalisation (ou de minimalisation) est déterminé pour la composition sup-T norme (ou INF-T conorme). Après la reprise des résultats des mesures d'incertain il est donné une application numérique au problème de classification des phonèmes

Los estilos APA, Harvard, Vancouver, ISO, etc.

14

Dang, Van Mô. "Classification de donnees spatiales : modeles probabilistes et criteres de partitionnement". Compiègne, 1998. http://www.theses.fr/1998COMP1173.

Texto completo

Resumen

La problématique de la classification de données spatiales se pose par exemple lorsqu'on segmente une image en régions homogènes ou lorsqu'on cartographie des données multidimensionnelles localisées telles que des relevés physico-chimiques du sol. Dans ce travail, les méthodes proposées s'appuient sur des distributions de probabilité afin de modéliser les mécanismes engendrant la partition non observée et les observations. S'il s'agit d'effectuer les regroupements en se basant uniquement sur les valeurs observées, on rappelle que les modèles de mélange, la vraisemblance classifiante et l'algorithme EM procurent des solutions flexibles et relativement simples à mettre en œuvre. Afin d'intégrer en outre une hypothèse d'homogénéité spatiale de la partition, on se propose de conduire des raisonnements similaires dans le cadre des modèles utilisant un champ de Markov caché. D'une part, on démontre qu'en appliquant l'algorithme EM au cas des champs de potts cachés avec une approximation de champ moyen, on effectue les mêmes calculs que l'optimisation alternée d'une vraisemblance classifiante floue. Ce constat permet d'améliorer sur certains points une méthode de classification spatiale floue itérative récemment proposée. Sur des données simulées et réelles, la méthode obtenue fournit des résultats comparables aux techniques utilisant des simulations de Monte-Carlo pour un cout algorithmique moindre. D'autre part, on adapte l'approche précédente à des types particuliers de données spatiales. Pour un problème d'écologie numérique, on construit ainsi une méthode visant à classifier des indicateurs de présence/absence localisés. On propose selon une démarche analogue un algorithme de classification peu sensible aux valeurs atypiques. Enfin, pour traiter des données spatiales incomplètes, on propose d'optimiser une vraisemblance classifiante dont le modèle statistique sous-jacent intègre la notion de valeurs manquantes.

Los estilos APA, Harvard, Vancouver, ISO, etc.

15

Elisabeth, Erol. "Fouille de données spatio-temporelles, résumés de données et apprentissage automatique : application au système de recommandations touristique, données médicales et détection des transactions atypiques dans le domaine financier". Thesis, Antilles, 2021. http://www.theses.fr/2021ANTI0607.

Texto completo

Resumen

La fouille de données est une des composantes Gestion de la Relation Client (CRM) largement déployée dans les entreprises. Ce processus s’appuie sur des algorithmes issus de disciplines scientifiques diverses (statistiques, intelligence artificielle, base de données) pour construire des modèles à partir des données.L’objectif de déterminer des modèles, établis à partir de clusters au service de l’amélioration de la connaissance du client au sens générique, de la prédiction de ses comportements et de l’optimisation de l’offre proposée. Ces modèles ayant vocation à être utilisés par des utilisateurs spécialistes du domaine de données, chercheurs en économie de la santé et sciences de gestion ou professionnels du secteur étudié, ces travaux de recherche mettent l’accent sur l’utilisabilité des environnements de fouille de données. Cette thèse s’intéresse à la fouille de données spatio-temporelle. Elle met particulièrement en évidence une approche originale pour le traitement des données avec un but d’enrichissement des connaissances pratiques du domaine. Ce travail comporte un volet applicatif en quatre chapitres qui correspond à quatre systèmes développés:- Un modèle pour la mise place d’un système de recommandation basé sur la collecte de données de positionnement GPS,- Un outil de résumé de données optimisé pour la rapidité des réponses aux requêtes au programme de médicalisation des systèmes d’information (PMSI),- Un outil d’apprentissage automatique pour la lutte contre le blanchiment dans le système financier,- Un modèle pour la prédiction d’activité dans les TPE qui sont météo-dépendantes (tourisme, transport, loisirs, commerce, etc.). Le problème est ici d’identifier les algorithmes de classification et de réseaux de neurones en vue d’une analyse de données dont le but est d’adapter la stratégie de l’entreprise aux mouvements conjoncturels
Data mining is one of the components of Customer Relationship Management (CRM), widely deployed in companies. It is the process of extracting interesting, non-trivial, implicit, unknown and potentially useful knowledge from data. This process relies on algorithms from various scientific disciplines (statistics, artificial intelligence, databases) to build models from data stored in data warehouses.The objective of determining models, established from clusters in the service of improving knowledge of the customer in the generic sense, the prediction of his behavior and the optimization of the proposed offer. Since these models are intended to be used by users who are specialists in the field of data, researchers in health economics and management sciences or professionals in the sector studied, this research work emphasizes the usability of data mining environments.This thesis is concerned with spatio-temporal data mining. It particularly highlights an original approach to data processing with the aim of enriching practical knowledge in the field.This work includes an application component in four chapters which corresponds to four systems developed:- A model for setting up a recommendation system based on the collection of GPS positioning data,- A data summary tool optimized for the speed of responses to requests for the medicalization of information systems program (PMSI),- A machine learning tool for the fight against money laundering in the financial system,- A model for the prediction of activity in VSEs which are weather-dependent (tourism, transport, leisure, commerce, etc.). The problem here is to identify classification algorithms and neural networks for data analysis aimed at adapting the company's strategy to economic changes

Los estilos APA, Harvard, Vancouver, ISO, etc.

16

Hamdan, Hani. "Développement de méthodes de classification pour le contrôle par émission acoustique d'appareils à pression". Compiègne, 2005. http://www.theses.fr/2005COMP1583.

Texto completo

Resumen

Cette thèse s'inscrit dans le cadre d'aide à la décision en temps réel pour le contrôle par émission acoustique des équipements sous pression. Le problème visé est la prise en compte de l'incertitude de localisation des signaux d'émission acoustique, dans la classification basée sur le modèle de mélange. Deux nouveaux algorithmes (EM et CEM pour les données incertaines) sont alors développés. Ces algorithmes se basent uniquement sur des données de type zone d'incertitude et leur développement est effectué en optimisant des nouveaux critères de vraisemblance adaptés à ce type de données. Pour accélérer le traitement des données lorsque leur taille devient très grande, nous développons également une nouvelle méthode de discrétisation de données incertaines. Cette méthode est comparée à celle classique appliquée aux données imprécises. Une étude expérimentale sur des données simulées et des données réelles met en évidence l'efficacité des différentes approches développées
This PhD thesis deals with real-time computer-aided decision for acoustic emission-based control of pressure equipments. The addressed problem is the taking into account of the location uncertainty of acoustic emission signals, in the mixture model-based clustering. Two new algorithms (EM and CEM for uncertain data) are developed. These algorithms are only based on uncertainty zone data and their development is carried out by optimizing new likelihood criteria adapted to this kind of data. In order to speed up the data processing when the data size becomes very big, we have also developed a new method for the discretization of uncertainty zone data. This method is compared with the traditional one applied to imprecise data. An experimental study using simulated and real data shows the efficiency of the various developed approaches

Los estilos APA, Harvard, Vancouver, ISO, etc.

17

Caldairou, Benoît. "Contributions à la segmentation des structures cérébrales en IRM foetale". Phd thesis, Université de Strasbourg, 2012. http://tel.archives-ouvertes.fr/tel-00747860.

Texto completo

Resumen

L'étude de la maturation cérébrale a pour objectif une meilleure compréhension du développement du cerveau durant la grossesse et la mise en évidence des liens entre la modification des structures cérébrales et le développement cognitif. Cette étude est rendue particulièrement difficile par l'évolution constante que connaissent ces structures au cours de cette période, évolution due notamment à la croissance et à l'organisation des tissus cérébraux. La technique de visualisation privilégiée pour observer le cerveau est l'imagerie par résonance magnétique (IRM), méthode non invasive permettant l'acquisition d'images des structures cérébrales in vivo et en trois dimensions à une résolution relativement élevée. Cependant, les différences anatomiques et l'évolution rapide des structures cérébrales chez le fœtus nécessitent une nouvelle modélisation du cerveau. Le travail de cette thèse est composé de deux parties. Tout d'abord, nous avons modifié l'algorithme FCM (Fuzzy C-Means) de manière à permettre une meilleure prise en compte du bruit et du biais de l'image grâce à la méthode des moyennes non-locales issue du débruitage d'image. Ces travaux ont fait l'objet d'une validation à partir de bases d'images synthétiques et réelles. Enfin, nous nous sommes penchés sur la problématique de la segmentation des tissus cérébraux en IRM fœtale, et nous avons introduit un modèle comportant des contraintes topologiques de manière à permettre une segmentation séquentielle des tissus, en se fondant sur la position relative des différentes structures. Ces travaux ont fait l'objet d'une validation à partir de cas réels.

Los estilos APA, Harvard, Vancouver, ISO, etc.

18

Hernandez, De Leon Hector Ricardo. "Supervision et diagnostic des procédés de production d'eau potable". Phd thesis, INSA de Toulouse, 2006. http://tel.archives-ouvertes.fr/tel-00136157.

Texto completo

Resumen

L'objectif des ces travaux est le Développement d'un outil de supervision/diagnostic d'une station de production d'eau potable dans son ensemble. Avant de s'intéresser à la station dans son ensemble, il est apparu que l'unité de coagulation-floculation était une étape clé dans la production de l'eau potable. La première partie de la thèse a donc consisté à développer un capteur logiciel permettant de prédire en ligne la dose de coagulant, sur la base des caractéristiques mesurées de l'eau brute, à l'aide de réseaux de neurones. La deuxième partie de la thèse qui présente un aspect plus novateur réside dans l'utilisation de cette information dans une structure de diagnostic de l'ensemble de la station de traitement. A partir des mesures en ligne classiquement effectuées, un outil de supervision et de diagnostic de la station de production d'eau potable dans son ensemble a été développé. Il est basé sur l'application d'une technique de classification et sur l'interprétation des informations obtenues sur tout l'ensemble du procédé de production avec comme finalité l'identification des défaillances et une aide à la maintenance prédictive/préventive des différentes unités de la station. Une technique basée sur l'entropie floue et la définition d'un indice de validation a été développée pour permettre de valider ou non une transition entre états fonctionnels (c'est-à-dire entre classes) permettant ainsi d'éliminer les classes mal conditionnées ou encore les fausses alarmes. Ces travaux de recherche ont été réalisés en collaboration avec la station de production d'eau potable SMAPA de la ville de Tuxtla Gutiérrez, de Chiapas, au Mexique.

Los estilos APA, Harvard, Vancouver, ISO, etc.

19

Mascarilla, Laurent. "Apprentissage de connaissances pour l'interprétation des images satellite". Toulouse 3, 1996. http://www.theses.fr/1996TOU30300.

Texto completo

Resumen

Dans le cadre d'un systeme expert en interpretation d'images satellite pour la cartographie automatique, ou donnees multi-spectrales et connaissances sont combinees pour produire une classification finale, ce document a pour objet la description d'un systeme neuro-flou d'apprentissage automatique de regles. Deux niveaux de reseaux de neurones sont mis en uvre pour induire, puis optimiser, des regles floues a partir d'exemples de classes de vegetation designees sur l'image par un expert. Dans une premiere phase, un reseau neuro-flou de type competitif entraine sur les echantillons fournit, a partir des donnees exogenes, une base de connaissances et a partir des donnees image un classifieur. A ce stade, les notions d'information relative et de mesure de frequence floue sont utilisees pour produire des regles compactes affectees d'un facteur de certitude. Une approximation linguistique permet ensuite de les presenter en langage naturel a l'expert qui peut alors les valider ou les modifier. A l'issue de cette phase, une premiere carte peut etre obtenue en fusionnant, pour chaque pixel, les degres d'appartenance issus de la partie regle et de la partie image. Dans une seconde phase, un perceptron neuro-flou affine les resultats en ajustant les parametres de la base de connaissances sur la base d'echantillons. En particulier, les formes des fonctions d'appartenance et les connecteurs logiques sont optimises. De la meme facon qu'a la fin de la premiere phase, une carte finale est produite

Los estilos APA, Harvard, Vancouver, ISO, etc.

20

Chang, Chien Kuang Che. "Automated lung screening system of multiple pathological targets in multislice CT". Thesis, Evry, Institut national des télécommunications, 2011. http://www.theses.fr/2011TELE0021/document.

Texto completo

Resumen

Cette recherche vise à développer un système de diagnostic assisté par ordinateur pour la détection automatique et la classification des pathologies du parenchyme pulmonaire telles que les pneumonies interstitielles idiopathiques et l'emphysème, en tomodensitométrie multicoupe. L’approche proposée repose sur morphologie mathématique 3-D, analyse de texture et logique floue, et peut être divisée en quatre étapes : (1) un schéma de décomposition multi-résolution basé sur un filtre 3-D morphologique exploitée pour discriminer les régions pulmonaires selon différentes échelles d’analyse. (2) Un partitionnement spatial supplémentaire du poumon basé sur la texture du tissu pulmonaire a été introduit afin de renforcer la séparation spatiale entre les motifs extraits au même niveau résolution dans la pyramide de décomposition. Puis, (3) une structure d'arbre hiérarchique a été construite pour décrire la relation d’adjacence entre les motifs à différents niveaux de résolution, et pour chaque motif, six fonctions d'appartenance floue ont été établies pour attribuer une probabilité d'association avec un tissu normal ou une cible pathologique. Enfin, (4) une étape de décision exploite les classifications par la logique floue afin de sélectionner la classe cible de chaque motif du poumon parmi les catégories suivantes : normal, emphysème, fibrose/rayon de miel, et verre dépoli. La validation expérimentale du système développé a permis de définir des spécifications relatives aux valeurs recommandées pour le nombre de niveaux de résolution NRL = 12, et le protocole d'acquisition comportant le noyau de reconstruction “LUNG” / ”BONPLUS” et des collimations fines (1.25 mm ou moins). Elle souligne aussi la difficulté d'évaluer quantitativement la performance de l'approche proposée en l'absence d'une vérité terrain, notamment une évaluation volumétrique, la sélection large des bords de la pathologie, et la distinction entre la fibrose et les structures (vasculaires) de haute densité
This research aims at developing a computer-aided diagnosis (CAD) system for fully automatic detection and classification of pathological lung parenchyma patterns in idiopathic interstitial pneumonias (IIP) and emphysema using multi-detector computed tomography (MDCT). The proposed CAD system is based on 3-D mathematical morphology, texture and fuzzy logic analysis, and can be divided into four stages: (1) a multi-resolution decomposition scheme based on a 3-D morphological filter was exploited to discriminate the lung region patterns at different analysis scales. (2) An additional spatial lung partitioning based on the lung tissue texture was introduced to reinforce the spatial separation between patterns extracted at the same resolution level in the decomposition pyramid. Then, (3) a hierarchic tree structure was exploited to describe the relationship between patterns at different resolution levels, and for each pattern, six fuzzy membership functions were established for assigning a probability of association with a normal tissue or a pathological target. Finally, (4) a decision step exploiting the fuzzy-logic assignments selects the target class of each lung pattern among the following categories: normal (N), emphysema (EM), fibrosis/honeycombing (FHC), and ground glass (GDG). The experimental validation of the developed CAD system allowed defining some specifications related with the recommendation values for the number of the resolution levels NRL = 12, and the CT acquisition protocol including the “LUNG” / ”BONPLUS” reconstruction kernel and thin collimations (1.25 mm or less). It also stresses out the difficulty to quantitatively assess the performance of the proposed approach in the absence of a ground truth, such as a volumetric assessment, large margin selection, and distinguishability between fibrosis and high-density (vascular) regions

Los estilos APA, Harvard, Vancouver, ISO, etc.

21

Guarda, Alvaro. "Apprentissage génétique de règles de reconnaissance visuelle : application à la reconnaissance d'éléments du visage". Grenoble INPG, 1998. http://www.theses.fr/1998INPG0110.

Texto completo

Resumen

Depuis quelques annees, un interet croissant est constate dans l'utilisation de techniques d'apprentissage automatique en vision par ordinateur et domaines voisins. Cependant, toutes les possibilites sont loin d'etre suffisamment exploitees. Dans cette perspective, l'objectif de cette these est l'apprentissage automatique de modeles d'objets pour la reconnaissance visuelle dans le cadre de la vision par apparence. Les modeles sont representes par un ensemble de regles en logique floue. Une regle est un ensemble de caracteristiques locales combinees par les operateurs usuels de la logique floue (et, ou et non). Les caracteristiques sont representees par des masques de convolution. L'apprentissage procede par induction sur un ensemble d'exemples, de facon supervisee et incrementale. Des methodes d'apprentissage genetique sont utilisees a deux niveaux : un algorithme genetique fait evoluer des caracteristiques, et une methode de type programmation genetique emploie ces caracteristiques dans la construction de regles de reconnaissance. La methode proposee peut etre utilisee pour apprendre des modeles afin de detecter un objet dans une image ou dans une sequence d'images, ou afin de classifier l'image d'un objet. Nous presentons des resultats d'experimentation avec le prototype d'un tel systeme pour deux taches differentes : classification d'elements du visage humain - il droit, il gauche, bouche, nez ; et detection des yeux. Ce prototype est actuellement integre dans un programme de suivi de visage utilise dans un systeme d'interaction homme machine.

Los estilos APA, Harvard, Vancouver, ISO, etc.

22

Dias, E. Silva Ascendino Flavio. "Contribution a l'analyse structurale par des methodes de classification automatique". Toulouse, INSA, 1986. http://www.theses.fr/1986ISAT0014.

Texto completo

Resumen

Analyse structurale de systemes complexes a partir des donnees, en vue de definir des structures en sous-systemes faiblement couples. Presentation d'une methode de type nuees dynamiques et d'une methode dite des groupes embryonnaires

Los estilos APA, Harvard, Vancouver, ISO, etc.

23

Luqman, Muhammad Muzzamil. "Fuzzy multilevel graph embedding for recognition, indexing and retrieval of graphic document images". Thesis, Tours, 2012. http://www.theses.fr/2012TOUR4005/document.

Texto completo

Resumen

Cette thèse aborde le problème du manque de performance des outils exploitant des représentationsà base de graphes en reconnaissance des formes. Nous proposons de contribuer aux nouvellesméthodes proposant de tirer partie, à la fois, de la richesse des méthodes structurelles et de la rapidité des méthodes de reconnaissance de formes statistiques. Deux principales contributions sontprésentées dans ce manuscrit. La première correspond à la proposition d'une nouvelle méthode deprojection explicite de graphes procédant par analyse multi-facettes des graphes. Cette méthodeeffectue une caractérisation des graphes suivant différents niveaux qui correspondent, selon nous,aux point-clés des représentations à base de graphes. Il s'agit de capturer l'information portéepar un graphe au niveau global, au niveau structure et au niveau local ou élémentaire. Ces informationscapturées sont encapsulés dans un vecteur de caractéristiques numériques employantdes histogrammes flous. La méthode proposée utilise, de plus, un mécanisme d'apprentissage nonsupervisée pour adapter automatiquement ses paramètres en fonction de la base de graphes àtraiter sans nécessité de phase d'apprentissage préalable. La deuxième contribution correspondà la mise en place d'une architecture pour l'indexation de masses de graphes afin de permettre,par la suite, la recherche de sous-graphes présents dans cette base. Cette architecture utilise laméthode précédente de projection explicite de graphes appliquée sur toutes les cliques d'ordre 2pouvant être extraites des graphes présents dans la base à indexer afin de pouvoir les classifier.Cette classification permet de constituer l'index qui sert de base à la description des graphes etdonc à leur indexation en ne nécessitant aucune base d'apprentissage pré-étiquetées. La méthodeproposée est applicable à de nombreux domaines, apportant la souplesse d'un système de requêtepar l'exemple et la granularité des techniques d'extraction ciblée (focused retrieval)
This thesis addresses the problem of lack of efficient computational tools for graph based structural pattern recognition approaches and proposes to exploit computational strength of statistical pattern recognition. It has two fold contributions. The first contribution is a new method of explicit graph embedding. The proposed graph embedding method exploits multilevel analysis of graph for extracting graph level information, structural level information and elementary level information from graphs. It embeds this information into a numeric feature vector. The method employs fuzzy overlapping trapezoidal intervals for addressing the noise sensitivity of graph representations and for minimizing the information loss while mapping from continuous graph space to discrete vector space. The method has unsupervised learning abilities and is capable of automatically adapting its parameters to underlying graph dataset. The second contribution is a framework for automatic indexing of graph repositories for graph retrieval and subgraph spotting. This framework exploits explicit graph embedding for representing the cliques of order 2 by numeric feature vectors, together with classification and clustering tools for automatically indexing a graph repository. It does not require a labeled learning set and can be easily deployed to a range of application domains, offering ease of query by example (QBE) and granularity of focused retrieval

Los estilos APA, Harvard, Vancouver, ISO, etc.

24

Blanchard, Frédéric Herbin Michel. "Visualisation et classification de données multidimensionnelles Application aux images multicomposantes /". Reims : S.C.D. de l'Université, 2005. http://scdurca.univ-reims.fr/exl-doc/GED00000287.pdf.

Texto completo

Los estilos APA, Harvard, Vancouver, ISO, etc.

25

Schmitt, Emmanuel. "Contribution au Système d'Information d'un Produit « Bois ». Appariement automatique de pièces de bois selon des critères de couleur et de texture". Phd thesis, Université Henri Poincaré - Nancy I, 2007. http://tel.archives-ouvertes.fr/tel-00170106.

Texto completo

Resumen

Nos travaux portent sur l'étude d'un capteur flou adapté à l'identification couleur d'avivés. La méthode proposée a pour objectif notamment de prendre en compte la subjectivité de la perception des couleurs par l'être humain et de délivrer ses résultats dans le vocabulaire de l'utilisateur. Le domaine d'applications (industrie du bois) impose certaines contraintes. En effet, les classes de couleurs ne sont pas disjointes (frontières non strictes) et sont représentées par peu d'échantillons. Il en résulte alors des imprécisions et incertitudes dans la définition des classes de sortie. Après un état de l'art sur les techniques de traitement d'images, de reconnaissance de formes et sur la structure des capteurs intelligents, nos travaux sont exposés suivant deux axes : du capteur aux mesures, et des mesures à la décision. Tout d'abord, nous avons évalué et corrigé les perturbations lié à l'environnement ambiant du capteur (température, vieillissement, ...). Ensuite, nous avons déterminé l'espace colorimétrique le plus discriminant,et élaboré le vecteur caractéristique composé d'attributs interprétables permettant d'identifier les couleurs. A partir de ces données, nous avons développé le Fuzzy Reasoning Classifier basé sur un mécanisme de règles linguistiques floues agrégeant des règles conjonctives suivant le modèle de Larsen. Enfin, un opérateur flou de fusion de données est utilisé pour des systèmes multi-capteurs. L'exploitation de ce capteur flou a montré le bon comportement du système face aux contraintes temps-réel industrielles ainsi qu'une amélioration des taux de reconnaissance d'environ 10%.

Los estilos APA, Harvard, Vancouver, ISO, etc.

26

Arzi, Mohammad. "Traitement automatique des signaux vestibulo-oculaires et optocinétiques". Lyon, INSA, 1986. http://www.theses.fr/1986ISAL0025.

Texto completo

Resumen

Analyse entièrement automatique et fiable des réflexes vestibulo-oculaire{R. V. 0) et optocinétique (R. O. C. ). Pour cette analyse, un nouvel algorithme a été développe qui effectue une classification des phases lentes et rapides du nystagmus oculaire. La méthode utilisée pour le classement des phases lentes, fait appel à des notions de la théorie des sous ensembles flous. On peut résumer la méthode comme suit : 1)Une classification globale des phases lentes est réalisée. A chaque point du nystagmus une valeur est affectée qui détermine, dans un contexte global du nystagmus, son appartenance aux phases lentes. 2)Se basant sur ce classement, la forme globale de l'évolution des phases lentes est révélée en faisant un ajustement de courbe au sens des moindres carrés pondérés par la fonction d'appartenance obtenue en 1). 3)Le classement des phases lentes est raffiné en se basant sur la forme globale que l'an a obtenue en 2). Cette fois on obtient une classification locale des phases lentes. 4)La "Position Cumulée de la Phase Lente" (P. C. P. L. ) de l’œil est construite en supprimant les phases rapides et en mettant bout à bout les phases lentes et en faisant une interpolation pendant les phases rapides. 5)Un ajustement de courbe sur la P. C. P. L. Est effectué. Cet ajustement se fait au sens des moindres carrés pondérés par la dernière fonction d'appartenance. Les paramètres des R. V. O. Ou R. O. C. Sont calculés en se basant sur cette dernière courbe.

Los estilos APA, Harvard, Vancouver, ISO, etc.

27

Guillon, Arthur. "Opérateurs de régularisation pour le subspace clustering flou". Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS121.

Texto completo

Resumen

Cette thèse considère une tâche de fouille de données appelée subspace clustering, qui consiste à simultanément identifier des groupes de données similaires et à expliciter cette similarité, notamment en mettant en avant les attributs caractéristiques de ces différents groupes. Nous proposons l'étude d'une famille particulière de modèles de subspace clustering flou, qui reposent sur la minimisation d'une fonction de coût. Nous formulons trois propriétés souhaitables en clustering, dont nous montrons qu'elles sont absentes des minima du modèle que nous étudions. Nous les reformulons sous forme de fonctions de pénalité, que nous rajoutons aux fonctions de coût des algorithmes initiaux. Certaines de ces pénalités étant non différentiables, les techniques d'optimisation usuelles en clustering flou ne sont pas applicables; nous proposons un algorithme de subspace clustering générique qui étend l'approche classique et combine optimisation alternée et descente proximale. Nous appliquons ensuite cet algorithme aux trois pénalités précédentes et montrons que les algorithmes qui en résultent satisfont les propriétés correspondantes
Subspace clustering is a data mining task which consists in simultaneously identifiying groups of similar data and making this similarity explicit, for example by selecting features characteristic of the groups. In this thesis, we consider a specific family of fuzzy subspace clustering models, which are based on the minimization of a cost function. We propose three desirable qualities of clustering, which are absent from the solutions computed by the previous models. We then propose simple penalty terms which we use to encode these properties in the original cost functions. Some of these terms are non-differentiable and the techniques standard in fuzzy clustering cannot be applied to minimize the new cost functions. We thus propose a new, generic optimization algorithm, which extends the standard approach by combining alternate optimization and proximal gradient descent. We then instanciate this algorithm with operators minimizing the three previous penalty terms and show that the resulting algorithms posess the corresponding qualities

Los estilos APA, Harvard, Vancouver, ISO, etc.

28

Blanchard, Frédéric. "Visualisation et classification de données multidimensionnelles : Application aux images multicomposantes". Reims, 2005. http://theses.univ-reims.fr/exl-doc/GED00000287.pdf.

Texto completo

Resumen

L'analyse des images multicomposantes est un problème crucial. Les questions de la visualisation et de la classification pour ces images sont importantes. Nous nous sommes intéressés à ces deux problèmes en nous plaçant dans le cadre plus général de l'analyse des données multidimensionnelles, et avons apporté deux éléments de réponses. Avant de traiter ces questions, nous nous sommes intéressés aux problèmes pratiques et théoriques liés à la dimensionnalité et étudions quelques unes des techniques courantes de réduction de dimensionnalité. La question de la visualisation est alors exposée et une nouvelle méthode utilisant l'image couleur est proposée. Cette technique permet une visualisation immédiate et synthétique des données, sans connaissance a priori. Elle est illustrée par des applications. Nous présentons également une contribution à la classification non supervisée de données qui se situe en amont du processus de classification proprement dit. Nous avons conçu une nouvelle façon de représenter les données et leurs liens à l'aide de la théorie des ensembles flous. Cette méthode permet, en classification, de traiter avec succès des échantillons de données dont les classes sont d'effectifs et de densités différents, sans faire d'a priori sur leur forme. Un algorithme de classification et des exemples de son application sont proposés. Ce travail présente deux contributions importantes aux problématiques de la visualisation et la classification, et fait intervenir des concepts issus de thématiques diverses comme l'analyse de données ou la théorie des ensembles flous. Il peut ainsi être utilisé dans d'autres contextes que celui de l'analyse d'images multicomposantes
The analysis of multicomponent images is a crucial problem. Visualization and clustering problem are two relevant questions about it. We decided to work in the more general frame of data analysis to answer to these questions. The preliminary step of this work is describing the problems induced by the dimensionality and studying the current dimensionality reduction methods. The visualization problem is then considered and a contribution is exposed. We propose a new method of visualization through color image that provides an immediate and sythetic image od data. Applications are presented. The second contribution lies upstream with the clustering procedure strictly speaking. We etablish a new kind of data representation by using rank transformation, fuzziness and agregation procedures. Its use inprove the clustering procedures by dealing with clusters with dissimilar density or variant effectives and by making them more robust. This work presents two important contributions to the field of data analysis applied to multicomponent image. The variety of the tools involved (originally from decision theory, uncertainty management, data mining or image processing) make the presented methods usable in many diversified areas as well as multicomponent images analysis

Los estilos APA, Harvard, Vancouver, ISO, etc.

29

Silva, Bernardes Juliana. "Evolution et apprentissage automatique pour l'annotation fonctionnelle et la classification des homologies lointains en protéines". Phd thesis, Université Pierre et Marie Curie - Paris VI, 2012. http://tel.archives-ouvertes.fr/tel-00684155.

Texto completo

Resumen

La détection d'homologues lointains est essentielle pour le classement fonctionnel et structural des séquences protéiques et pour l'amélioration de l'annotation des génomes très divergents. Pour le classement des séquences, nous présentons la méthode "ILP-SVM homology", combinant la programmation logique inductive (PLI) et les modèles propositionnels. Elle propose une nouvelle représentation logique des propriétés physico-chimiques des résidus et des positions conservées au sein de l'alignement de séquences. Ainsi, PLI trouve les règles les plus fréquentes et les utilise pour la phase d'apprentissage utilisant des modèles d'arbre de décision ou de machine à vecteurs de support. La méthode présente au moins les mêmes performances que les autres méthodes trouvées dans la littérature. Puis, nous proposons la méthode CASH pour annoter les génomes très divergents. CASH a été appliqué à Plasmodium falciparum, mais reste applicable à toutes les espèces. CASH utilise aussi bien l'information issue de génomes proches ou éloignés de P. falciparum. Chaque domaine connu est ainsi représenté par un ensemble de modèles évolutifs, et les sorties sont combinées par un méta-classificateur qui assigne un score de confiance à chaque prédiction. Basé sur ce score et sur des propriétés de co-ocurrences de domaines, CASH trouve l'architecture la plus probable de chaque séquence en appliquant une approche d'optimisation multi-objectif. CASH est capable d'annoter 70% des domaines protéiques de P. falciparum, contre une moyenne de 58% pour ses concurrents. De nouveaux domaines protéiques ont pu être caractérisés au sein de protéines de fonction inconnue ou déjà annotées.

Los estilos APA, Harvard, Vancouver, ISO, etc.

30

Guerra, Thierry-Marie. "Analyse de données objectivo-subjectives : Approche par la théorie des sous-ensembles flous". Valenciennes, 1991. https://ged.uphf.fr/nuxeo/site/esupversions/a3f55508-7363-49a4-a531-9d723ff55359.

Texto completo

Resumen

L'objet de cette thèse est, dans le cadre de systèmes à composante humaine, d'établir un lien entre les sous-ensembles flous et l'analyse des données multidimensionnelles. Les sous-ensembles flous ont pris une part de plus en plus importante pour traiter le problème de l'imprécis et de l'incertain. Il semble alors important, dans le cadre de données subjectives, d'inclure des outils propres aux mathématiques floues permettant le traitement de telles données. En conséquence, une première méthode fondée sur la théorie des sous-ensembles aléatoires flous a été mise au point permettant de traiter des questionnaires laissant une liberté importante au répondeur. Dans le domaine complexe des systèmes à composante humaine, les données recueillies sont très souvent de deux types : données subjectives et objectives. Il est alors nécessaire de vérifier l'adéquation entre ces deux types de données recueillies et, dans ce contexte, d'établir s'il existe des relations stables entre ces deux groupes de données. Le formalisme flou utilise pour mettre au point la méthode de traitement de données subjectives a permis le développement d'une méthode multidimensionnelle répondant a ce problème. Cette méthode s'appuie sur les outils classiques des mathématiques floues, l'inférence déductive et le modus ponens généralisé. Ces deux méthodes ont été appliquées à une étude ergonomique d'un poste de travail bureautique et ont permis de mettre en évidence l'efficacité de cette nouvelle approche. Enfin, les perspectives liées aux méthodologies développées sont discutées ainsi que le problème général de l'extraction des connaissances.

Los estilos APA, Harvard, Vancouver, ISO, etc.

31

El-Hajjami, Hassan. "Application de la théorie des sous-ensembles flous pour le développement d'un algorithme de classification séquentielle non supervisée et non paramétrique pour le suivi en temps réel de l'évolution de l'état d'une structure soumise à des sollicitations extérieures". Compiègne, 1991. http://www.theses.fr/1991COMPE093.

Texto completo

Resumen

Le but à atteindre est la mise au point d'une méthode de contrôle et surveillance, pour le suivi en ligne de l'évolution de l'état de structures de natures différentes soumises à des cycles de sollicitation, par classification de signaux d'émission acoustique émises par ces dernières, et l'élaboration du logiciel correspondant. Pour l'analyse de ces signaux, la construction d'un ensemble d'apprentissage n'est pas toujours possible, car l'émission acoustique en elle-même correspond à un phénomène irréversible. Ceci nous a amené à développer un algorithme de classification automatique de type adaptatif, séquentiel, non supervisé et non paramétrique. Pour la réalisation de cet algorithme nous avons introduit certains concepts de la théorie des sous-ensembles flous. L'utilisation d'un indice appelé : indice de flou, calculé à partir de l'entropie floue, pour définir la zone frontière délimitant chaque classe créée, nous a semblé intéressante pour les différentes applications que nous avons étudiées. Ainsi pour intégrer une nouvelle observation qui arrive à l'une des classes existantes, son degré d'appartenance est comparé à l'indice de flou de cette classe. Partant de l'hypothèse que les premières observations détectées proviennent d'un seul et même mécanisme (qui reflètent l'état initial de la structure) une première classe de départ est formée pour initialiser l'algorithme. L'évolution de cette classe et l'apparition d'autres nouvelles classes par auto-apprentissage, qui peuvent caractériser des états de fonctionnement différents, vont nous permettre de suivre et contrôler l'évolution de l'état de la structure étudiée. Cet algorithme a été testé sur plusieurs types de données réelles et les résultats obtenus, confrontés à d'autres méthodes d'analyse et de reconnaissance de formes, permettent d'envisager son application pour le suivi et le contrôle en ligne des structures soumises à des sollicitations extérieures.

Los estilos APA, Harvard, Vancouver, ISO, etc.

32

Boussarsar, Riadh. "Contribution des mesures floues et d'un modèle markovien à la segmentation d'images couleur". Rouen, 1997. http://www.theses.fr/1997ROUES036.

Texto completo

Resumen

La segmentation d'image couleur consiste à partager l'image en différentes régions ayant des caractéristiques homogènes selon certains critères. La base de représentation couleur utilisée est la base RGB afin de ne pas perdre l'information couleur de l'image. Tenant compte de la corrélation des données des trois plans de l'image dans cette base, une segmentation grossière hybride suivie d'une segmentation fine sont développées. La segmentation grossière est une classification itérative. Elle utilise des mesures floues telles que l'index ou l'entropie floue afin de minimiser de manière optimale et auto-adaptative les zones ambiguës des histogrammes R, G, B de l'image, permettant l'extraction d'une classe 3D, et la formation grossière d'une région formée par un ensemble de pixels classés et de pixels masqués. La segmentation fine utilise le nombre de classes, leur centre de gravité et la fonction d'appartenance de l'algorithme des fuzzy C-means afin de classer globalement les pixels masqués. Etant donné qu'il existe quelques pixels mal classés, une approche markovienne est développée pour éliminer ces pixels et rendre les régions homogènes avec des frontières lisses. Pour finir une version modifiée de la segmentation est intégrée dans une structure pyramidale afin de diminuer les temps de calculs.

Los estilos APA, Harvard, Vancouver, ISO, etc.

33

Bouayad, Mohammed. "Prétopologie et reconnaissances des formes". Lyon, INSA, 1998. http://theses.insa-lyon.fr/publication/1998ISAL0120/these.pdf.

Texto completo

Resumen

La prétopologie a été introduite comme un outil de modélisation pour la Reconnaissance des Formes (RF) et l'analyse d'images (AI) dans les années 80 et depuis, un certain nombre de compléments ont été apportés dans des thèses et des articles. La première partie de la thèse consiste, après une présentation concise et pragmatique de ce modèle, à dresser un bilan de ses apports dans les grands chapitres de la RF et de l'AI, notamment dans la classification automatique, en apprentissage supervisé (et adaptatif), en perception multi-échelle, dans les techniques de rejet. . . La prétopologie présente un double aspect : c'est en même temps un outil de modélisation (traduisant de façon souple les notions de proximité, de ressemblance et/ou de voisinage) et un moyen simple de construction d'algorithmes, par l'intermédiaire de non idempotence de la fonction adhérence. Une double étude comparative est élaborée, d'une part entre la prétopologie et les outils de modélisation arrivés simultanément dans les mêmes domaines (théorie des possibilités, morphologie mathématique, les ensembles rugueux. . ), d'autre part entre les méthodes prétopologiques de RF et les méthodes statistiques, structurelles et syntaxiques ; on montre que ces méthodes ne sont pas de même nature. La seconde partie est consacrée à une contribution plus technique concernant des développements du modèle prétopologique. Nous montrons une insuffisance du modèle en ce qui concerne la notion de continuité ; cette notion est sous-jacente de façon permanente en reconnaissance des formes ; nous proposons une série de traduction possible de la notion de continuité ; ces traductions sont très cohérentes avec la théorie générale car elles sont à la fois modèle et outils pour les algorithmes
Pretopology has been introduced as a modelisation tool for the pattern recognition and image processing in the early 80’ and since some related works has been achieved. The first chapter describe the model and show the advantage of that model for the main topics of Pattern Recognition and image processing, in particular in automatic classification, supervised learning (and adaptation methods), in multi-scale perception and rejection techniques. Pretopology show two aspect : it’s a modelisation tool (which traduce the notion of proximity, resemblance and/or neighborhood) and a simple way to build algorithm by using the non idempotence of the adherence mapping. A double comparative study has been performed, first between Petropology and other modelisation theories which appear simultaneously in the same domain (fussy theory, mathematical morphology, rough set) and secondly between the pretopological methods in Pattern Recognition and the common approach used in this domain (statistical, structural or syntactical methods) ; we show that these methods are not from the same type. The second bring a more technical contribution concerning the extension of the pretopological model. We show a lack of description for the continuity concept which is omnipresent in Pattern Recognition ; we propose some possible translation of this continuity concept which are coherent with the general theory because they are at the same time models and tools for algorithms

Los estilos APA, Harvard, Vancouver, ISO, etc.

34

Bouayad, Mohammed Emptoz Hubert. "Prétopologie et reconnaissances des formes". Villeurbanne : Doc'INSA, 2006. http://docinsa.insa-lyon.fr/these/pont.php?id=bouayad.

Texto completo

Los estilos APA, Harvard, Vancouver, ISO, etc.

35

ARMAND, Stéphane. "Analyse Quantifiée de la Marche : extraction de connaissances à partir de données pour l'aide à l'interprétation clinique de la marche digitigrade". Phd thesis, Université de Valenciennes et du Hainaut-Cambresis, 2005. http://tel.archives-ouvertes.fr/tel-00010618.

Texto completo

Resumen

L'Analyse Quantifiée de la Marche (AQM) est un examen permettant d'identifier et de quantifier les défauts de marche d'un patient à partir de données biomécaniques. L'interprétation de cet examen, conduisant à l'explication des défauts de marche, est ardue. Parmi ces défauts, la marche digitigrade est un des plus courants et pour lequel l'identification des causes demeure difficile. Ce travail propose de fournir une aide à l'interprétation des données de l'AQM pour la marche digitigrade. Afin d'atteindre cet objectif, une méthode d'Extraction de Connaissances à partir de Données (ECD) est utilisée en combinant un apprentissage automatique non-supervisé et supervisé, pour extraire objectivement des connaissances intrinsèques et discriminantes des données de l'AQM. L'apprentissage non-supervisé (c-moyennes floues) a permis d'identifier trois patrons de marche digitigrade à partir de la cinématique de la cheville provenant d'une base de données de plus de 2500 AQM (Institut Saint-Pierre, Palavas, 34). L'apprentissage supervisé est utilisé pour expliquer ces trois patrons de marche par des mesures cliniques sous la forme de règles induites à partir d'arbres de décision flous. Les règles les plus significatives et interprétables (12) sont sélectionnées pour créer une base de connaissances qui est validée au regard de la littérature et des experts. Ces règles peuvent servir d'aide à l'interprétation des données de l'AQM pour la marche digitigrade. Ce travail ouvre différentes perspectives de recherche allant de la généralisation de la méthode utilisée à la création d'un simulateur de marche pathologique.

Los estilos APA, Harvard, Vancouver, ISO, etc.

36

Gunes, Veyis. "Reconnaissance des formes évolutives par combinaison, coopération et sélection de classifieurs". Phd thesis, Université de La Rochelle, 2001. http://tel.archives-ouvertes.fr/tel-00631621.

Texto completo

Resumen

Lorsque plusieurs classifieurs sont amenés à concourir à une même tâche de reconnaissance, plusieurs stratégies de décisions, impliquant ces classifieurs de différents manières, sont possibles. Une première stratégie consiste à décider suite à différents avis : il s'agit de la combinaison de classifieurs. Une deuxième stratégie consiste à utiliser un ou plusieurs avis pour mieux guider d'autres classifieurs dans leurs phases d'apprentissages, et à utiliser un ou plusieurs avis pour améliorer la prise de décisions d'autres classifieurs dans la phase de classement : il s'agit de la coopération de classifieurs. Enfin, la troisième et dernière stratégie consiste à privilégier un ou plusieurs classifieurs en fonction de divers critères ou en fonction de la situation : il s'agit de la sélection de classifieurs. L'aspect temporel de la RdF, c'est-à-dire l'évolution possible des classes à reconnaître, est traité par la stratégie de la sélection. En étudiant les aspects statiques et dynamiques de la RdF, nous montrons que pour reconnaître des classes dynamiques, deux approches sont possibles. Ces deux approches sont validées sur un ensemble de test. Dans le cas où les trajectoires des classes ne s'intersectent pas et que ces classes sont multimodales, l'approche proposée consiste à transformer ces classes dynamiques en classes statiques. En intégrant l'évolution de ces classes dans le temps, les classes obtenues deviennent alors complexes. Pour traiter ce type de classes, un algorithme de coopération des classifieurs est proposé. Il met en {\oe}uvre, d'une part, une méthode de classification non-supervisée effectuant une sélection adaptative de classifieurs et, d'autre part, plusieurs méthodes de RdF supervisées. Lorsqu'il n'y a pas d'intersection et que les classes évoluent de manière continue dans le temps, l'approche proposée consiste à rendre dynamique le système de RdF. Une méthode, fondée sur la modélisation des changements d'états du système par un réseau de Petri flou, est proposée. La méthode permet de prédire le ou les états du système les mieux adaptés au problème de RdF, à l'instant considéré.

Los estilos APA, Harvard, Vancouver, ISO, etc.

37

Quéré, Romain. "Quelques propositions pour la comparaison de partitions non strictes". Phd thesis, Université de La Rochelle, 2012. http://tel.archives-ouvertes.fr/tel-00950514.

Texto completo

Resumen

Cette thèse est consacrée au problème de la comparaison de deux partitions non strictes (floues/probabilistes, possibilistes) d'un même ensemble d'individus en plusieurs clusters. Sa résolution repose sur la définition formelle de mesures de concordance reprenant les principes des mesures historiques développées pour la comparaison de partitions strictes et trouve son application dans des domaines variés tels que la biologie, le traitement d'images, la classification automatique. Selon qu'elles s'attachent à observer les relations entre les individus décrites par chacune des partitions ou à quantifier les similitudes entre les clusters qui composent ces partitions, nous distinguons deux grandes familles de mesures pour lesquelles la notion même d'accord entre partitions diffère, et proposons d'en caractériser les représentants selon un même ensemble de propriétés formelles et informelles. De ce point de vue, les mesures sont aussi qualifiées selon la nature des partitions comparées. Une étude des multiples constructions sur lesquelles reposent les mesures de la littérature vient compléter notre taxonomie. Nous proposons trois nouvelles mesures de comparaison non strictes tirant profit de l'état de l'art. La première est une extension d'une approche stricte tandis que les deux autres reposent sur des approches dite natives, l'une orientée individus, l'autre orientée clusters, spécifiquement conçues pour la comparaison de partitions non strictes. Nos propositions sont comparées à celles de la littérature selon un plan d'expérience choisi pour couvrir les divers aspects de la problématique. Les résultats présentés montrent l'intérêt des propositions pour le thème de recherche qu'est la comparaison de partitions. Enfin, nous ouvrons de nouvelles perspectives en proposant les prémisses d'un cadre qui unifie les principales mesures non strictes orientées individus.

Los estilos APA, Harvard, Vancouver, ISO, etc.

38

Elfelly, Nesrine. "Approche neuronale de la représentation et de la commande multimodèles de processus complexes". Thesis, Lille 1, 2010. http://www.theses.fr/2010LIL10156/document.

Texto completo

Resumen

Les travaux présentés dans ce mémoire portent sur la représentation et la commande multimodèles de processus complexes. L'approche envisagée, essentiellement basée sur des techniques de classification neuro-floues, vise à établir une base de modèles décrivant le système dans l'ensemble de son espace de fonctionnement en se servant seulement des mesures de type entrée/sortie. L'implémentation de cette approche nécessite trois étapes principales :(1) détermination de la structure multimodèle, pour laquelle le nombre de modèles est tout d'abord selectionné en utilisant un réseau de neurones à apprentissage compétitif pénalisant le rival. Les différentes classes de fonctionnement sont ensuite déterminées en se servant d'un algorithme de classification adéquat (carte de Kohonen, K-moyennes ou K-moyennes floues),(2) identification paramétrique des modèles basée sur les résultats de la classification et une procédure de validation dont l'objectif est de confirmer l'efficacité de la structure multimodèle proposée en faisant intervenir un mécanisme de décision convenable permettant l'estimation de la contribution (ou validité) de chaque modèle,(3) calcul des paramètres du contrôleur global du système à travers une fusion entre les paramètres des commandes partielles associées aux différents modèles de la base.L’approche suggérée se distingue essentiellement par son aspect général et pratique dans la mesure où elle est simple à mettre en œuvre, ne nécessite aucune connaissance a priori et propose d’adapter le traitement en choisissant les méthodes adéquates de classification et de calcul des validités, suivant certains aspects de l’espace de fonctionnement du processus considéré
This contribution deals with a new approach for complex processes modeling and control. It is essentially based on neuro-fuzzy classification methods and aims to derive a base of models describing the system in the whole operating domain by using only input/output measurements. The implementation of this approach requires three main steps:(1) determination of the multimodel stucture, for which the number of models are firstly worked out by using a neural network with a rival penalized competitive learning. The different operating clusters are then selected referring to an adequate classification algorithm (Kohonen card, K-means or fuzzy K-means),(2) parametric model identification using the classification results and a validation procedure to confirm the efficiency of the proposed multimodel structure through an appropriate decision mechanism which allows the estimation of the contribution (or validity) of each model.(3) determination of the global system control parameters deduced through a fusion of models control parameters.The suggested approach seems to be interessent since it's easy to apply, doesn't require any a priori knowledge and propose to adapt the processing by choosing the adequate methods of data classification and validity computation referring to some aspects of the operating domain of the considered process

Los estilos APA, Harvard, Vancouver, ISO, etc.

39

Qureshi, Taimur. "Contributions to decision tree based learning". Thesis, Lyon 2, 2010. http://www.theses.fr/2010LYO20051/document.

Texto completo

Resumen

Advances in data collection methods, storage and processing technology are providing a unique challenge and opportunity for automated data learning techniques which aim at producing high-level information, or models, from data. A Typical knowledge discovery process consists of data selection, data preparation, data transformation, data mining and interpretation/validation of the results. Thus, we develop automatic learning techniques which contribute to the data preparation, transformation and mining tasks of knowledge discovery. In doing so, we try to improve the prediction accuracy of the overall learning process. Our work focuses on decision tree based learning and thus, we introduce various preprocessing and transformation techniques such as discretization, fuzzy partitioning and dimensionality reduction to improve this type of learning. However, these techniques can be used in other learning methods e.g. discretization can also be used for naive-bayes classifiers. The data preparation step represents almost 80 percent of the problem and is both time consuming and critical for the quality of modeling. Discretization of continuous features is an important problem that has effects on accuracy, complexity, variance and understandability of the induction models. In this thesis, we propose and develop resampling based aggregation techniques that improve the quality of discretization. Later, we validate by comparing with other discretization techniques and with an optimal partitioning method on 10 benchmark data sets.The second part of our thesis concerns with automatic fuzzy partitioning for soft decision tree induction. Soft or fuzzy decision tree is an extension of the classical crisp tree induction such that fuzzy logic is embedded into the induction process with the effect of more accurate models and reduced variance, but still interpretable and autonomous. We modify the above resampling based partitioning method to generate fuzzy partitions. In addition we propose, develop and validate another fuzzy partitioning method that improves the accuracy of the decision tree.Finally, we adopt a topological learning scheme and perform non-linear dimensionality reduction. We modify an existing manifold learning based technique and see whether it can enhance the predictive power and interpretability of classification
La recherche avancée dans les méthodes d'acquisition de données ainsi que les méthodes de stockage et les technologies d'apprentissage, s'attaquent défi d'automatiser de manière systématique les techniques d'apprentissage de données en vue d'extraire des connaissances valides et utilisables.La procédure de découverte de connaissances s'effectue selon les étapes suivants: la sélection des données, la préparation de ces données, leurs transformation, le fouille de données et finalement l'interprétation et validation des résultats trouvés. Dans ce travail de thèse, nous avons développé des techniques qui contribuent à la préparation et la transformation des données ainsi qu'a des méthodes de fouille des données pour extraire les connaissances. A travers ces travaux, on a essayé d'améliorer l'exactitude de la prédiction durant tout le processus d'apprentissage. Les travaux de cette thèse se basent sur les arbres de décision. On a alors introduit plusieurs approches de prétraitement et des techniques de transformation; comme le discrétisation, le partitionnement flou et la réduction des dimensions afin d'améliorer les performances des arbres de décision. Cependant, ces techniques peuvent être utilisées dans d'autres méthodes d'apprentissage comme la discrétisation qui peut être utilisées pour la classification bayesienne.Dans le processus de fouille de données, la phase de préparation de données occupe généralement 80 percent du temps. En autre, elle est critique pour la qualité de la modélisation. La discrétisation des attributs continus demeure ainsi un problème très important qui affecte la précision, la complexité, la variance et la compréhension des modèles d'induction. Dans cette thèse, nous avons proposes et développé des techniques qui ce basent sur le ré-échantillonnage. Nous avons également étudié d'autres alternatives comme le partitionnement flou pour une induction floue des arbres de décision. Ainsi la logique floue est incorporée dans le processus d'induction pour augmenter la précision des modèles et réduire la variance, en maintenant l'interprétabilité.Finalement, nous adoptons un schéma d'apprentissage topologique qui vise à effectuer une réduction de dimensions non-linéaire. Nous modifions une technique d'apprentissage à base de variété topologiques `manifolds' pour savoir si on peut augmenter la précision et l'interprétabilité de la classification

Los estilos APA, Harvard, Vancouver, ISO, etc.

40

Laclau, Charlotte. "Hard and fuzzy block clustering algorithms for high dimensional data". Thesis, Sorbonne Paris Cité, 2016. http://www.theses.fr/2016USPCB014.

Texto completo

Resumen

Notre capacité grandissante à collecter et stocker des données a fait de l'apprentissage non supervisé un outil indispensable qui permet la découverte de structures et de modèles sous-jacents aux données, sans avoir à \étiqueter les individus manuellement. Parmi les différentes approches proposées pour aborder ce type de problème, le clustering est très certainement le plus répandu. Le clustering suppose que chaque groupe, également appelé cluster, est distribué autour d'un centre défini en fonction des valeurs qu'il prend pour l'ensemble des variables. Cependant, dans certaines applications du monde réel, et notamment dans le cas de données de dimension importante, cette hypothèse peut être invalidée. Aussi, les algorithmes de co-clustering ont-ils été proposés: ils décrivent les groupes d'individus par un ou plusieurs sous-ensembles de variables au regard de leur pertinence. La structure des données finalement obtenue est composée de blocs communément appelés co-clusters. Dans les deux premiers chapitres de cette thèse, nous présentons deux approches de co-clustering permettant de différencier les variables pertinentes du bruit en fonction de leur capacité \`a révéler la structure latente des données, dans un cadre probabiliste d'une part et basée sur la notion de métrique, d'autre part. L'approche probabiliste utilise le principe des modèles de mélanges, et suppose que les variables non pertinentes sont distribuées selon une loi de probabilité dont les paramètres sont indépendants de la partition des données en cluster. L'approche métrique est fondée sur l'utilisation d'une distance adaptative permettant d'affecter à chaque variable un poids définissant sa contribution au co-clustering. D'un point de vue théorique, nous démontrons la convergence des algorithmes proposés en nous appuyant sur le théorème de convergence de Zangwill. Dans les deux chapitres suivants, nous considérons un cas particulier de structure en co-clustering, qui suppose que chaque sous-ensemble d'individus et décrit par un unique sous-ensemble de variables. La réorganisation de la matrice originale selon les partitions obtenues sous cette hypothèse révèle alors une structure de blocks homogènes diagonaux. Comme pour les deux contributions précédentes, nous nous plaçons dans le cadre probabiliste et métrique. L'idée principale des méthodes proposées est d'imposer deux types de contraintes : (1) nous fixons le même nombre de cluster pour les individus et les variables; (2) nous cherchons une structure de la matrice de données d'origine qui possède les valeurs maximales sur sa diagonale (par exemple pour le cas des données binaires, on cherche des blocs diagonaux majoritairement composés de valeurs 1, et de 0 à l’extérieur de la diagonale). Les approches proposées bénéficient des garanties de convergence issues des résultats des chapitres précédents. Enfin, pour chaque chapitre, nous dérivons des algorithmes permettant d'obtenir des partitions dures et floues. Nous évaluons nos contributions sur un large éventail de données simulées et liées a des applications réelles telles que le text mining, dont les données peuvent être binaires ou continues. Ces expérimentations nous permettent également de mettre en avant les avantages et les inconvénients des différentes approches proposées. Pour conclure, nous pensons que cette thèse couvre explicitement une grande majorité des scénarios possibles découlant du co-clustering flou et dur, et peut être vu comme une généralisation de certaines approches de biclustering populaires
With the increasing number of data available, unsupervised learning has become an important tool used to discover underlying patterns without the need to label instances manually. Among different approaches proposed to tackle this problem, clustering is arguably the most popular one. Clustering is usually based on the assumption that each group, also called cluster, is distributed around a center defined in terms of all features while in some real-world applications dealing with high-dimensional data, this assumption may be false. To this end, co-clustering algorithms were proposed to describe clusters by subsets of features that are the most relevant to them. The obtained latent structure of data is composed of blocks usually called co-clusters. In first two chapters, we describe two co-clustering methods that proceed by differentiating the relevance of features calculated with respect to their capability of revealing the latent structure of the data in both probabilistic and distance-based framework. The probabilistic approach uses the mixture model framework where the irrelevant features are assumed to have a different probability distribution that is independent of the co-clustering structure. On the other hand, the distance-based (also called metric-based) approach relied on the adaptive metric where each variable is assigned with its weight that defines its contribution in the resulting co-clustering. From the theoretical point of view, we show the global convergence of the proposed algorithms using Zangwill convergence theorem. In the last two chapters, we consider a special case of co-clustering where contrary to the original setting, each subset of instances is described by a unique subset of features resulting in a diagonal structure of the initial data matrix. Same as for the two first contributions, we consider both probabilistic and metric-based approaches. The main idea of the proposed contributions is to impose two different kinds of constraints: (1) we fix the number of row clusters to the number of column clusters; (2) we seek a structure of the original data matrix that has the maximum values on its diagonal (for instance for binary data, we look for diagonal blocks composed of ones with zeros outside the main diagonal). The proposed approaches enjoy the convergence guarantees derived from the results of the previous chapters. Finally, we present both hard and fuzzy versions of the proposed algorithms. We evaluate our contributions on a wide variety of synthetic and real-world benchmark binary and continuous data sets related to text mining applications and analyze advantages and inconvenients of each approach. To conclude, we believe that this thesis covers explicitly a vast majority of possible scenarios arising in hard and fuzzy co-clustering and can be seen as a generalization of some popular biclustering approaches

Los estilos APA, Harvard, Vancouver, ISO, etc.

Ofrecemos descuentos en todos los planes premium para autores cuyas obras están incluidas en selecciones literarias temáticas. ¡Contáctenos para obtener un código promocional único!