Dissertations / Theses on the topic 'Analyse supervisée'

To see the other types of publications on this topic, follow the link: Analyse supervisée.

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Analyse supervisée.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Debeir, Olivier. "Segmentation supervisée d'images." Doctoral thesis, Universite Libre de Bruxelles, 2001. http://hdl.handle.net/2013/ULB-DIPOT:oai:dipot.ulb.ac.be:2013/211474.

Full text
APA, Harvard, Vancouver, ISO, and other styles
2

Goubet, Étienne. "Contrôle non destructif par analyse supervisée d'images 3D ultrasonores." Cachan, Ecole normale supérieure, 1999. http://www.theses.fr/1999DENS0011.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'objet de cette thèse consiste en l'élaboration d'une chaine de traitements permettant d'extraire l'information utile de données 3d ultrasonores et de caractériser les défauts éventuellement présents dans la pièce inspectée. Cette caractérisation a été abordée pour des fissures contrôlées par un même émetteur/récepteur. Dans une première partie nous rappelons les principes du contrôle non destructif par ultrasons ainsi que les représentations classiques des données ultrasonores. La deuxième partie est consacrée à l'étude d'un modèle d'extraction de l'information d'échos présents sur les données au moyen d'une base d'ondelettes adaptée. L'utilisation d'une ondelette unique translatée dans le temps est rendue possible par un travail sur une représentation complexe des données réelles originales. Une première étape permet de détecter et de positionner les échos d'amplitude significative. Dans un deuxième temps, on effectue une régularisation spatialement cohérente des instants de détection à l'aide d'un modèle markovien. On élimine ainsi les échos dont les instants de détection ne font pas partie de surfaces d'instants régulières. Les parties suivantes traitent de la localisation et du dimensionnement des fissures. On utilise des caractéristiques extraites du faisceau ultrasonore afin de déterminer le trajet de l'onde ultrasonore du capteur à l'objet diffractant lorsque la réponse de l'écho est maximale. On met en correspondance l'instant de détection obtenu pour cet écho et le temps de parcours selon le trajet défini afin de positionner un point d'arête dans la pièce. On obtient ainsi un ensemble de points de discrétisation pour chaque arête. Dans le cadre de données 3d obtenues sur un matériau isotrope, on élimine les points d'arête extrêmes en utilisant un critère de comparaison sur les courbes échodynamiques associées aux points de détection sur les données réelles et sur des données simulées équivalentes. La localisation est abordée pour des fissures situées dans un matériau isotrope ou acier revêtu d'anisotrope.
3

Huck, Alexis. "Analyse non-supervisée d’images hyperspectrales : démixage linéaire et détection d’anomalies." Aix-Marseille 3, 2009. http://www.theses.fr/2009AIX30036.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse explore deux axes de recherche pour l'analyse non-supervisée d'Images HyperSpectrales (HSIs). Sous l'hypothèse du modèle de mélange linéaire de spectres, nous abordons d'abord la problématique du démixage par Factorisation en Matrices Non-négatives (NMF). D'une part, nous proposons de régulariser le problème en intégrant de l'information a priori spectrale et spatiale judicieuse, spécifique aux HSIs. D'autre part, nous proposons un estimateur du pas optimal pour la descente de gradient projeté. Nous montrons ainsi que, correctement régularisée, la NMF est un outil pertinent pour le démixage d'HSIs. Puis, nous explorons la problématique de la détection d'anomalies. Nous proposons un algorithme de Poursuite de Composantes Anormales (PCA), basé simultanément sur la poursuite de projections et sur un modèle probabiliste avec test d'hypothèses. Ainsi, la PCA détecte les anomalies à taux de fausse alarme constant et les discrimine en classes spectralement homogènes
This thesis focusses on two research fields regarding unsupervised analysis of hyperspectral images (HSIs). Under the assumptions of the linear spectral mixing model, the formalism of Non-Negative Matrix Factorization is investigated for unmixing purposes. We propose judicious spectral and spatial a priori knowledge to regularize the problem. In addition, we propose an estimator for the projected gradient optimal step-size. Thus, suitably regularized NMF is shown to be a relevant approach to unmix HSIs. Then, the problem of anomaly detection is considered. We propose an algorithm for Anomalous Component Pursuit (ACP), simultaneously based on projection pursuit and on a probabilistic model and hypothesis testing. ACP detects the anomalies with a constant false alarm rate and discriminates them into spectrally homogeneous classes
4

Chombart, Anne. "Commande supervisée de systèmes hybrides." Grenoble INPG, 1997. http://www.theses.fr/1997INPG0170.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le travail que nous presentons dans cette these a pour but de construire un superviseur discret pour un systeme a dynamique continue dans l'optique de la contraindre a respecter des specifications de fonctionnement. Remarquant que la nature discrete du superviseur d'une part et la nature continue du systeme a controler d'autre part posent la question de la compatibilite des informations mutuellement echangees entre ces deux elements, nous avons choisi de traiter le probleme comme celui de la modelisation et de l'analyse d'un systeme dynamique hybride. D'une facon generale, un systeme dynamique hybride est un systeme qui comporte plusieurs dynamiques de natures differentes. Le terme dynamique signifie qu'il y a une evolution dans le temps du systeme. Le terme hybride specifie que ces evolutions sont du type continu et evenementiel. Apres l'etude des methodes de modelisation des systemes dynamiques hybrides, proposees dans la litterature, utilisant les automates a etats finis pour representer les systemes a evenements discrets, nous nous sommes apercus, que quelle que soit la methodologie adoptee, evenementielle, continue ou combinee, le probleme de modelisation se ramene a la determination de regions de l'espace d'etat continu delimitees par des frontieres susceptibles de caracteriser le comportement dynamique du procede, afin que les evenements qui y sont associes portent l'information necessaire a l'analyse de l'automate correspondant. Nous avons remarque que ce qui differencie les approches presentees est la maniere de determiner les transitions entre les etats du graphe correspondant a ce que nous appelons le squelette de la structure commune. Le modele d'automate representant la partie continue du systeme etudie est construit sur la base d'une partition de l'espace d'etat continu obtenue par la construction de fonctions de lyapunov et de domaines de stabilite associes, permettant ainsi de proposer une structure equivalente a celle du squelette de la structure mise en evidence. Ce squelette correspond a l'armature de la structure du controleur hybride ou superviseur discret que nous cherchons a construire.
5

Faucheux, Cyrille. "Segmentation supervisée d'images texturées par régularisation de graphes." Thesis, Tours, 2013. http://www.theses.fr/2013TOUR4050/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Dans cette thèse, nous nous intéressons à un récent algorithme de segmentation d’images basé sur un processus de régularisation de graphes. L’objectif d’un tel algorithme est de calculer une fonction indicatrice de la segmentation qui satisfait un critère de régularité ainsi qu’un critère d’attache aux données. La particularité de cette approche est de représenter les images à l’aide de graphes de similarité. Ceux-ci permettent d’établir des relations entre des pixels non-adjacents, et ainsi de procéder à un traitement non-local des images. Afin d’en améliorer la précision, nous combinons cet algorithme à une seconde approche non-locale : des caractéristiques de textures. Un nouveau terme d’attache aux données est dans un premier temps développé. Inspiré des travaux de Chan et Vese, celui-ci permet d’évaluer l’homogénéité d’un ensemble de caractéristiques de textures. Dans un second temps, nous déléguons le calcul de l’attache aux données à un classificateur supervisé. Entrainé à reconnaitre certaines classes de textures, ce classificateur permet d’identifier les caractéristiques les plus pertinentes, et ainsi de fournir une modélisation plus aboutie du problème. Cette seconde approche permet par ailleurs une segmentation multiclasse. Ces deux méthodes ont été appliquées à la segmentation d’images texturées 2D et 3D
In this thesis, we improve a recent image segmentation algorithm based on a graph regularization process. The goal of this method is to compute an indicator function that satisfies a regularity and a fidelity criteria. Its particularity is to represent images with similarity graphs. This data structure allows relations to be established between similar pixels, leading to non-local processing of the data. In order to improve this approach, combine it with another non-local one: the texture features. Two solutions are developped, both based on Haralick features. In the first one, we propose a new fidelity term which is based on the work of Chan and Vese and is able to evaluate the homogeneity of texture features. In the second method, we propose to replace the fidelity criteria by the output of a supervised classifier. Trained to recognize several textures, the classifier is able to produce a better modelization of the problem by identifying the most relevant texture features. This method is also extended to multiclass segmentation problems. Both are applied to 2D and 3D textured images
6

Dârlea, Georgiana-Lavinia. "Un système de classification supervisée à base de règles implicatives." Chambéry, 2010. http://www.theses.fr/2010CHAMS001.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le travail de recherche de la thèse concerne la classification supervisée de données et plus particulièrement l'apprentissage semi-automatique de classifieurs à base de règles floues graduelles. Le manuscrit de la thèse présente une description de la problématique de classification ainsi que les principales méthodes de classification déjà développées, afin de placer la méthode proposée dans le contexte général de la spécialité. Ensuite, les travaux de la thèse sont présentés: la définition d'un cadre formel pour la représentation d'un classifieur élémentaire à base de règles floues graduelles dans un espace 2D, la spécification d'un algorithme d'apprentissage de classifieurs élémentaires à partir de données, la conception d'un système multi-dimensionel de classification multi-classes par combinaison de classifieurs élémentaires. L'implémentation de l'ensemble des fonctionnalités est ensuite détaillée, puis finalement les développements réalisés sont utilisés pour deux applications en imagerie: analyse de la qualité des produits industriels par tomographie, classification en régions d'intérêt d'images satellitaires radar
This PhD thesis presents a series of research works done in the field of supervised data classification more precisely in the domain of semi-automatic learning of fuzzy rules-based classifiers. The prepared manuscript presents first an overview of the classification problem, and also of the main classification methods that have already been implemented and certified in order to place the proposed method in the general context of the domain. Once the context established, the actual research work is presented: the definition of a formal background for representing an elementary fuzzy rule-based classifier in a bi-dimensional space, the description of a learning algorithm for these elementary classifiers for a given data set and the conception of a multi-dimensional classification system which is able to handle multi-classes problems by combining the elementary classifiers. The implementation and testing of all these functionalities and finally the application of the resulted classifier on two real-world digital image problems are finally presented: the analysis of the quality of industrial products using 3D tomographic images and the identification of regions of interest in radar satellite images
7

Leblanc, Brice. "Analyse non supervisée de données issues de Systèmes de Transport Intelligent-Coopératif." Thesis, Reims, 2020. http://www.theses.fr/2020REIMS014.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse se situe dans le contexte des réseaux véhiculaires (VANET), et plus particulièrement dans le contexte des Systèmes de Transport Intelligent-Coopératif (STI-C). Ces systèmes échangent des informations pour améliorer la sécurité routière.Le but de cette thèse est d'introduire des outils d'analyse de données qui peuvent fournir aux opérateurs routiers des informations sur l'utilisation et état de leurs infrastructures. Par conséquent, ces informations peuvent contribuer à améliorer la sécurité routière. Nous identifions deux cas que nous voulons traiter : l'identification des profils de conduite et la détection des obstacles routiers.Pour traiter ces questions, nous proposons d'utiliser des approches d'apprentissage non supervisées : des méthodes de regroupement pour l'identification des profils de conduite, et la détection de changement de concept pour la détection des obstacles. Cette thèse présente trois contributions principales : une méthodologie nous permettant de transformer les données brutes des STI-C en un ensemble de trajectoires puis de données d'apprentissage ; l'utilisation de méthodes classiques de regroupement et des points d'intérêt pour les profils de conduite avec des expériences sur les données issues des appareils mobiles et des journaux du réseau ; et la prise en compte d'une foule de véhicules fournissant des journaux du réseau considérés comme flux de données en entrée d'algorithmes de détection de changement de concept pour reconnaître les obstacles routiers
This thesis takes place in the context of Vehicular Ad-hoc Networks (VANET), and more specifically the context of Cooperative-Intelligent Transport System (C-ITS). These systems are exchanging information to enhance road safety.The purpose of this thesis is to introduce data analysis tools that may provide road operators information on the usage/state of their infrastructures. Therefore, this information may help to improve road safety. We identify two cases we want to deal with: driving profile identification and road obstacle detection.For dealing with those issues, we propose to use unsupervised learning approaches: clustering methods for driving profile identification, and concept drift detection for obstacle detection. This thesis introduces three main contributions: a methodology allowing us to transform raw C-ITS data in, first, trajectory, and then, learning data-set; the use of classical clustering methods and Points Of Interests for driving profiles with experiments on mobile device data and network logs data; and the consideration of a crowd of vehicles providing network log data as data streams and considered as input of concept drift detection algorithms to recognize road obstacles
8

Fontaine, Michaël. "Segmentation non supervisée d'images couleur par analyse de la connexité des pixels." Lille 1, 2001. https://pepite-depot.univ-lille.fr/LIBRE/Th_Num/2001/50376-2001-305-306.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Dans le cadre de la segmentation d'images couleur en régions, nous proposons une méthode originale qui considère que les régions sont définies comme des ensembles de pixels connexes appartenant à une même classe de pixels. Notre approche considère au même titre les propriétés de connexité et les propriétés colorimétriques des pixels afin de construire des classes qui peuvent être non équiprobables. Nous définissons le degré de connexité couleur d'un ensemble de pixels qui est une mesure de la connexité d'un ensemble de pixels dont les couleurs appartiennent à un intervalle de couleurs. Nous supposons que les pixels de chaque région de l'image peuvent être regroupés en une classe de pixels et qu'une classe est un ensemble de pixels dont le degré de connexité couleur présente une valeur remarquablement élevée. Toute la difficulté consiste à identifier ces ensembles. Pour cela, nous définissons une structure de donnée originale, la pyramide des degrés de connexité couleur PDCC, qui recense de manière organisée et hiérarchique les degrés de connexité couleur de tous les ensembles de pixels possibles que peut contenir une image et dont les couleurs appartiennent à des intervalles de couleurs parfaitement définis. Pour des raisons d'implantation, nous ne pouvons construire cette pyramide qu'en tenant compte de deux composantes trichromatiques parmi les trois disponibles. Nous décomposons alors l'image originale en trois images bichromatiques associées respectivement aux couples de composantes (R,G), (G,B) et (B,R) et nous construisons la PDCC pour chacune de ces images. Une méthode d'analyse de chaque PDCC est proposée afin de construire les noyaux des classes présentes dans chaque image bichromatique.
9

Conan-Guez, Brieuc. "Modélisation supervisée de données fonctionnelles par perceptron multi-couches." Phd thesis, Université Paris Dauphine - Paris IX, 2002. http://tel.archives-ouvertes.fr/tel-00178892.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'Analyse de Données Fonctionnelles est une extension de l'analyse de données traditionnelles à des individus décrits par des fonctions. Le travail présenté ici s'inscrit pleinement dans ce courant, et tente de faire la jonction entre le domaine de la statistique fonctionnelle, et celui des techniques "neuronales" classiques. L'extension du perceptron multi-couches (PMC) à des espaces fonctionnels, proposé dans ce travail, apporte une réponse naturelle au traitement d'individus de type fonctions. Deux approches distinctes sont ici présentées : une approche par traitement direct des fonctions d'entrée et une approche par projection sur une base topologique de l'espace fonctionnel considéré (méthode classique en Analyse de Données Fonctionnelles). Pour chacune de ces deux méthodes, on montre dans un premier temps que le modèle est un approximateur universel, i.e. que toute fonction continue définie sur un compact d'un espace fonctionnel peut être approchée arbitrairement bien par un PMC fonctionnel. Dans un deuxième temps, on s'intéresse aux propriétés de consistance de l'estimateur fonctionnel. L'originalité de ce résultat vient du fait que non seulement l'estimation s'effectue sur un nombre fini d'individus (les fonctions observées), mais que de plus chacune de ces fonctions n'est connue qu'en un nombre fini de points d'observation (discrétisation). Un point important à noter est que ce résultat s'appuie sur une modélisation aléatoire du design des fonctions d'entrée. Enfin, on montre que le modèle peut encore être adapté afin d'obtenir une réponse fonctionnelle, ce qui autorise le traitement de processus fonctionnels à temps discret. L'approximation universelle et la consistance de l'estimateur (dans le cas i.i.d) sont encore vérifiées.
10

Vandewalle, Vincent. "Estimation et sélection en classification semi-supervisée." Phd thesis, Université des Sciences et Technologie de Lille - Lille I, 2009. http://tel.archives-ouvertes.fr/tel-00447141.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le sujet de cette thèse est la classification semi-supervisée qui est considérée d'un point de vue décisionnel. Nous nous intéressons à la question de choix de modèles dans ce contexte où les modèles sont estimés en utilisant conjointement des données étiquetées et des données non étiquetées plus nombreuses. Nous concentrons notre recherche sur les modèles génératifs où la classification semi-supervisée s'envisage sans difficulté, contrairement au cadre prédictif qui nécessite des hypothèses supplémentaires peu naturelles. Après avoir dressé un état de l'art de la classification semi-supervisée, nous décrivons l'estimation des paramètres d'un modèle de classification à l'aide de données étiquetées et non étiquetées par l'algorithme EM. Nos contributions sur la sélection de modèles font l'objet des deux chapitres suivants. Au chapitre 3, nous présentons un test statistique où les données non étiquetées sont utilisées pour mettre à l'épreuve le modèle utilisé. Au chapitre 4 nous présentons un critère de sélection de modèles AIC_cond, dérivé du critère AIC d'un point de vue prédictif. Nous prouvons la convergence asymptotique de ce critère particulièrement bien adapté au contexte semi-supervisé et ses bonnes performances pratiques comparé à la validation croisée et à d'autres critères de vraisemblance pénalisée. Une deuxième partie de la thèse, sans rapport direct avec le contexte semi-supervisé, présente des modèles multinomiaux pour la classification sur variables qualitatives. Nous avons conçu ces modèles pour répondre à des limitations des modèles multinomiaux parcimonieux proposés dans le logiciel MIXMOD. À cette occasion, nous proposons un critère type BIC qui prend en compte de manière spécifique la complexité de ces modèles multinomiaux contraints.
11

Cutrona, Jérôme. "Analyse de forme des objets biologiques : représentation, classification et suivi temporel." Reims, 2003. http://www.theses.fr/2003REIMS018.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
En biologie, les relations entre la forme, élément majeur de la vision par ordinateur, et la fonction ont depuis longtemps été mises en évidence. Cette thèse présente une chaîne de traitement permettant d'aboutir à la classification non supervisée de formes, au suivi de déformation et à la classification supervisée de populations d'objets. Nous proposons dans un premier temps une contribution en segmentation automatique basée sur une procédure de classification floue, ainsi que deux méthodes semi-automatiques s'appuyant sur la connectivité floue et les lignes de partage des eaux. Nous menons ensuite une étude sur plusieurs descripteurs de la forme des objets utilisant des primitives et des anti-primitives, le contour , la silhouette et la courbure multi-échelle. Après mise en correspondance, les descripteurs sont soumis à une analyse statistique pour mettre en évidence les modes de variations au sein des échantillons. Le modèle statistique obtenu est à la base des applications proposées
N biology, the relationship between shape, a major element in computer vision, and function has been emphasized since a long time. This thesis proposes a processing line leading to unsupervised shape classification, deformation tracking and supervised classification of whole population of objects. We first propose a contribution to unsupervised segmentation based on a fuzzy classification method and two semi-automatic methods founded on fuzzy connectedness and watersheds. Next, we perform a study on several shape descriptors including primitives and anti-primitives, contour, silhouete and multi-scale curvature. After shape matching, the descriptors are submitted to statistical analysis to highlight the modes of variations within the samples. The obtained statistical model is the basis of the proposed applications
12

Lecomte, Sébastien. "Classification partiellement supervisée par SVM : application à la détection d’événements en surveillance audio." Thesis, Troyes, 2013. http://www.theses.fr/2013TROY0031/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse s’intéresse aux méthodes de classification par Machines à Vecteurs de Support (SVM) partiellement supervisées permettant la détection de nouveauté (One-Class SVM). Celles-ci ont été étudiées dans le but de réaliser la détection d’événements audio anormaux pour la surveillance d’infrastructures publiques, en particulier dans les transports. Dans ce contexte, l’hypothèse « ambiance normale » est relativement bien connue (même si les signaux correspondants peuvent être très non stationnaires). En revanche, tout signal « anormal » doit pouvoir être détecté et, si possible, regroupé avec les signaux de même nature. Ainsi, un système de référence s’appuyant sur une modélisation unique de l’ambiance normale est présenté, puis nous proposons d’utiliser plusieurs SVM de type One Class mis en concurrence. La masse de données à traiter a impliqué l’étude de solveurs adaptés à ces problèmes. Les algorithmes devant fonctionner en temps réel, nous avons également investi le terrain de l’algorithmie pour proposer des solveurs capables de démarrer à chaud. Par l’étude de ces solveurs, nous proposons une formulation unifiée des problèmes à une et deux classes, avec et sans biais. Les approches proposées ont été validées sur un ensemble de signaux réels. Par ailleurs, un démonstrateur intégrant la détection d’événements anormaux pour la surveillance de station de métro en temps réel a également été présenté dans le cadre du projet Européen VANAHEIM
This thesis addresses partially supervised Support Vector Machines for novelty detection (One-Class SVM). These have been studied to design abnormal audio events detection for supervision of public infrastructures, in particular public transportation systems. In this context, the null hypothesis (“normal” audio signals) is relatively well known (even though corresponding signals can be notably non stationary). Conversely, every “abnormal” signal should be detected and, if possible, clustered with similar signals. Thus, a reference system based on a single model of normal signals is presented, then we propose to use several concurrent One-Class SVM to cluster new data. Regarding the amount of data to process, special solvers have been studied. The proposed algorithms must be real time. This is the reason why we have also investigated algorithms with warm start capabilities. By the study of these algorithms, we have proposed a unified framework for One Class and Binary SVMs, with and without bias. The proposed approach has been validated on a database of real signals. The whole process applied to the monitoring of a subway station has been presented during the final review of the European Project VANAHEIM
13

Rafi, Selwa. "Chaînes de Markov cachées et séparation non supervisée de sources." Thesis, Evry, Institut national des télécommunications, 2012. http://www.theses.fr/2012TELE0020/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le problème de la restauration est rencontré dans domaines très variés notamment en traitement de signal et de l'image. Il correspond à la récupération des données originales à partir de données observées. Dans le cas de données multidimensionnelles, la résolution de ce problème peut se faire par différentes approches selon la nature des données, l'opérateur de transformation et la présence ou non de bruit. Dans ce travail, nous avons traité ce problème, d'une part, dans le cas des données discrètes en présence de bruit. Dans ce cas, le problème de restauration est analogue à celui de la segmentation. Nous avons alors exploité les modélisations dites chaînes de Markov couples et triplets qui généralisent les chaînes de Markov cachées. L'intérêt de ces modèles réside en la possibilité de généraliser la méthode de calcul de la probabilité à posteriori, ce qui permet une segmentation bayésienne. Nous avons considéré ces méthodes pour des observations bi-dimensionnelles et nous avons appliqué les algorithmes pour une séparation sur des documents issus de manuscrits scannés dans lesquels les textes des deux faces d'une feuille se mélangeaient. D'autre part, nous avons attaqué le problème de la restauration dans un contexte de séparation aveugle de sources. Une méthode classique en séparation aveugle de sources, connue sous l'appellation "Analyse en Composantes Indépendantes" (ACI), nécessite l'hypothèse d'indépendance statistique des sources. Dans des situations réelles, cette hypothèse n'est pas toujours vérifiée. Par conséquent, nous avons étudié une extension du modèle ACI dans le cas où les sources peuvent être statistiquement dépendantes. Pour ce faire, nous avons introduit un processus latent qui gouverne la dépendance et/ou l'indépendance des sources. Le modèle que nous proposons combine un modèle de mélange linéaire instantané tel que celui donné par ACI et un modèle probabiliste sur les sources avec variables cachées. Dans ce cadre, nous montrons comment la technique d'Estimation Conditionnelle Itérative permet d'affaiblir l'hypothèse usuelle d'indépendance en une hypothèse d'indépendance conditionnelle
The restoration problem is usually encountered in various domains and in particular in signal and image processing. It consists in retrieving original data from a set of observed ones. For multidimensional data, the problem can be solved using different approaches depending on the data structure, the transformation system and the noise. In this work, we have first tackled the problem in the case of discrete data and noisy model. In this context, the problem is similar to a segmentation problem. We have exploited Pairwise and Triplet Markov chain models, which generalize Hidden Markov chain models. The interest of these models consist in the possibility to generalize the computation procedure of the posterior probability, allowing one to perform bayesian segmentation. We have considered these methods for two-dimensional signals and we have applied the algorithms to retrieve of old hand-written document which have been scanned and are subject to show through effect. In the second part of this work, we have considered the restoration problem as a blind source separation problem. The well-known "Independent Component Analysis" (ICA) method requires the assumption that the sources be statistically independent. In practice, this condition is not always verified. Consequently, we have studied an extension of the ICA model in the case where the sources are not necessarily independent. We have introduced a latent process which controls the dependence and/or independence of the sources. The model that we propose combines a linear instantaneous mixing model similar to the one of ICA model and a probabilistic model on the sources with hidden variables. In this context, we show how the usual independence assumption can be weakened using the technique of Iterative Conditional Estimation to a conditional independence assumption
14

Ruiz, Dominguez Cinta. "Analyse automatique des troubles de contraction cardiaque en échocardiographie." Paris 11, 2005. http://www.theses.fr/2005PA112074.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'etude automatisee de la contraction segmentaire du ventricule gauche (normokinesie, hypokinesie, akinesie et dyskinesie) connait de nombreux developpements, notamment en echocardiographie. Une nouvelle methode d'imagerie parametrique, basee sur l'etude des variations temporelles d'intensite des pixels, appelee analyse parametrique du mouvement dominant (apmd), est proposee. Cette methode synthetise l'information contenue dans une " boucle " d'images en deux images parametriques interpretables par un medecin : une image trichrome d'amplitude et une image des temps moyens de contraction. Une base de donnees comportant 602 segments a ete cotee par l'interpretation des images estimees par l'apmd, et confrontee a l'analyse visuelle des boucles cine, issue d'un consensus de deux lecteurs experts, constituant le score de reference. Les taux de concordance absolue et de concordance relative sont de 64% et de 93%. Des indices segmentaires ont ete estimes a partir des images issues de l'apmd. Une classification automatique des segments en 2 classes (segments normaux et segments pathologiques) a partir de ces indices a ete realisee. Les performances diagnostiques des differents indices ont ete evaluees en utilisant une methodologie des courbes roc. Puis, une classification des segments en 4 classes a ete effectuee pour l'indice le plus performant. Les taux de concordance absolue et relative, obtenus par la classification en 4 classes sur une base de test, sont de 56% et de 90%. La prise en compte de la localisation et de l'echogenicite des segments pour l'estimation de l'indice doit permettre d'ameliorer ces resultats
Many methods are developed to study the automatic evaluation of the left ventricle regional wall motion (normokinesia, hypokinesia, akinesia and dyskinesia), especially in echocardiography. A new parametric imaging method, based on the temporal intensity of pixels and called ‘parametric analysis of the main motion' (pamm) was proposed. This method synthesises the information contained in a sequence of images into two parametric images interpretable by a clinician: a three-color image of amplitude and a mean time contraction image. 602 segments of a database were scored with the interpretation of the pamm images and compared to a consensual visual interpretation of the cine-loop sequences by two experimented readers. Absolute and relative concordances are 64% and 82%. Some segmental indices were estimated from the pamm images. An automatic classification of the segments into two classes (normal and pathological segments) using this indices was performed. The diagnostic performance of the different indices was evaluated using the roc curve theory. Then a four-classes classification was done using the optimal index. Absolute and relative concordances obtained by the four-classes classification on a test database are 56% and 90%. The results could be improved if the localisation and the echogenicity of the segments are taken into account for the indices estimation
15

Ferrandiz, Sylvain. "Evaluation d'une mesure de similitude en classification supervisée : application à la préparation de données séquentielles." Phd thesis, Université de Caen, 2006. http://tel.archives-ouvertes.fr/tel-00123406.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
En phase de préparation d'un processus de fouille de données, une part importante
du travail est consacrée à la construction et à la sélection des variables descriptives.
L'approche filtre univariée usuellement adoptée nécessite l'emploi d'une méthode
d'évaluation d'une variable. Nous considérons la question de l'évaluation supervisée d'une
variable séquentielle. Pour résoudre ce problème, nous montrons qu'il suffit de résoudre
un problème plus général : celui de l'évaluation supervisée d'une mesure de similitude.

Nous proposons une telle méthode d'évaluation. Pour l'obtenir, nous formulons le
problème en un problème de recherche d'une partition de Voronoi informative. Nous
proposons un nouveau critère d'évaluation supervisée de ces partitions et une nouvelle
heuristique de recherche optimisée. Le critère prévient automatiquement le risque de surapprentissage
et l'heuristique trouve rapidement une bonne solution. Au final, la méthode
réalise une estimation non paramétrique robuste de la densité d'une variable cible catégorielle
conditionnellement à une mesure de similitude définie à partir d'une variable descriptive.

La méthode a été testée sur de nombreux jeux de données. Son utilisation permet
de répondre à des questions comme : quel jour de la semaine ou quelle tranche horaire
sur la semaine discrimine le mieux le segment auquel appartient un foyer à partir de sa
consommation téléphonique fixe ? Quelle série de mesures permet de quantifier au mieux l'appétence à un nouveau service ?
16

Gay, Dominique. "Calcul de motifs sous contraintes pour la classification supervisée." Phd thesis, Nouvelle Calédonie, 2009. http://portail-documentaire.univ-nc.nc/files/public/bu/theses_unc/TheseDominiqueGay2009.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Ces dernières années, l'extraction de motifs locaux (itemsets fréquents et règles d'association) a suscité beaucoup d'entrain pour la classification supervisée. Cette thèse traite du calcul et de l'usage de motifs sous contraintes pour la classification supervisée. Nous nous attaquons à deux problèmes difficiles en classification supervisée à base de motifs et proposons deux contributions méthodologiques : D'un côté, lorsque les attributs sont bruités, les performances des classifieurs peuvent être désastreuses. Les méthodes existantes consistent à corriger les valeurs d'attributs ou supprimer les objets bruités -- ce qui génère une perte d'information. Dans ce mémoire, nous proposons une méthode générique de construction de descripteurs robustes au bruit d'attributs -- sans modifier les valeurs d'attributs ni supprimer les objets bruités. Notre approche se déroule en deux étapes : premièrement nous extrayons l'ensemble des règles delta-fortes de caractérisation. Ces règles offrent des propriétés de corps minimal, de non-redondance et sont basées sur les itemsets delta-libres et leur delta-fermeture -- qui ont déjà fait leur preuve pour la caractérisation de groupements dans des contextes bruités. Deuxièmement, nous construisons un nouveau descripteur numérique robuste pour chaque règle extraite. Les expérimentations menées dans des données bruitées, montrent que des classifieurs classiques sont plus performants en terme de précision sur les données munies des nouveaux descripteurs que sur les données avec les attributs originaux. D'autre part, lorsque la distribution des classes est inégale, les approches existantes de classification à base de motifs ont tendance à être biaisées vers la classe majoritaire. La précision sur la (ou les) classe(s) majoritaire(s) est alors élevée au détriment de la précision sur la (ou les) classe(s) minoritaire(s). Nous montrons que ce problème est dû au fait que les approches existantes ne tiennent pas compte de la répartition des classes et/ou de la fréquence relative des motifs dans chacune des classes de la base. Pour pallier ce problème, nous proposons un nouveau cadre de travail dans lequel nous extrayons un nouveau type de motifs : les règles de caractérisation One-Versus-Each (OVE-règles). Ce nouveau cadre de travail nécessite le paramétrage d'un nombre conséquent de seuils de fréquence et d'infréquence. Pour ce faire, nous proposons un algorithme d'optimisation de paramètres, fitcare ainsi qu'un algorithme d'extraction d'OVE-règles. Les expérimentations menées sur des données UCI multi-classes disproportionnées et sur des données de diagnostic de méningite aigüe, montrent que notre approche fitcare est plus performante que les approches existantes en terme de précision sur les classes mineures. L'application de notre méthode de classification associative à l'analyse de données d'érosion des sols en Nouvelle-Calédonie a mis en évidence l'intérêt de notre proposition pour caractériser les phénomènes d'érosion.
17

Gay, Dominique. "Calcul de motifs sous contraintes pour la classification supervisée." Phd thesis, Université de Nouvelle Calédonie, 2009. http://tel.archives-ouvertes.fr/tel-00516706.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Ces dernières années, l'extraction de motifs locaux (itemsets fréquents et règles d'association) a suscité beaucoup d'entrain pour la classification supervisée. Cette thèse traite du calcul et de l'usage de motifs sous contraintes pour la classification supervisée. Nous nous attaquons à deux problèmes difficiles en classification supervisée à base de motifs et proposons deux contributions méthodologiques : D'un côté, lorsque les attributs sont bruités, les performances des classifieurs peuvent être désastreuses. Les méthodes existantes consistent à corriger les valeurs d'attributs ou supprimer les objets bruités -- ce qui génère une perte d'information. Dans ce mémoire, nous proposons une méthode générique de construction de descripteurs robustes au bruit d'attributs -- sans modifier les valeurs d'attributs ni supprimer les objets bruités. Notre approche se déroule en deux étapes : premièrement nous extrayons l'ensemble des règles delta-fortes de caractérisation. Ces règles offrent des propriétés de corps minimal, de non-redondance et sont basées sur les itemsets delta-libres et leur delta-fermeture -- qui ont déjà fait leur preuve pour la caractérisation de groupements dans des contextes bruités. Deuxièmement, nous construisons un nouveau descripteur numérique robuste pour chaque règle extraite. Les expérimentations menées dans des données bruitées, montrent que des classifieurs classiques sont plus performants en terme de précision sur les données munies des nouveaux descripteurs que sur les données avec les attributs originaux. D'autre part, lorsque la distribution des classes est inégale, les approches existantes de classification à base de motifs ont tendance à être biaisées vers la classe majoritaire. La précision sur la (ou les) classe(s) majoritaire(s) est alors élevée au détriment de la précision sur la (ou les) classe(s) minoritaire(s). Nous montrons que ce problème est dû au fait que les approches existantes ne tiennent pas compte de la répartition des classes et/ou de la fréquence relative des motifs dans chacune des classes de la base. Pour pallier ce problème, nous proposons un nouveau cadre de travail dans lequel nous extrayons un nouveau type de motifs : les règles de caractérisation One-Versus-Each (OVE-règles). Ce nouveau cadre de travail nécessite le paramétrage d'un nombre conséquent de seuils de fréquence et d'infréquence. Pour ce faire, nous proposons un algorithme d'optimisation de paramètres, fitcare ainsi qu'un algorithme d'extraction d'OVE-règles. Les expérimentations menées sur des données UCI multi-classes disproportionnées et sur des données de diagnostic de méningite aigüe, montrent que notre approche fitcare est plus performante que les approches existantes en terme de précision sur les classes mineures. L'application de notre méthode de classification associative à l'analyse de données d'érosion des sols en Nouvelle-Calédonie a mis en évidence l'intérêt de notre proposition pour caractériser les phénomènes d'érosion.
18

Chzhen, Evgenii. "Plug-in methods in classification." Thesis, Paris Est, 2019. http://www.theses.fr/2019PESC2027/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Ce manuscrit étudie plusieurs problèmes de classification sous contraintes. Dans ce cadre de classification, notre objectif est de construire un algorithme qui a des performances aussi bonnes que la meilleure règle de classification ayant une propriété souhaitée. Fait intéressant, les méthodes de classification de type plug-in sont bien appropriées à cet effet. De plus, il est montré que, dans plusieurs configurations, ces règles de classification peuvent exploiter des données non étiquetées, c'est-à-dire qu'elles sont construites de manière semi-supervisée. Le Chapitre 1 décrit deux cas particuliers de la classification binaire - la classification où la mesure de performance est reliée au F-score, et la classification équitable. A ces deux problèmes, des procédures semi-supervisées sont proposées. En particulier, dans le cas du F-score, il s'avère que cette méthode est optimale au sens minimax sur une classe usuelle de distributions non-paramétriques. Aussi, dans le cas de la classification équitable, la méthode proposée est consistante en terme de risque de classification, tout en satisfaisant asymptotiquement la contrainte d’égalité des chances. De plus, la procédure proposée dans ce cadre d'étude surpasse en pratique les algorithmes de pointe. Le Chapitre 3 décrit le cadre de la classification multi-classes par le biais d'ensembles de confiance. Là encore, une procédure semi-supervisée est proposée et son optimalité presque minimax est établie. Il est en outre établi qu'aucun algorithme supervisé ne peut atteindre une vitesse de convergence dite rapide. Le Chapitre 4 décrit un cas de classification multi-labels dans lequel on cherche à minimiser le taux de faux-négatifs sous réserve de contraintes de type presque sûres sur les règles de classification. Dans cette partie, deux contraintes spécifiques sont prises en compte: les classifieurs parcimonieux et ceux soumis à un contrôle des erreurs négatives à tort. Pour les premiers, un algorithme supervisé est fourni et il est montré que cet algorithme peut atteindre une vitesse de convergence rapide. Enfin, pour la seconde famille, il est montré que des hypothèses supplémentaires sont nécessaires pour obtenir des garanties théoriques sur le risque de classification
This manuscript studies several problems of constrained classification. In this frameworks of classification our goal is to construct an algorithm which performs as good as the best classifier that obeys some desired property. Plug-in type classifiers are well suited to achieve this goal. Interestingly, it is shown that in several setups these classifiers can leverage unlabeled data, that is, they are constructed in a semi-supervised manner.Chapter 2 describes two particular settings of binary classification -- classification with F-score and classification of equal opportunity. For both problems semi-supervised procedures are proposed and their theoretical properties are established. In the case of the F-score, the proposed procedure is shown to be optimal in minimax sense over a standard non-parametric class of distributions. In the case of the classification of equal opportunity the proposed algorithm is shown to be consistent in terms of the misclassification risk and its asymptotic fairness is established. Moreover, for this problem, the proposed procedure outperforms state-of-the-art algorithms in the field.Chapter 3 describes the setup of confidence set multi-class classification. Again, a semi-supervised procedure is proposed and its nearly minimax optimality is established. It is additionally shown that no supervised algorithm can achieve a so-called fast rate of convergence. In contrast, the proposed semi-supervised procedure can achieve fast rates provided that the size of the unlabeled data is sufficiently large.Chapter 4 describes a setup of multi-label classification where one aims at minimizing false negative error subject to almost sure type constraints. In this part two specific constraints are considered -- sparse predictions and predictions with the control over false negative errors. For the former, a supervised algorithm is provided and it is shown that this algorithm can achieve fast rates of convergence. For the later, it is shown that extra assumptions are necessary in order to obtain theoretical guarantees in this case
19

Kalakech, Mariam. "Sélection semi-supervisée d'attributs : application à la classification de textures couleur." Thesis, Lille 1, 2011. http://www.theses.fr/2011LIL10018/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Dans le cadre de cette thèse, nous nous intéressons à la sélection des attributs en s'appuyant sur la théorie des graphes dans les différents contextes d'apprentissage non supervisé, semi-supervisé et supervisé. En particulier, nous nous intéressons aux scores de classement d'attributs basés sur des contraintes must-link et cannot-link. En effet, ces contraintes sont faciles à obtenir dans le cadre des applications réelles. Elles nécessitent juste de formuler pour deux données si elles se ressemblent et donc doivent être regroupées ensemble ou non, sans requérir d'informations détaillées sur les classes à retrouver. Les scores de contraintes ont montré de bonnes performances pour la sélection semi-supervisée des attributs. Cependant, ils sont fortement dépendants du sous-ensemble de contraintes disponibles. Nous proposons alors un score qui utilise à la fois l'ensemble des contraintes disponibles et les propriétés locales des données non contraintes. Des expériences réalisées sur des bases de données artificielles et réelles montrent que ce nouveau score est moins dépendant de l'ensemble de contraintes disponibles que les scores existants tout en atteignant des performances de classification similaires. La sélection semi-supervisée d'attributs a également été appliquée avec succès à la classification de textures couleur. En effet, parmi les nombreux attributs de texture pouvant être extraits des images couleur, il est nécessaire de sélectionner les plus pertinents afin d'améliorer la qualité de classification
Within the framework of this thesis, we are interested in feature selection methods based on graph theory in different unsupervised, semi-supervised and supervised learning contexts. We are particularly interested in the feature ranking scores based on must-link et cannot-link constraints. Indeed, these constraints are easy to be obtained on real applications. They just require to formalize for two data samples if they are similar and then must be grouped together or not, without detailed information on the classes to be found. Constraint scores have shown good performances for semi-supervised feature selection. However, these scores strongly depend on the given must-link and cannot-link subsets built by the user. We propose then a new semi-supervised constraint scores that uses both pairwise constraints and local properties of the unconstrained data. Experiments on artificial and real databases show that this new score is less sensitive to the given constraints than the previous scores while providing similar performances. Semi supervised feature selection was also successfully applied to the color texture classification. Indeed, among many texture features which can be extracted from the color images, it is necessary to select the most relevant ones to improve the quality of classification
20

RAFI, Selwa. "Chaînes de Markov cachées et séparation non supervisée de sources." Phd thesis, Institut National des Télécommunications, 2012. http://tel.archives-ouvertes.fr/tel-00995414.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le problème de la restauration est rencontré dans domaines très variés notamment en traitement de signal et de l'image. Il correspond à la récupération des données originales à partir de données observées. Dans le cas de données multidimensionnelles, la résolution de ce problème peut se faire par différentes approches selon la nature des données, l'opérateur de transformation et la présence ou non de bruit. Dans ce travail, nous avons traité ce problème, d'une part, dans le cas des données discrètes en présence de bruit. Dans ce cas, le problème de restauration est analogue à celui de la segmentation. Nous avons alors exploité les modélisations dites chaînes de Markov couples et triplets qui généralisent les chaînes de Markov cachées. L'intérêt de ces modèles réside en la possibilité de généraliser la méthode de calcul de la probabilité à posteriori, ce qui permet une segmentation bayésienne. Nous avons considéré ces méthodes pour des observations bi-dimensionnelles et nous avons appliqué les algorithmes pour une séparation sur des documents issus de manuscrits scannés dans lesquels les textes des deux faces d'une feuille se mélangeaient. D'autre part, nous avons attaqué le problème de la restauration dans un contexte de séparation aveugle de sources. Une méthode classique en séparation aveugle de sources, connue sous l'appellation "Analyse en Composantes Indépendantes" (ACI), nécessite l'hypothèse d'indépendance statistique des sources. Dans des situations réelles, cette hypothèse n'est pas toujours vérifiée. Par conséquent, nous avons étudié une extension du modèle ACI dans le cas où les sources peuvent être statistiquement dépendantes. Pour ce faire, nous avons introduit un processus latent qui gouverne la dépendance et/ou l'indépendance des sources. Le modèle que nous proposons combine un modèle de mélange linéaire instantané tel que celui donné par ACI et un modèle probabiliste sur les sources avec variables cachées. Dans ce cadre, nous montrons comment la technique d'Estimation Conditionnelle Itérative permet d'affaiblir l'hypothèse usuelle d'indépendance en une hypothèse d'indépendance conditionnelle
21

Boubou, Mounzer. "Contribution aux méthodes de classification non supervisée via des approches prétopologiques et d'agrégation d'opinions." Phd thesis, Université Claude Bernard - Lyon I, 2007. http://tel.archives-ouvertes.fr/tel-00195779.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le travail de thèse a porté sur une réflexion relative aux méthodes de classification automatique des données pour lesquelles il est bien connu qu'un effet « méthode » existe. Après une première partie qui présente la problématique générale de l'analyse des données et propose un survey des méthodes de classification, les travaux originaux de la thèse sont exposés. Ils relèvent de trois approches interconnectées : une approche basée sur l'agrégation d'opinions, une approche prétopologique et une approche basée sur l'agrégation des préférences. Chacune de ces approches se fonde sur un paradigme différent et propose une nouvelle vision des techniques de classification permettant d'apporter éventuellement de l'information exogène dans la méthode.
22

Gomes, Da Silva Alzennyr. "Analyse des données évolutives : application aux données d'usage du Web." Phd thesis, Université Paris Dauphine - Paris IX, 2009. http://tel.archives-ouvertes.fr/tel-00445501.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le nombre d'accès aux pages Web ne cesse de croître. Le Web est devenu l'une des plates-formes les plus répandues pour la diffusion et la recherche d'information. Par conséquence, beaucoup d'opérateurs de sites Web sont incités à analyser l'usage de leurs sites afin d'améliorer leur réponse vis-à-vis des attentes des internautes. Or, la manière dont un site Web est visité peut changer en fonction de divers facteurs. Les modèles d'usage doivent ainsi être mis à jour continuellement afin de refléter fidèlement le comportement des visiteurs. Ceci reste difficile quand la dimension temporelle est négligée ou simplement introduite comme un attribut numérique additionnel dans la description des données. C'est précisément sur cet aspect que se focalise la présente thèse. Pour pallier le problème d'acquisition des données réelles d'usage, nous proposons une méthodologie pour la génération automatique des données artificielles permettant la simulation des changements. Guidés par les pistes nées des analyses exploratoires, nous proposons une nouvelle approche basée sur des fenêtres non recouvrantes pour la détection et le suivi des changements sur des données évolutives. Cette approche caractérise le type de changement subi par les groupes de comportement (apparition, disparition, fusion, scission) et applique deux indices de validation basés sur l'extension de la classification pour mesurer le niveau des changements repérés à chaque pas de temps. Notre approche est totalement indépendante de la méthode de classification et peut être appliquée sur différents types de données autres que les données d'usage. Des expérimentations sur des données artificielles ainsi que sur des données réelles issues de différents domaines (académique, tourisme et marketing) ont été réalisées pour l'évaluer l'efficacité de l'approche proposée.
23

Kassab, Randa. "Analyse des propriétés stationnaires et des propriétés émergentes dans les flux d'information changeant au cours du temps." Thesis, Nancy 1, 2009. http://www.theses.fr/2009NAN10027/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
De nombreuses applications génèrent et reçoivent des données sous la forme de flux continu, illimité, et très rapide. Cela pose naturellement des problèmes de stockage, de traitement et d'analyse de données qui commencent juste à être abordés dans le domaine des flux de données. Il s'agit, d'une part, de pouvoir traiter de tels flux à la volée sans devoir mémoriser la totalité des données et, d'autre part, de pouvoir traiter de manière simultanée et concurrente l'analyse des régularités inhérentes au flux de données et celle des nouveautés, exceptions, ou changements survenant dans ce même flux au cours du temps. L'apport de ce travail de thèse réside principalement dans le développement d'un modèle d'apprentissage - nommé ILoNDF - fondé sur le principe de la détection de nouveauté. L'apprentissage de ce modèle est, contrairement à sa version de départ, guidé non seulement par la nouveauté qu'apporte une donnée d'entrée mais également par la donnée elle-même. De ce fait, le modèle ILoNDF peut acquérir constamment de nouvelles connaissances relatives aux fréquences d'occurrence des données et de leurs variables, ce qui le rend moins sensible au bruit. De plus, doté d'un fonctionnement en ligne sans répétition d'apprentissage, ce modèle répond aux exigences les plus fortes liées au traitement des flux de données. Dans un premier temps, notre travail se focalise sur l'étude du comportement du modèle ILoNDF dans le cadre général de la classification à partir d'une seule classe en partant de l'exploitation des données fortement multidimensionnelles et bruitées. Ce type d'étude nous a permis de mettre en évidence les capacités d'apprentissage pures du modèle ILoNDF vis-à-vis de l'ensemble des méthodes proposées jusqu'à présent. Dans un deuxième temps, nous nous intéressons plus particulièrement à l'adaptation fine du modèle au cadre précis du filtrage d'informations. Notre objectif est de mettre en place une stratégie de filtrage orientée-utilisateur plutôt qu'orientée-système, et ceci notamment en suivant deux types de directions. La première direction concerne la modélisation utilisateur à l'aide du modèle ILoNDF. Cette modélisation fournit une nouvelle manière de regarder le profil utilisateur en termes de critères de spécificité, d'exhaustivité et de contradiction. Ceci permet, entre autres, d'optimiser le seuil de filtrage en tenant compte de l'importance que pourrait donner l'utilisateur à la précision et au rappel. La seconde direction, complémentaire de la première, concerne le raffinement des fonctionnalités du modèle ILoNDF en le dotant d'une capacité à s'adapter à la dérive du besoin de l'utilisateur au cours du temps. Enfin, nous nous attachons à la généralisation de notre travail antérieur au cas où les données arrivant en flux peuvent être réparties en classes multiples
Many applications produce and receive continuous, unlimited, and high-speed data streams. This raises obvious problems of storage, treatment and analysis of data, which are only just beginning to be treated in the domain of data streams. On the one hand, it is a question of treating data streams on the fly without having to memorize all the data. On the other hand, it is also a question of analyzing, in a simultaneous and concurrent manner, the regularities inherent in the data stream as well as the novelties, exceptions, or changes occurring in this stream over time. The main contribution of this thesis concerns the development of a new machine learning approach - called ILoNDF - which is based on novelty detection principle. The learning of this model is, contrary to that of its former self, driven not only by the novelty part in the input data but also by the data itself. Thereby, ILoNDF can continuously extract new knowledge relating to the relative frequencies of the data and their variables. This makes it more robust against noise. Being operated in an on-line mode without repeated training, ILoNDF can further address the primary challenges for managing data streams. Firstly, we focus on the study of ILoNDF's behavior for one-class classification when dealing with high-dimensional noisy data. This study enabled us to highlight the pure learning capacities of ILoNDF with respect to the key classification methods suggested until now. Next, we are particularly involved in the adaptation of ILoNDF to the specific context of information filtering. Our goal is to set up user-oriented filtering strategies rather than system-oriented in following two types of directions. The first direction concerns user modeling relying on the model ILoNDF. This provides a new way of looking at user's need in terms of specificity, exhaustivity and contradictory profile-contributing criteria. These criteria go on to estimate the relative importance the user might attach to precision and recall. The filtering threshold can then be adjusted taking into account this knowledge about user's need. The second direction, complementary to the first one, concerns the refinement of ILoNDF's functionality in order to confer it the capacity of tracking drifting user's need over time. Finally, we consider the generalization of our previous work to the case where streaming data can be divided into multiple classes
24

Ribeyre, Corentin. "Méthodes d’analyse supervisée pour l’interface syntaxe-sémantique : de la réécriture de graphes à l’analyse par transitions." Sorbonne Paris Cité, 2016. http://www.theses.fr/2016USPCC119.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Aujourd'hui, le volume de données textuelles disponibles est colossal. Ces données représentent des informations inestimables impossibles à traiter manuellement. De fait, il est essentiel d'utiliser des techniques de Traitement Automatique des Langues pour extraire les informations saillantes et comprendre le sens sous-jacent. Cette thèse s'inscrit dans cette perspective et proposent des ressources, des modèles et des méthodes pour permettre : (i) l'annotation automatique de corpus à l'interface entre la syntaxe et la sémantique afin d'en extraire la structure argumentale (ii) l'exploitation des ressources par des méthodes efficaces. Nous proposons d’abord un système de réécriture de graphes et un ensemble de règles de réécriture manuellement écrites permettant l'annotation automatique de la syntaxe profonde du français. Grâce à cette approche, deux corpus ont vu le jour : le DeepSequoia, version profonde du corpus Séquoia et le DeepFTB, version profonde du French Treebank en dépendances. Ensuite, nous proposons deux extensions d'analyseurs par transitions et les adaptons à l'analyse de graphes. Nous développons aussi un ensemble de traits riches issus d'analyses syntaxiques. L'idée est d'apporter des informations topologiquement variées donnant à nos analyseurs les indices nécessaires pour une prédiction performante de la structure argumentale. Couplé à un analyseur par factorisation d'arcs, cet ensemble de traits permet d'établir l'état de l'art sur le français et de dépasser celui établi pour les corpus DM et PAS sur l'anglais. Enfin, nous explorons succinctement une méthode d'induction pour le passage d'un arbre vers un graphe
Nowadays, the amount of textual data has become so gigantic, that it is not possible to deal with it manually. In fact, it is now necessary to use Natural Language Processing techniques to extract useful information from these data and understand their underlying meaning. In this thesis, we offer resources, models and methods to allow: (i) the automatic annotation of deep syntactic corpora to extract argument structure that links (verbal) predicates to their arguments (ii) the use of these resources with the help of efficient methods. First, we develop a graph rewriting system and a set of manually-designed rewriting rules to automatically annotate deep syntax in French. Thanks to this approach, two corpora were created: the DeepSequoia, a deep syntactic version of the Séquoia corpus and the DeepFTB, a deep syntactic version of the dependency version of the French Treebank. Next, we extend two transition-based parsers and adapt them to be able to deal with graph structures. We also develop a set of rich linguistic features extracted from various syntactic trees. We think they are useful to bring different kind of topological information to accurately predict predicat-argument structures. Used in an arc-factored second-order parsing model, this set of features gives the first state-of-the-art results on French and outperforms the one established on the DM and PAS corpora for English. Finally, we briefly explore a method to automatically induce the transformation between a tree and a graph. This completes our set of coherent resources and models to automatically analyze the syntax-semantics interface on French and English
25

Lebrun, Gilles. "Sélection de modèles pour la classification supervisée avec des SVM (Séparateurs à Vaste Marge) : application en traitement et analyse d'images." Caen, 2006. http://www.theses.fr/2006CAEN2049.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse porte sur l’importance de la sélection de modèles pour la constitution de systèmes d’apprentissage supervisé à base de SVM performants. Nous abordons trois problématiques liées à la définition de tels systèmes. La première problématique concerne l’évaluation des capacités de généralisation d’un modèle à partir de techniques de validation croisée. Nous montrons qu’il est possible de prendre en compte les corrélations existantes entre les nombreuses phases d’entraînements des SVM induites par ces techniques afin de réduire significativement leurs coûts calculatoires. La deuxième problématique concerne la réduction de la complexité des processus décisionnels. Deux approches sont proposées : 1) le développement d’une méthodologie pour réaliser la sélection d’un sous-ensemble d’exemples pertinents à partir d’une base d’apprentissage afin de produire des fonctions de décision de complexités réduites tout en augmentant leurs capacités de généralisation ; 2) la définition d’une méthode méta-heuristique basée sur une recherche avec tabous pour réaliser l’optimisation d’un compromis entre capacité de généralisation et complexité d’un processus décisionnel. La troisième problématique concerne l’élaboration de schémas multi-classes performants par combinaison de classificateurs binaires et leur optimisation multi-modèle à partir d’algorithmes évolutionnaires. Nous montrons que ces considérations sont d’autant plus importantes que le problème comporte un grand nombre de classes. Deux applications illustrent que les méthodes proposées dans cette thèse permettent de produire des processus décisionnels performants dans le cadre du traitement et de l’analyse d’images
This thesis mainly deals with the importance of model selection to design efficient supervised machine learning schemes based on SVM classifiers. Three issues relating to the definition of such machine learning schemes have been investigated. The first issue concerns the evaluation of the generalization abilities of a classifier by cross validation techniques. We show that it is possible to take into account the inherent correlations between SVM training phases in order to significantly reduce the computation costs. The second issue concerns complexity reduction of SVM classifiers. Two approaches are proposed: 1) The design of a methodology to select a subset of relevant examples for producing low complexity SVM decision functions while increasing their generalization abilities; 2) The definition of a given metaheuristic based on Tabu search to optimise a trade-off between generalization abilities and complexities of SVM decision functions. The third issue concerns the development of efficient combination schemes of SVM classifiers using evolutionary algorithms for multi-model optimisation. We show that the higher the number of classes is, the greater the influence of the choices of decomposition, decoding and optimisation is. Proposed methods are used to define efficient SVM decision processes for two kinds of applications dedicated to image processing
26

Guillemot, Vincent. "Application de méthodes de classification supervisée et intégration de données hétérogènes pour des données transcriptomiques à haut-débit." Phd thesis, Université Paris Sud - Paris XI, 2010. http://tel.archives-ouvertes.fr/tel-00481822.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les méthodes d'apprentissage supervisé sont appliquées depuis récemment à des jeux de données de puces à ADN, afin d'une part d'extraire des gènes impliqués dans les différences entre les classes d'individus étudiés et d'autre part de construire une fonction de classification permettant de prédire la classe d'un nouvel individu. Ces données de puces à ADN peuvent être accompagnées d'une information précieuse décrivant les interactions entre les variables (les gènes). Cette information est regroupée sous la forme de réseaux de régulations génétiques (RRG). L'objectif de la thèse est de réaliser l'intégration de l'information contenue dans ces RRGs dans une méthode de classification supervisée binaire. Nous proposons une nouvelle méthode, graph Constrained Discriminant Analysis (gCDA), basée sur l'analyse discriminante de Fisher. Les méthodes de la littérature se proposent d'implémenter la contrainte suivante : les gènes qui sont voisins dans le RRG doivent avoir des poids proches, voire identiques, dans la fonction de classification. À contrepoint de ces méthodes, gCDA est basée sur l'estimation régularisée des matrices de variance covariance qui sont utilisées dans l'analyse discriminante de Fisher. Les estimateurs utilisés dans gCDA prennent en compte l'information contenue dans les RRGs disponibles a priori grâce aux propriétés des modèles graphiques gaussiens. gCDA est comparée aux méthodes de la littérature sur des données simulées, données pour lesquelles le graphe sous-jacent est parfaitement connu. Dans le cas de données réelles, le graphe sous-jacent décrivant les interactions entre variables n'est pas connu. Nous nous sommes donc également intéressés à des méthodes permettant d'inférer de tels graphes à partir de données transcriptomiques. Enfin, des résultats sont obtenus sur trois jeux de données réelles. Les RRG ont été inférés soit sur des jeux de données de même nature mais indépendants (c'est-à-dire concernant des individus qui ne sont pas utilisés pour en classification), soit sur une partie indépendante du jeu de données étudié. Nous montrons une amélioration notable des performances de classification sur ces jeux de données lorsque gCDA est utilisée par rapport à l'utilisation des méthodes de la littérature décrites dans la deuxième partie.
27

Zullo, Anthony. "Analyse de données fonctionnelles en télédétection hyperspectrale : application à l'étude des paysages agri-forestiers." Thesis, Toulouse 3, 2016. http://www.theses.fr/2016TOU30135/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
En imagerie hyperspectrale, chaque pixel est associé à un spectre provenant de la réflectance observée en d points de mesure (i.e., longueurs d'onde). On se retrouve souvent dans une situation où la taille d'échantillon n est relativement faible devant le nombre d de variables. Ce phénomène appelé "fléau de la dimension" est bien connu en statistique multivariée. Plus d augmente devant n, plus les performances des méthodologies statistiques standard se dégradent. Les spectres de réflectance intègrent dans leur dimension spectrale un continuum qui leur confère une nature fonctionnelle. Un hyperspectre peut être modélisé par une fonction univariée de la longueur d'onde, sa représentation produisant une courbe. L'utilisation de méthodes fonctionnelles sur de telles données permet de prendre en compte des aspects fonctionnels tels que la continuité, l'ordre des bandes spectrales, et de s'affranchir des fortes corrélations liées à la finesse de la grille de discrétisation. L'objectif principal de cette thèse est d'évaluer la pertinence de l'approche fonctionnelle dans le domaine de la télédétection hyperspectrale lors de l'analyse statistique. Nous nous sommes focalisés sur le modèle non-paramétrique de régression fonctionnelle, couvrant la classification supervisée. Dans un premier temps, l'approche fonctionnelle a été comparée avec des méthodes multivariées usuellement employées en télédétection. L'approche fonctionnelle surpasse les méthodes multivariées dans des situations délicates où l'on dispose d'une petite taille d'échantillon d'apprentissage combinée à des classes relativement homogènes (c'est-à-dire difficiles à discriminer). Dans un second temps, une alternative à l'approche fonctionnelle pour s'affranchir du fléau de la dimension a été développée à l'aide d'un modèle parcimonieux. Ce dernier permet, à travers la sélection d'un petit nombre de points de mesure, de réduire la dimensionnalité du problème tout en augmentant l'interprétabilité des résultats. Dans un troisième temps, nous nous sommes intéressés à la situation pratique quasi-systématique où l'on dispose de données fonctionnelles contaminées. Nous avons démontré que pour une taille d'échantillon fixée, plus la discrétisation est fine, meilleure sera la prédiction. Autrement dit, plus d est grand devant n, plus la méthode statistique fonctionnelle développée est performante
In hyperspectral imaging, each pixel is associated with a spectrum derived from observed reflectance in d measurement points (i.e., wavelengths). We are often facing a situation where the sample size n is relatively low compared to the number d of variables. This phenomenon called "curse of dimensionality" is well known in multivariate statistics. The mored increases with respect to n, the more standard statistical methodologies performances are degraded. Reflectance spectra incorporate in their spectral dimension a continuum that gives them a functional nature. A hyperspectrum can be modelised by an univariate function of wavelength and his representation produces a curve. The use of functional methods allows to take into account functional aspects such as continuity, spectral bands order, and to overcome strong correlations coming from the discretization grid fineness. The main aim of this thesis is to assess the relevance of the functional approach in the field of hyperspectral remote sensing for statistical analysis. We focused on the nonparametric fonctional regression model, including supervised classification. Firstly, the functional approach has been compared with multivariate methods usually involved in remote sensing. The functional approach outperforms multivariate methods in critical situations where one has a small training sample size combined with relatively homogeneous classes (that is to say, hard to discriminate). Secondly, an alternative to the functional approach to overcome the curse of dimensionality has been proposed using parsimonious models. This latter allows, through the selection of few measurement points, to reduce problem dimensionality while increasing results interpretability. Finally, we were interested in the almost systematic situation where one has contaminated functional data. We proved that for a fixed sample size, the finer the discretization, the better the prediction. In other words, the larger dis compared to n, the more effective the functional statistical methodis
28

Frévent, Camille. "Contribution to spatial statistics for high-dimensional and survival data." Electronic Thesis or Diss., Université de Lille (2022-....), 2022. http://www.theses.fr/2022ULILS032.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Dans ce mémoire de thèse nous nous intéressons aux méthodes d'apprentissage statistique pour données spatiales en grande dimension et données de survie. L'objectif est de développer des méthodes de détection de clusters non supervisées avec des statistiques de scan spatiales, à la fois dans le cadre de l'analyse de données fonctionnelles, mais aussi pour l'analyse de données de survie. Nous considérons tout d'abord des données fonctionnelles univariées ou multivariées mesurées spatialement dans une région géographique. Nous proposons des statistiques de scan paramétriques et non paramétriques dans ce contexte. Ces approches fonctionnelles univariées et multivariées évitent la perte d'information respectivement d'une méthode univariée ou multivariée appliquée sur des observations moyennes au cours de la période d'étude. Nous étudions également les performances de ces approches sur des études de simulation, avant de les appliquer sur des données réelles économiques et environnementales. Nous nous intéressons également à la détection de clusters spatiaux de temps de survie. Bien qu'il existe déjà dans la littérature des approches de statistiques de scan spatiale dans ce cadre, celles-ci ne permettent pas de prendre en compte une éventuelle corrélation entre les temps de survie des individus d'une même unité spatiale. De plus, la nature spatiale des données implique une potentielle dépendance entre les unités spatiales, qui doit être prise en compte. L'originalité de l'approche que nous proposons est le développement d'une nouvelle statistique de scan spatiale basée sur un modèle de Cox à fragilité spatiale, permettant à la fois la prise en compte de la corrélation entre les temps de survie des individus d'une même unité spatiale, et une éventuelle dépendance entre les unités spatiales. Nous avons comparé les performances de cette nouvelle approche avec les méthodes existantes et nous les avons appliquées sur des données réelles de temps de survie des personnes âgées atteintes d'insuffisance rénale chronique terminale dans le nord de la France. Enfin, nous proposons un certain nombre de perspectives à notre travail, à la fois avec des prolongements directs à cette thèse dans le cadre des statistiques de scan spatiales pour données en grande dimension et données de survie, mais également avec des perspectives dans un cadre plus large d'analyse spatiale non supervisée (clustering spatial pour données en grande dimension modélisées par des tenseurs), et d'apprentissage spatial supervisé (régression)
In this thesis, we are interested in statistical spatial learning for high-dimensional and survival data. The objective is to develop unsupervised cluster detection methods by means of spatial scan statistics in the contexts of functional data analysis in one hand and survival data analysis in the other hand. In the first two chapters, we consider univariate and multivariate functional data measured spatially in a geographical area. We propose both parametric and nonparametric spatial scan statistics in this framework. These univariate and multivariate functional approaches avoid the loss of information respectively of a univariate method or a multivariate method applied on the average of the observations during the study period. We study the new methods' performances in simulation studies before applying them on economic and environmental real data. We are also interested in spatial cluster detection of survival data. Although there exist already spatial scan statistics approaches in this framework in the literature, these do not take into account a potential correlation of survival times between individuals of the same spatial unit. Moreover, the spatial nature of the data implies a potential dependence between the spatial units, which should be taken into account. The originality of our proposed method is to introduce a spatial scan statistic based on a Cox model with a spatial frailty, allowing to take into account both the potential correlation between the survival times of the individuals of the same spatial unit and the potential dependence between the spatial units. We compare the performances of this new approach with the existing methods and apply them on real data corresponding to survival times of elderly people with end-stage kidney failure in northern France. Finally, we propose a number of perspectives to our work, both in a direct extension of this thesis in the framework of spatial scan statistics for high-dimensional and survival data, but also perspectives in a broader context of unsupervised spatial analysis (spatial clustering for high-dimensional data (tensors)), and supervised spatial learning (regression)
29

Mahdhaoui, Ammar. "Analyse de Signaux Sociaux pour la Modélisation de l'interaction face à face." Phd thesis, Université Pierre et Marie Curie - Paris VI, 2010. http://tel.archives-ouvertes.fr/tel-00587051.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse se situe à la frontière des domaines de la reconnaissance de signaux émotionnels et de l'analyse de l'interaction sociale. Dans un premier temps, nous avons étudié une émotion non prototypique, appelée motherese, qui joue un rôle important dans l'interaction parent-enfant. Afin d'étudier cette émotion, nous avons développé un système de détection automatique des émotions basé d'abord sur l'apprentissage supervisé. Ensuite pour pallier au manque de données étiquetées, nous avons développé une approche semi-supervisée permettant une meilleure qualité de classification avec un coût inférieur. Cette approche permet de combiner des exemples étiquetés et non étiquetés pour l'apprentissage. Le système proposé est une extension de l'algorithme de co-apprentissage. Cette approche est dite multi-vue car elle consiste à combiner différentes vues (descripteur+classifieur) afin d'obtenir une prédiction unique par exemple de test. Au-delà de la reconnaissance de signaux émotionnels, il s'agit de structurer et d'interpréter les différents signaux de communication dans un contexte d'interaction face à face. Nous avons proposé un modèle computationnel de l'interaction parent-enfant. Il consiste à modéliser les réponses des enfants par rapport aux stimulations des parents. Nous avons proposé ainsi des analyses quantitative et statistique afin d'étudier l'interdépendance des signaux d'interaction et les comportements humains, en particulier le rôle de motherese pour l'engagement de l'interaction parent-enfant. Enfin, dans le but d'identifier les groupes de comportements les plus pertinents, nous avons développé une technique de regroupement automatique de signaux qui permet d'extraire les différents patterns interactifs. Cette extraction de comportements interactifs permet de discriminer différents groupes: enfants avec développement typique, autistique et avec retard mental.
30

Bouzouita-Bayoudh, Inès. "Etude et extraction des règles associatives de classification en classification supervisée." Thesis, Montpellier 2, 2012. http://www.theses.fr/2012MON20217.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Dans le cadre de cette thèse, notre intérêt se porte sur la précision de la classification et l'optimalité du parcours de l'espace de recherche. L'objectif recherché est d'améliorer la précision de classification en étudiant les différents types de règles et de réduire l'espace de recherche des règles. Nous avons proposé une approche de classification IGARC permettant de générer un classifieur formé d'une base de règles de classification génériques permettant de mieux classer les nouveaux objets grâce à la flexibilité de petites prémisses caractérisant ces règles. De plus cette approche manipule un nombre réduit de règles en comparaison avec les autres approches de classification associative en se basant sur le principe des bases génériques des règles associatives. Une étude expérimentale inter et intra approches a été faite sur 12 bases Benchmark.Nous avons également proposé une approche Afortiori. Notre travail a été motivé par la recherche d'un algorithme efficace permettant l'extraction des règles génériques aussi bien fréquentes que rares de classification en évitant la génération d'un grand nombre de règles. L'algorithme que nous proposons est particulièrement intéressant dans le cas de bases de données bien spécifiques composées d'exemples positifs et négatifs et dont le nombre d'exemples négatifs est très réduit par rapport aux exemples positifs. La recherche des règles se fait donc sur les exemples négatifs afin de déterminer des règles qui ont un faible support et ce même par rapport à la population des exemples positifs et dont l'extraction pourrait être coûteuse
Within the framework of this thesis, our interest is focused on classification accuracy and the optimalité of the traversal of the search. we introduced a new direct associative classification method called IGARC that extracts directly a classifier formed by generic associative classification rules from a training set in order to reduce the number of associative classification rules without jeopardizing the classification accuracy. Carried out experiments outlined that IGARC is highly competitive in comparison with popular classification methods.We also introduced a new classification approach called AFORTIORI. We address the problem of generating relevant frequent and rare classification rules. Our work is motivated by the long-standing open question of devising an efficient algorithm for finding rules with low support. A particularly relevant field for rare item sets and rare associative classification rules is medical diagnosis. The proposed approach is based on the cover set classical algorithm. It allows obtaining frequent and rare rules while exploring the search space in a depth first manner. To this end, AFORTIORI adopts the covering set algorithm and uses the cover measure in order to guide the traversal of the search space and to generate the most interesting rules for the classification framework even rare ones. We describe our method and provide comparisons with common methods of associative classification on standard benchmark data set
31

Gan, Changquan. "Une approche de classification non supervisée basée sur la notion des K plus proches voisins." Compiègne, 1994. http://www.theses.fr/1994COMP765S.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La classification non supervisée a pour objectif de définir dans un ensemble de données des classes permettant de caractériser la structure interne des données. C’est une technique très utile dans de nombreux domaines technologiques comme en diagnostic des systèmes complexes (pour la mise en évidence de modes de fonctionnement) et en vision par ordinateur (pour la segmentation d'image). Les méthodes traditionnelles de la classification non supervisée présentent plusieurs problèmes en pratique, par exemple, la nécessité de préfixer le nombre de classes, le manque de stratégie appropriée pour le réglage de paramètres et la difficulté de valider le résultat obtenu. Dans cette thèse nous tentons d'apporter une solution à ces problèmes en développant une nouvelle approche basée sur la notion des K plus proches voisins. Alliant la détection de mode et la recherche de graphe reflétant la proximité des données, cette approche identifie d'abord les centres de classe, puis construit une classe autour de chaque centre. Elle n'emploie aucune connaissance a priori sur les données et ne possède qu'un seul paramètre. Une stratégie de réglage de ce paramètre a été établie après une étude théorique et une analyse expérimentale. L’idée est de rechercher la stabilité du résultat de classification. Des tests présentés dans ce mémoire montrent une bonne performance de l'approche proposée ; elle est libre d'hypothèse sur la nature des données, relativement robuste et facile à utiliser
32

Dugué, Nicolas. "Analyse du capitalisme social sur Twitter." Thesis, Orléans, 2015. http://www.theses.fr/2015ORLE2081/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le sociologue Bourdieu définit le capital social comme : "L’ensemble des ressources actuelles ou potentielles qui sont liées à la possession d’un réseau durable de relations". Sur Twitter, les abonnements, mentions et retweets créent un réseau de relations pour chaque utilisateur dont les ressources sont l’obtention d’informations pertinentes, la possibilité d’être lu, d’assouvir un besoin narcissique, de diffuser efficacement des messages.Certains utilisateurs Twitter -appelés capitalistes sociaux - cherchent à maximiser leur nombre d’abonnements pour maximiser leur capital social. Nous introduisons leurs techniques, basées sur l’échange d’abonnements et l’utilisation de hashtags dédiés. Afin de mieux les étudier, nous détaillons tout d’abord une méthode pour détecter à l’échelle du réseau ces utilisateurs en se basant sur leurs abonnements et abonnés. Puis, nous montrons avec un compte Twitter automatisé que ces techniques permettent de gagner efficacement des abonnés et de se faire beaucoup retweeter. Nous établissons ensuite que ces dernières permettent également aux capitalistes sociaux d’occuper des positions qui leur accordent une bonne visibilité dans le réseau. De plus, ces méthodes rendent ces utilisateurs influents aux yeux des principaux outils de mesure. Nous mettons en place une méthode de classification supervisée pour détecter avec précision ces utilisateurs et ainsi produire un nouveau score d’influence
Bourdieu, a sociologist, defines social capital as : "The set of current or potential ressources linked to the possession of a lasting relationships network". On Twitter,the friends, followers, users mentionned and retweeted are considered as the relationships network of each user, which ressources are the chance to get relevant information, to beread, to satisfy a narcissist need, to spread information or advertisements. We observethat some Twitter users that we call social capitalists aim to maximize their follower numbers to maximize their social capital. We introduce their methods, based on mutual subscriptions and dedicated hashtags. In order to study them, we first describe a large scaledetection method based on their set of followers and followees. Then, we show with an automated Twitter account that their methods allow to gain followers and to be retweeted efficiently. Afterwards, we bring to light that social capitalists methods allows these users to occupy specific positions in the network allowing them a high visibility.Furthermore, these methods make these users influent according to the major tools. Wethus set up a classification method to detect accurately these user and produce a newinfluence score
33

Pujari, Manisha. "Prévision de liens dans des grands graphes de terrain (application aux réseaux bibliographiques)." Thesis, Sorbonne Paris Cité, 2015. http://www.theses.fr/2015USPCD010/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Nous nous intéressons dans ce travail au problème de prévision de nouveaux liens dans des grands graphes de terrain. Nous explorons en particulier les approches topologiques dyadiques pour la prévision de liens. Différentes mesures de proximité topologique ont été étudiées dans la littérature pour prédire l’apparition de nouveaux liens. Des techniques d’apprentissage supervisé ont été aussi utilisées afin de combiner ces différentes mesures pour construire des modèles prédictifs. Le problème d’apprentissage supervisé est ici un problème difficile à cause notamment du fort déséquilibre de classes. Dans cette thèse, nous explorons différentes approches alternatives pour améliorer les performances des approches dyadiques pour la prévision de liens. Nous proposons d’abord, une approche originale de combinaison des prévisions fondée sur des techniques d’agrégation supervisée de listes triées (ou agrégation de préférences). Nous explorons aussi différentes approches pour améliorer les performances des approches supervisées pour la prévision de liens. Une première approche consiste à étendre l’ensemble des attributs décrivant un exemple (paires de noeuds) par des attributs calculés dans un réseau multiplexe qui englobe le réseau cible. Un deuxième axe consiste à évaluer l’apport destechniques de détection de communautés pour l’échantillonnage des exemples. Des expérimentations menées sur des réseaux réels extraits de la base bibliographique DBLP montrent l’intérêt des approaches proposées
In this work, we are interested to tackle the problem of link prediction in complex networks. In particular, we explore topological dyadic approaches for link prediction. Different topological proximity measures have been studied in the scientific literature for finding the probability of appearance of new links in a complex network. Supervided learning methods have also been used to combine the predictions made or information provided by different topological measures. The create predictive models using various topological measures. The problem of supervised learning for link prediction is a difficult problem especially due to the presence of heavy class imbalance. In this thesis, we search different alternative approaches to improve the performance of different dyadic approaches for link prediction. We propose here, a new approach of link prediction based on supervised rank agregation that uses concepts from computational social choice theory. Our approach is founded on supervised techniques of aggregating sorted lists (or preference aggregation). We also explore different ways of improving supervised link prediction approaches. One approach is to extend the set of attributes describing an example (pair of nodes) by attributes calculated in a multiplex network that includes the target network. Multiplex networks have a layered structure, each layer having different kinds of links between same sets of nodes. The second way is to use community information for sampling of examples to deal with the problem of classe imabalance. Experiments conducted on real networks extracted from well known DBLP bibliographic database
34

Durand, Marie. "La découverte et la compréhension des profils d’apprenants : classification semi-supervisée et acquisition d’une langue seconde." Thesis, Paris 8, 2019. http://www.theses.fr/2019PA080029.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse a pour ambition l'élaboration d’une méthodologie efficace pour la découverte et la description du profil de l'apprenant d'une L2 à partir de données d'acquisition (perception, compréhension et production). Nous souhaitons détecter des régularités dans les comportements acquisitionnels de sous-groupes d'apprenants, en tenant compte de l'aspect multidimensionnel du processus d'apprentissage L2. La méthodologie proposée appartient au domaine de l'intelligence artificielle, plus spécifiquement aux techniques de clustering semi supervisé.Notre algorithme a été appliqué à la base de données du projet VILLA qui inclut les données d'acquisition d'apprenants de 5 langues sources différentes (français, italien, néerlandais, allemand et anglais) avec le polonais comme langue cible. 156 apprenants adultes ont chacun été testé avec une variété de tâches en polonais pendant 14h de session d'enseignement, à partir de l'exposition initiale. Ces tests ont permis d’évaluer leurs performances sur les niveaux d'analyse linguistique que sont la phonologie, la morphologie, la morphosyntaxe et le lexique. La base de données inclut également leur sensibilité aux caractéristiques de l'input, telles que la fréquence et la transparence des éléments lexicaux utilisés dans les tâches linguistiques.La mesure de similarité utilisée dans les techniques classiques de clustering est revisitée dans ce travail afin d'évaluer la distance entre deux apprenants d'un point de vue acquisitionniste. Elle repose sur l'identification de la stratégie de réponse de l'apprenant à une structure de test linguistique spécifique. Nous montrons que cette mesure permet de détecter la présence ou l'absence dans les réponses de l'apprenant d'une stratégie proche du système flexionnel de la LC. Ce procédé fournit une classification des apprenants cohérente avec la recherche sur l'acquisition de la langue seconde et apporte de nouvelles pistes de réflexion sur les parcours acquisitionnels des apprenants ab initio
This thesis aims to develop an effective methodology for the discovery and description of the learner's profile of an L2 based on acquisition data (perception, understanding and production). We want to detect patterns in the acquisition behaviours of subgroups of learners, taking into account the multidimensional aspect of the L2 learning process. The proposed methodology belongs to the field of artificial intelligence, more specifically to semi supervised clustering techniques.Our algorithm has been applied to the data base of the VILLA project, which includes the performance of learners from 5 different source languages (French, Italian, Dutch, German and English) with Polish as the target language. 156 adult learners were each tested with a variety of tasks in Polish during 14 hours of teaching session, starting from the initial exposure. These tests made it possible to evaluate their performance on the levels of linguistic analysis that are phonology, morphology, morphosyntax and lexicon. The database also includes their sensitivity to input characteristics, such as the frequency and transparency of lexical elements used in linguistic tasks.The similarity measure used in traditional clustering techniques is revisited in this work in order to evaluate the distance between two learners from an acquisitionist point of view. It is based on the identification of the learner's response strategy to a specific language test structure. We show that this measure makes it possible to detect the presence or absence in the learner's responses of a strategy similar to the LC flexional system, and so enables our algorithm to provide a resulting classification consistent with second language acquisition research. As a result, we claim that our algorithm might be relevant in the empirical establishment of learners' profiles and the discovery of new opportunities for reflection or analysis
35

Gaillard, Pierre. "Apprentissage statistique de la connexité d'un nuage de points par modèle génératif : application à l'analyse exploratoire et la classification semi-supervisée." Compiègne, 2008. http://www.theses.fr/2008COMP1767.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Dans cette thèse, nous présentons un modèle statistique permettant d'extraire la connexité des variétés structurantes d'un ensemble de points. Ce modèle combine des approches statistiques et géométriques en définissant un modèle de mélange gaussien construit à partir d'un graphe. A partir de ce graphe génératif, nous proposons et évaluons des méthodes d'analyses exploratoires et de classification non-supervisée et semi-supervisée
In this work, we propose a statistical model to learn the connectedness of a set of points. This model combine geometrical and statistical approaches by defining a mixture model based on a graph. From this generative graph, we propose and evaluate methods and algorithms to analyse the set of points and to realize semi-supervised learning
36

Maugis, Cathy. "Sélection de variables pour la classification non supervisée par mélanges gaussiens : application à l'étude de données transcriptomes." Phd thesis, Université Paris Sud - Paris XI, 2008. http://tel.archives-ouvertes.fr/tel-00344120.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Nous nous intéressons à la sélection de variables en classification non supervisée par mélanges gaussiens. Ces travaux sont en particulier motivés par la classification de gènes à partir de données transcriptomes. Dans les deux parties de cette thèse, le problème est ramené à celui de la sélection de modèles.
Dans la première partie, le modèle proposé, généralisant celui de Raftery et Dean (2006) permet de spécifier le rôle des variables vis-à-vis du processus de classification. Ainsi les variables non significatives peuvent être dépendantes d'une partie des variables retenues pour la classification. Ces modèles sont comparés grâce à un critère de type BIC. Leur identifiabilité est établie et la consistance du critère est démontrée sous des conditions de régularité. En pratique, le statut des variables est obtenu grâce à un algorithme imbriquant deux algorithmes descendants de sélection de variables pour la classification et pour la régression linéaire. L'intérêt de cette procédure est en particulier illustré sur des données transcriptomes. Une amélioration de la modélisation du rôle des variables, consistant à répartir les variables déclarées non significatives entre celles dépendantes et celles indépendantes des variables significatives pour la classification, est ensuite proposée pour pallier une surpénalisation de certains modèles. Enfin, la technologie des puces à ADN engendrant de nombreuses données manquantes, une extension de notre procédure tenant compte de l'existence de ces valeurs manquantes est suggérée, évitant leur
estimation préalable.
Dans la seconde partie, des mélanges gaussiens de formes spécifiques sont considérés et un critère pénalisé non asymptotique est proposé pour sélectionner simultanément le nombre de composantes du mélange et l'ensemble des variables pertinentes pour la classification. Un théorème général de sélection de modèles pour l'estimation de densités par maximum de vraisemblance, proposé par Massart (2007), est utilisé pour déterminer la forme de la pénalité. Ce théorème nécessite le contrôle de l'entropie à crochets des familles de mélanges gaussiens multidimensionnels étudiées. Ce critère dépendant de constantes multiplicatives inconnues, l'heuristique dite "de la pente" est mise en oeuvre pour permettre une utilisation effective de ce critère.
37

Happillon, Teddy. "Aide au diagnostic de cancers cutanés et de la leucémie lymphoïde chronique par microspectroscopies vibrationnelles couplées à des analyses numériques multivariées." Thesis, Reims, 2013. http://www.theses.fr/2013REIMP204/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La spectroscopie vibrationnelle est une technologie permettant de générer une grande quantité de données très informatives quant à la composition moléculaire des échantillons analysés. Lorsqu'elle est couplée à des méthodes chimiométriques de traitement et de classification de données, elle devient un outil très performant pour l'identification de structures et sous-structures des échantillons. Appliqué dans le domaine du biomédical, cet outil présente alors un fort potentiel pour le diagnostic de maladie. C'est dans ce cadre qu'ont été réalisés les travaux de ce manuscrit. Dans une première étude relevant du développement algorithmique, un algorithme automatique de classification non supervisée (basé sur les Fuzzy C-Means) et récemment implémenté au sein du laboratoire pour apporter une aide au diagnostic de cancers cutanés par imagerie infrarouge, a été amélioré afin de i) considérablement réduire le temps nécessaire à son exécution ii) augmenter la qualité des résultats obtenus sur les données infrarouge et iii) étendre son champs d'application à des données réelles et simulées, habituellement employées dans la littérature. Cet outil a été testé sur des données infrarouge acquises sur 16 échantillons de cancers cutanés (BCC, SCC, maladie de Bowen et mélanomes), et sur 49 jeux de données réels et simulés. Les résultats obtenus ont montré la capacité de ce nouvel algorithme à estimer des partitions proches de la réalité quelque soit le type de données étudié. La seconde étude de ce manuscrit avait pour but de mettre au point un outil chimiométrique autonome d'aide au diagnostic de la leucémie lymphoïde chronique par spectroscopie Raman. Dans ce travail, des traitements numériques et l'algorithme de classification supervisée Support Vector Machines, ont été appliqués à des données acquises sur des cellules sanguine de 27 témoins et 49 patients présentant une leucémie lymphoïde chronique. Les résultats de classification obtenus ont montré une sensibilité de 80% et une spécificité de 100% dans la détection de la maladie
Vibrational spectroscopy is a technology able to record a large amount of molecular information from studied samples. Coupled with chemometrics and classification methods, vibrational spectroscopy is an efficient tool to identify sample structures and substructures. When applied to the biomedical field, this tool shows a high potential for disease diagnosis. It is in this context that the works presented in this thesis have been realized. In a first study, dealing with algorithmic development, an automatic and unsupervised classification algorithm (based on the Fuzzy C-Means) and developed by our laboratory in order to help for skin cancer diagnosis using IR spectroscopy, was improved in order to i) reduce the computational time needed to realize clustering, ii) increase results quality obtained on infrared data, iii) and extend its application fields to simulated and real datasets, commonly used in the literature. This tool has been tested on 16 infrared spectral images of skin cancers (BCC, SCC, Bowen's disease and melanoma), and 49 real and simulated datasets. The obtained results showed the ability of this new algorithm to estimate realistic data partitions regardless the considered dataset. The second study of this work aimed at developing an independent chemometric tool to assist for chronic lymphocytic leukemia diagnosis by Raman spectroscopy. In this second work, different numerical preprocessing steps and a supervised classification algorithm, Support Vector Machines, have been applied on data recorded on blood cells coming from 27 healthy persons and 49 patients with chronic lymphocytic leukemia. The classification results showed a sensitivity of 80% and a specificity of 100% in the disease diagnosis
38

Kassab, Randa. "Analyse des propriétés stationnaires et des propriétés émergentes dans les flux d'informations changeant au cours du temps." Phd thesis, Université Henri Poincaré - Nancy I, 2009. http://tel.archives-ouvertes.fr/tel-00402644.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
De nombreuses applications génèrent et reçoivent des données sous la forme de flux continu, illimité, et très rapide. Cela pose naturellement des problèmes de stockage, de traitement et d'analyse de données qui commencent juste à être abordés dans le domaine des flux de données. Il s'agit, d'une part, de pouvoir traiter de tels flux à la volée sans devoir mémoriser la totalité des données et, d'autre part, de pouvoir traiter de manière simultanée et concurrente l'analyse des régularités inhérentes au flux de données et celle des nouveautés, exceptions, ou changements survenant dans ce même flux au cours du temps.

L'apport de ce travail de thèse réside principalement dans le développement d'un modèle d'apprentissage - nommé ILoNDF - fondé sur le principe de la détection de nouveauté. L'apprentissage de ce modèle est, contrairement à sa version de départ, guidé non seulement par la nouveauté qu'apporte une donnée d'entrée mais également par la donnée elle-même. De ce fait, le modèle ILoNDF peut acquérir constamment de nouvelles connaissances relatives aux fréquences d'occurrence des données et de leurs variables, ce qui le rend moins sensible au bruit. De plus, doté d'un fonctionnement en ligne sans répétition d'apprentissage, ce modèle répond aux exigences les plus fortes liées au traitement des flux de données.

Dans un premier temps, notre travail se focalise sur l'étude du comportement du modèle ILoNDF dans le cadre général de la classification à partir d'une seule classe en partant de l'exploitation des données fortement multidimensionnelles et bruitées. Ce type d'étude nous a permis de mettre en évidence les capacités d'apprentissage pures du modèle ILoNDF vis-à-vis de l'ensemble des méthodes proposées jusqu'à présent. Dans un deuxième temps, nous nous intéressons plus particulièrement à l'adaptation fine du modèle au cadre précis du filtrage d'informations. Notre objectif est de mettre en place une stratégie de filtrage orientée-utilisateur plutôt qu'orientée-système, et ceci notamment en suivant deux types de directions. La première direction concerne la modélisation utilisateur à l'aide du modèle ILoNDF. Cette modélisation fournit une nouvelle manière de regarder le profil utilisateur en termes de critères de spécificité, d'exhaustivité et de contradiction. Ceci permet, entre autres, d'optimiser le seuil de filtrage en tenant compte de l'importance que pourrait donner l'utilisateur à la précision et au rappel. La seconde direction, complémentaire de la première, concerne le raffinement des fonctionnalités du modèle ILoNDF en le dotant d'une capacité à s'adapter à la dérive du besoin de l'utilisateur au cours du temps. Enfin, nous nous attachons à la généralisation de notre travail antérieur au cas où les données arrivant en flux peuvent être réparties en classes multiples.
39

Yang, Gen. "Modèles prudents en apprentissage statistique supervisé." Thesis, Compiègne, 2016. http://www.theses.fr/2016COMP2263/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Dans certains champs d’apprentissage supervisé (e.g. diagnostic médical, vision artificielle), les modèles prédictifs sont non seulement évalués sur leur précision mais également sur la capacité à l'obtention d'une représentation plus fiable des données et des connaissances qu'elles induisent, afin d'assister la prise de décisions de manière prudente. C'est la problématique étudiée dans le cadre de cette thèse. Plus spécifiquement, nous avons examiné deux approches existantes de la littérature de l'apprentissage statistique pour rendre les modèles et les prédictions plus prudents et plus fiables: le cadre des probabilités imprécises et l'apprentissage sensible aux coûts. Ces deux domaines visent tous les deux à rendre les modèles d'apprentissage et les inférences plus fiables et plus prudents. Pourtant peu de travaux existants ont tenté de les relier, en raison de problèmes à la fois théorique et pratique. Nos contributions consistent à clarifier et à résoudre ces problèmes. Sur le plan théorique, peu de travaux existants ont abordé la manière de quantifier les différentes erreurs de classification quand des prédictions sous forme d'ensembles sont produites et quand ces erreurs ne se valent pas (en termes de conséquences). Notre première contribution a donc été d'établir des propriétés générales et des lignes directrices permettant la quantification des coûts d'erreurs de classification pour les prédictions sous forme d'ensembles. Ces propriétés nous ont permis de dériver une formule générale, le coût affaiblie généralisé (CAG), qui rend possible la comparaison des classifieurs quelle que soit la forme de leurs prédictions (singleton ou ensemble) en tenant compte d'un paramètre d'aversion à la prudence. Sur le plan pratique, la plupart des classifieurs utilisant les probabilités imprécises ne permettent pas d'intégrer des coûts d'erreurs de classification génériques de manière simple, car la complexité du calcul augmente de magnitude lorsque des coûts non unitaires sont utilisés. Ce problème a mené à notre deuxième contribution, la mise en place d'un classifieur qui permet de gérer les intervalles de probabilités produits par les probabilités imprécises et les coûts d'erreurs génériques avec le même ordre de complexité que dans le cas où les probabilités standards et les coûts unitaires sont utilisés. Il s'agit d'utiliser une technique de décomposition binaire, les dichotomies emboîtées. Les propriétés et les pré-requis de ce classifieur ont été étudiés en détail. Nous avons notamment pu voir que les dichotomies emboîtées sont applicables à tout modèle probabiliste imprécis et permettent de réduire le niveau d'indétermination du modèle imprécis sans perte de pouvoir prédictif. Des expériences variées ont été menées tout au long de la thèse pour appuyer nos contributions. Nous avons caractérisé le comportement du CAG à l’aide des jeux de données ordinales. Ces expériences ont mis en évidence les différences entre un modèle basé sur les probabilités standards pour produire des prédictions indéterminées et un modèle utilisant les probabilités imprécises. Ce dernier est en général plus compétent car il permet de distinguer deux sources d'indétermination (l'ambiguïté et le manque d'informations), même si l'utilisation conjointe de ces deux types de modèles présente également un intérêt particulier dans l'optique d'assister le décideur à améliorer les données ou les classifieurs. De plus, des expériences sur une grande variété de jeux de données ont montré que l'utilisation des dichotomies emboîtées permet d'améliorer significativement le pouvoir prédictif d'un modèle imprécis avec des coûts génériques
In some areas of supervised machine learning (e.g. medical diagnostics, computer vision), predictive models are not only evaluated on their accuracy but also on their ability to obtain more reliable representation of the data and the induced knowledge, in order to allow for cautious decision making. This is the problem we studied in this thesis. Specifically, we examined two existing approaches of the literature to make models and predictions more cautious and more reliable: the framework of imprecise probabilities and the one of cost-sensitive learning. These two areas are both used to make models and inferences more reliable and cautious. Yet few existing studies have attempted to bridge these two frameworks due to both theoretical and practical problems. Our contributions are to clarify and to resolve these problems. Theoretically, few existing studies have addressed how to quantify the different classification errors when set-valued predictions are produced and when the costs of mistakes are not equal (in terms of consequences). Our first contribution has been to establish general properties and guidelines for quantifying the misclassification costs for set-valued predictions. These properties have led us to derive a general formula, that we call the generalized discounted cost (GDC), which allow the comparison of classifiers whatever the form of their predictions (singleton or set-valued) in the light of a risk aversion parameter. Practically, most classifiers basing on imprecise probabilities fail to integrate generic misclassification costs efficiently because the computational complexity increases by an order (or more) of magnitude when non unitary costs are used. This problem has led to our second contribution, the implementation of a classifier that can manage the probability intervals produced by imprecise probabilities and the generic error costs with the same order of complexity as in the case where standard probabilities and unitary costs are used. This is to use a binary decomposition technique, the nested dichotomies. The properties and prerequisites of this technique have been studied in detail. In particular, we saw that the nested dichotomies are applicable to all imprecise probabilistic models and they reduce the imprecision level of imprecise models without loss of predictive power. Various experiments were conducted throughout the thesis to illustrate and support our contributions. We characterized the behavior of the GDC using ordinal data sets. These experiences have highlighted the differences between a model based on standard probability framework to produce indeterminate predictions and a model based on imprecise probabilities. The latter is generally more competent because it distinguishes two sources of uncertainty (ambiguity and the lack of information), even if the combined use of these two types of models is also of particular interest as it can assist the decision-maker to improve the data quality or the classifiers. In addition, experiments conducted on a wide variety of data sets showed that the use of nested dichotomies significantly improves the predictive power of an indeterminate model with generic costs
40

Doan, Tien Tai. "Réalisation d’une aide au diagnostic en orthodontie par apprentissage profond." Electronic Thesis or Diss., université Paris-Saclay, 2021. http://www.theses.fr/2021UPASG033.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'analyse et le diagnostic précis à partir d'images dentaires sont un facteur essentiel de la réussite des traitements orthodontiques. De nombreux procédés de traitement d'image ont été proposés pour résoudre ce problème. Cependant, ces études fonctionnent principalement sur de petits ensembles de données de radiographies dans des conditions de laboratoire et ne sont pas vraiment applicables en tant que produits ou services complets. Dans cette thèse, nous construisons des modèles d'apprentissage profond pour diagnostiquer des problèmes dentaires tels que la gingivite et les dents chevauchées à l'aide de photos prises par de téléphones portables. Nous étudions les couches cachées de ces modèles pour trouver les forces et les limites de chaque méthode. Nous proposons un pipeline complet intégrant le prétraitement des images, l'apprentissage du modèle et le post-traitement des résultats pour créer un processus d'analyse complet prêt à être mis en production en situation réel. Afin d'améliorer la fiabilité des modèles, nous avons étudié différentes méthodes d'augmentation des données, en particulier les méthodes d'adaptation de domaine en utilisant des approche de transfert d'images, à la fois supervisée et non supervisée, et obtenons des résultats prometteurs. Les approches de transformation d'images sont également utilisés pour simplifier le choix des appareils orthodontiques par les patients en leur montrant à quoi pourraient ressembler leurs dents pendant le traitement. Nos méthodes permettent de générées des images réalistes et en haute définition. Nous proposons également un nouveau modèle de transformation d'image non supervisé qui peut manipuler les caractéristiques de l'image sans nécessiter d'annotation supplémentaire. Notre modèle surpasse les techniques de pointe sur plusieurs applications de transformation d'images et est également étendu pour les problèmes de « few-shot learning »
Accurate processing and diagnosis of dental images is an essential factor determining the success of orthodontic treatment. Many image processing methods have been proposed to address this problem. Those studies mainly work on small datasets of radiographs under laboratory conditions and are not highly applicable as complete products or services. In this thesis, we train deep learning models to diagnose dental problems such as gingivitis and crowded teeth using mobile phones' images. We study feature layers of these models to find the strengths and limitations of each method. Besides training deep learning models, we also embed each of them in a pipeline, including preprocessing and post-processing steps, to create a complete product. For the lack of training data problem, we studied a variety of methods for data augmentation, especially domain adaptation methods using image-to-image translation models, both supervised and unsupervised, and obtain promising results. Image translation networks are also used to simplifying patients' choice of orthodontic appliances by showing them how their teeth could look like during treatment. Generated images have are realistic and in high resolution. Researching further into unsupervised image translation neural networks, we propose an unsupervised imageto- image translation model which can manipulate features of objects in the image without requiring additional annotation. Our model outperforms state-of-the-art techniques on multiple image translation applications and is also extended for few-shot learning problems
41

Ta, Minh Thuy. "Techniques d'optimisation non convexe basée sur la programmation DC et DCA et méthodes évolutives pour la classification non supervisée." Electronic Thesis or Diss., Université de Lorraine, 2014. http://www.theses.fr/2014LORR0099.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Nous nous intéressons particulièrement, dans cette thèse, à quatre problèmes en apprentissage et fouille de données : clustering pour les données évolutives, clustering pour les données massives, clustering avec pondération de variables et enfin le clustering sans connaissance a priori du nombre de clusters avec initialisation optimale des centres de clusters. Les méthodes que nous décrivons se basent sur des approches d’optimisation déterministe, à savoir la programmation DC (Difference of Convex functions) et DCA (Difference of Convex Algorithms), pour la résolution de problèmes de clustering cités précédemment, ainsi que des approches évolutionnaires élitistes. Nous adaptons l’algorithme de clustering DCA–MSSC pour le traitement de données évolutives par fenêtres, en appréhendant les données évolutives avec deux modèles : fenêtres fixes et fenêtres glissantes. Pour le problème du clustering de données massives, nous utilisons l’algorithme DCA en deux phases. Dans la première phase, les données massives sont divisées en plusieurs sous-ensembles, sur lesquelles nous appliquons l’algorithme DCA–MSSC pour effectuer un clustering. Dans la deuxième phase, nous proposons un algorithme DCA-Weight pour effectuer un clustering pondéré sur l’ensemble des centres obtenues à la première phase. Concernant le clustering avec pondération de variables, nous proposons également deux approches: clustering dur avec pondération de variables et clustering floue avec pondération de variables. Nous testons notre approche sur un problème de segmentation d’image. Le dernier problème abordé dans cette thèse est le clustering sans connaissance a priori du nombre des clusters. Nous proposons pour cela une approche évolutionnaire élitiste. Le principe consiste à utiliser plusieurs algorithmes évolutionnaires (EAs) en même temps, de les faire concourir afin d’obtenir la meilleure combinaison de centres initiaux pour le clustering et par la même occasion le nombre optimal de clusters. Les différents tests réalisés sur plusieurs ensembles de données de grande taille sont très prometteurs et montrent l’efficacité des approches proposées
This thesis focus on four problems in data mining and machine learning: clustering data streams, clustering massive data sets, weighted hard and fuzzy clustering and finally the clustering without a prior knowledge of the clusters number. Our methods are based on deterministic optimization approaches, namely the DC (Difference of Convex functions) programming and DCA (Difference of Convex Algorithm) for solving some classes of clustering problems cited before. Our methods are also, based on elitist evolutionary approaches. We adapt the clustering algorithm DCA–MSSC to deal with data streams using two windows models: sub–windows and sliding windows. For the problem of clustering massive data sets, we propose to use the DCA algorithm with two phases. In the first phase, massive data is divided into several subsets, on which the algorithm DCA–MSSC performs clustering. In the second phase, we propose a DCA–Weight algorithm to perform a weighted clustering on the obtained centers in the first phase. For the weighted clustering, we also propose two approaches: weighted hard clustering and weighted fuzzy clustering. We test our approach on image segmentation application. The final issue addressed in this thesis is the clustering without a prior knowledge of the clusters number. We propose an elitist evolutionary approach, where we apply several evolutionary algorithms (EAs) at the same time, to find the optimal combination of initial clusters seed and in the same time the optimal clusters number. The various tests performed on several sets of large data are very promising and demonstrate the effectiveness of the proposed approaches
42

Kurovszky, Monika. "Etude des systèmes dynamiques hybrides par représentation d'état discrète et automate hybride." Phd thesis, Université Joseph Fourier (Grenoble), 2002. http://tel.archives-ouvertes.fr/tel-00198326.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le travail présenté dans ce mémoire propose une méthodologie de synthèse de la commande pour des systèmes hybrides, qui permet de calculer l'ensemble de toutes les lois de commande telles que le fonctionnement du système respecte les spécifications imposées par le cahier des charges. Notre approche consiste à représenter la dynamique continue par un système linéaire discrétisé et la dynamique événementielle par un automate à états finis. L'ensemble donne un automate hybride sur lequel les techniques d'analyse d'atteignabilité sont appliquées. Ces techniques permettent d'obtenir l'automate atteignable, qui ne contient que les trajectoires possibles du système pour une condition initiale donnée. En quelque sorte, nous avons ici une généralisation de la méthode clock translation. L'utilisation du temps discrétisé permet d'obtenir un automate à états finis modélisant le système hybride. Ce modèle est obtenu par le dépliage temporel de la dynamique continue du système dans chaque sommet de l'automate hybride. La technique est similaire avec celle proposée par Brandin et Wonham pour les systèmes temporisés. Par ce modèle les trajectoires du système hybride seront explicitement représentées. L'approche de synthèse de la commande présentée dans ce mémoire est basée sur une extension de la théorie classique de la commande supervisée. Le modèle de commande synthétisé est représenté par un automate temporisé. Celui-ci indique les dates d'occurrence auxquelles les événements contrôlables intervenant dans le fonctionnement du système doivent être exécutés. On notera que l'on s'affranchit ici de l'aspect hybride du système. Les résultats de la synthèse sont optimaux. Les résultats de recherche de ce travail peuvent s'appliquer aussi bien au pilotage des systèmes de production qu'au contrôle des flux dans un procédé batch.
43

Allain, Guillaume. "Prévision et analyse du trafic routier par des méthodes statistiques." Toulouse 3, 2008. http://thesesups.ups-tlse.fr/351/.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La société Mediamobile édite et diffuse de l'information sur le trafic aux usagers. L'objectif de ce travail est l'enrichissement de cette information par la prévision et la complétion des conditions de route. Notre approche s'inspire parfois de la modélisation physique du trafic routier mais fait surtout appel à des méthodes statistiques afin de proposer des solutions automatisables, modulaires et adaptées aux contraintes industrielles. Dans un premier temps, nous décrivons une méthode de prévision de la vitesse de quelques minutes à plusieurs heures. Nous supposons qu'il existe un nombre fini de comportements types du trafic sur le réseau, dus aux déplacements périodiques des usagers. Nous faisons alors l'hypothèse que les courbes de vitesses observées en chaque point du réseau sont issues d'un modèle de mélange. Nous cherchons ensuite à améliorer cette méthode générale de prévision. La prévision à moyen terme fait appel à des variables bâties sur le calendrier. Nous retenons le modèle de mélange des courbes de vitesse et nous proposons également des modèles de régression fonctionnelle pour les courbes de vitesses. Ensuite nous proposons une modélisation par régression locale afin de capturer la dynamique physique du trafic à très court terme. Nous estimons la fonction de noyau à partir des observations du phénomène en intégrant des connaissances a priori sur la dynamique du trafic. La dernière partie est dédiée à l'analyse des vitesses issues de véhicules traceurs. Ces vitesses sont irrégulièrement observées en temps et en espace sur un axe routier. Nous proposons un modèle de régression locale à l'aide de polynômes locaux pour compléter et lisser ces données
The industrial partner of this work is Mediamobile/V-trafic, a company which processes and broadcasts live road-traffic information. The goal of our work is to enhance traffic information with forecasting and spatial extending. Our approach is sometimes inspired by physical modelling of traffic dynamic, but it mainly uses statistical methods in order to propose self-organising and modular models suitable for industrial constraints. In the first part of this work, we describe a method to forecast trafic speed within a time frame of a few minutes up to several hours. Our method is based on the assumption that traffic on the a road network can be summarized by a few typical profiles. Those profiles are linked to the users' periodical behaviors. We therefore make the assumption that observed speed curves on each point of the network are stemming from a probabilistic mixture model. The following parts of our work will present how we can refine the general method. Medium term forecasting uses variables built from the calendar. The mixture model still stands. Additionnaly we use a fonctionnal regression model to forecast speed curves. We then introduces a local regression model in order to stimulate short-term trafic dynamics. The kernel function is built from real speed observations and we integrate some knowledge about traffic dynamics. The last part of our work focuses on the analysis of speed data from in traffic vehicles. These observations are gathered sporadically in time and on the road segment. The resulting data is completed and smoothed by local polynomial regression
44

Eke, Samuel. "Stratégie d'évaluation de l'état des transformateurs : esquisse de solutions pour la gestion intégrée des transformateurs vieillissants." Thesis, Lyon, 2018. http://www.theses.fr/2018LYSEC013/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse de doctorat traite des méthodes d’évaluation de l’état des transformateurs de puissance à huile. Elle apporte une approche particulière de mise en oeuvre des méthodes de classification dans la fouille de données. Elle propose une stratégie qui met en oeuvre deux nouveaux indicateurs de santé de l’huile construit à partir d’un système neuro flou ANFIS (Adaptative Neuro-Fuzzy Inference System) et un classifieur ou prédicteur de défaut construit à partir des méthodes de classification supervisée, notamment le classifieur Bayésien naïf. Un organigramme simple et efficace d’évaluation de l’état des transformateurs y est proposé. Il permet de faire une analyse rapide des paramètres issus des analyses physico-chimiques de l’huile et de des gaz dissous. Une exploitation des méthodes de classification non supervisée, notamment les méthodes de k-moyennes et C-moyennes flous a permis de reconstruire les périodes de fonctionnement d’un transformateur marquées par des défauts particuliers. Il a aussi été démontré comment ces méthodes peuvent servir d’outil d’aide à l’organisation de la maintenance d’un groupe de transformateurs à partir des données d’analyses d’huile disponibles
This PhD thesis deals the assessment method of the state of power transformers filled with oil. It brings a new approach by implementing classification methods and data mining dedicated to transformer maintenance. It proposes a strategy based on two new oil health indicators built from an adaptive Neuro-Fuzzy Inference System (ANFIS). Two classifiers were built on a labeled learning database. The Naive Bayes classifier was retained for the detection of fault from gases dissolved in oil. A simple and efficient flowchart for evaluating the condition of transformers is proposed. It allows a quick analysis of the parameters resulting from physicochemical analyzes of oil and dissolved gases. Using unsupervised classification techniques through the methods of kmeans and fuzzy C-means allowed to reconstruct operating periods of a transformer, with some particular faults. It has also been demonstrated how these methods can be used as tool to help the maintenance of a group of transformers from available oil analysis data
45

Ta, Minh Thuy. "Techniques d'optimisation non convexe basée sur la programmation DC et DCA et méthodes évolutives pour la classification non supervisée." Thesis, Université de Lorraine, 2014. http://www.theses.fr/2014LORR0099/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Nous nous intéressons particulièrement, dans cette thèse, à quatre problèmes en apprentissage et fouille de données : clustering pour les données évolutives, clustering pour les données massives, clustering avec pondération de variables et enfin le clustering sans connaissance a priori du nombre de clusters avec initialisation optimale des centres de clusters. Les méthodes que nous décrivons se basent sur des approches d’optimisation déterministe, à savoir la programmation DC (Difference of Convex functions) et DCA (Difference of Convex Algorithms), pour la résolution de problèmes de clustering cités précédemment, ainsi que des approches évolutionnaires élitistes. Nous adaptons l’algorithme de clustering DCA–MSSC pour le traitement de données évolutives par fenêtres, en appréhendant les données évolutives avec deux modèles : fenêtres fixes et fenêtres glissantes. Pour le problème du clustering de données massives, nous utilisons l’algorithme DCA en deux phases. Dans la première phase, les données massives sont divisées en plusieurs sous-ensembles, sur lesquelles nous appliquons l’algorithme DCA–MSSC pour effectuer un clustering. Dans la deuxième phase, nous proposons un algorithme DCA-Weight pour effectuer un clustering pondéré sur l’ensemble des centres obtenues à la première phase. Concernant le clustering avec pondération de variables, nous proposons également deux approches: clustering dur avec pondération de variables et clustering floue avec pondération de variables. Nous testons notre approche sur un problème de segmentation d’image. Le dernier problème abordé dans cette thèse est le clustering sans connaissance a priori du nombre des clusters. Nous proposons pour cela une approche évolutionnaire élitiste. Le principe consiste à utiliser plusieurs algorithmes évolutionnaires (EAs) en même temps, de les faire concourir afin d’obtenir la meilleure combinaison de centres initiaux pour le clustering et par la même occasion le nombre optimal de clusters. Les différents tests réalisés sur plusieurs ensembles de données de grande taille sont très prometteurs et montrent l’efficacité des approches proposées
This thesis focus on four problems in data mining and machine learning: clustering data streams, clustering massive data sets, weighted hard and fuzzy clustering and finally the clustering without a prior knowledge of the clusters number. Our methods are based on deterministic optimization approaches, namely the DC (Difference of Convex functions) programming and DCA (Difference of Convex Algorithm) for solving some classes of clustering problems cited before. Our methods are also, based on elitist evolutionary approaches. We adapt the clustering algorithm DCA–MSSC to deal with data streams using two windows models: sub–windows and sliding windows. For the problem of clustering massive data sets, we propose to use the DCA algorithm with two phases. In the first phase, massive data is divided into several subsets, on which the algorithm DCA–MSSC performs clustering. In the second phase, we propose a DCA–Weight algorithm to perform a weighted clustering on the obtained centers in the first phase. For the weighted clustering, we also propose two approaches: weighted hard clustering and weighted fuzzy clustering. We test our approach on image segmentation application. The final issue addressed in this thesis is the clustering without a prior knowledge of the clusters number. We propose an elitist evolutionary approach, where we apply several evolutionary algorithms (EAs) at the same time, to find the optimal combination of initial clusters seed and in the same time the optimal clusters number. The various tests performed on several sets of large data are very promising and demonstrate the effectiveness of the proposed approaches
46

Vinot, Romain. "Classification automatique de textes dans des catégories non thématiques." Phd thesis, Télécom ParisTech, 2004. http://pastel.archives-ouvertes.fr/pastel-00000812.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La classification automatique de textes était jusqu'à présent employée pour l'indexation documentaire. À travers quatre exemples, nous présentons quelques caractéristiques de nouveaux contextes applicatifs ainsi que leurs conséquences pour les algorithmes existants. Nous mettons en évidence le fait que Rocchio, d'ordinaire peu performant, est particulièrement adapté aux corpus bruités et à une utilisation semi-automatique mais très désavantagé avec des classes définies par plusieurs thèmes. Nous proposons une extension de Rocchio, Rocchio Multi-Prototypes, pour gérer les classes multi-thématiques en adaptant la complexité de son modèle d'apprentissage. RMP utilise un algorithme de classification faiblement supervisée qui détecte des sous-classes et sélectionne les plus utiles pour la catégorisation. Nous proposons aussi un algorithme de détection de changements de concepts dans des corpus à flux temporel à partir du calcul du taux d'activité des sous-classes.
47

Nait-Chabane, Ahmed. "Segmentation invariante en rasance des images sonar latéral par une approche neuronale compétitive." Phd thesis, Université de Bretagne occidentale - Brest, 2013. http://tel.archives-ouvertes.fr/tel-00968199.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Un sonar latéral de cartographie enregistre les signaux qui ont été rétrodiffusés par le fond marin sur une large fauchée. Les signaux sont ainsi révélateurs de l'interaction entre l'onde acoustique émise et le fond de la mer pour une large plage de variation de l'angle de rasance. L'analyse des statistiques de ces signaux rétrodiffusés montre une dépendance à ces angles de rasance, ce qui pénalise fortement la segmentation des images en régions homogènes. Pour améliorer cette segmentation, l'approche classique consiste à corriger les artefacts dus à la formation de l'image sonar (géométrie d'acquisition, gains variables, etc.) en considérant un fond marin plat et en estimant des lois physiques (Lambert, Jackson, etc.) ou des modèles empiriques. L'approche choisie dans ce travail propose de diviser l'image sonar en bandes dans le sens de la portée ; la largeur de ces bandes étant suffisamment faible afin que l'analyse statistique de la rétrodiffusion puisse être considérée indépendante de l'angle de rasance. Deux types d'analyse de texture sont utilisés sur chaque bande de l'image. La première technique est basée sur l'estimation d'une matrice des cooccurrences et de différents attributs d'Haralick. Le deuxième type d'analyse est l'estimation d'attributs spectraux. La bande centrale localisée à la moitié de la portée du sonar est segmentée en premier par un réseau de neurones compétitifs basé sur l'algorithme SOFM (Self-Organizing Feature Maps) de Kohonen. Ensuite, la segmentation est réalisée successivement sur les bandes adjacentes, jusqu'aux limites basse et haute de la portée sonar. A partir des connaissances acquises sur la segmentation de cette première bande, le classifieur adapte sa segmentation aux bandes voisines. Cette nouvelle méthode de segmentation est évaluée sur des données réelles acquises par le sonar latéral Klein 5000. Les performances de segmentation de l'algorithme proposé sont comparées avec celles obtenues par des techniques classiques.
48

Alaoui, Ismaili Oumaima. "Clustering prédictif Décrire et prédire simultanément." Thesis, Université Paris-Saclay (ComUE), 2016. http://www.theses.fr/2016SACLA010.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le clustering prédictif est un nouvel aspect d’apprentissage supervisé dérivé du clustering standard. Les algorithmes appartenant à ce type de l’apprentissage cherchent à décrire et à prédire d’une manière simultanée. Il s’agit de découvrir la structure interne d’une variable cible. Puis munis de cette structure, de prédire la classe des nouvelles instances.Pour atteindre l’objectif de la thèse qui est la recherche d’un modèle d’apprentissage "interprétable" capable de décrire et de prédire d’une manière simultanée, nous avons choisi de modifier l’algorithme des K-moyennes standard. Cette version modifiée est nommée les K-moyennes prédictives. Elle contient 7 différentes étapes dont chacune peut être supervisée indépendamment des autres.Au cours de cette thèse, nous nous intéressons à la supervision de quatre étapes, à savoir : 1) le prétraitement des données, 2) l’initialisation des centres, 3) le choix de la meilleure partition et 4) la mesure d’importance des variables.Nos résultats expérimentaux montrent d’une part qu’avec la supervision de l’étape de prétraitement des données et de l’étape d’initialisation des centres, l’algorithme des K-moyennes prédictives parvient à avoir des performances très compétitives ou meilleures que celles obtenues par certains algorithmes de clustering prédictif.D’autre part, ces résultats expérimentaux mettent l’accent sur la capacité de nos méthodes de prétraitement à aider l’algorithme des K-moyennes prédictives à fournir des résultats facilement interprétables par l’utilisateur.Nous montrons enfin dans ce mémoire qu’avec l’aide du critère d’évaluation proposé dans cette thèse, l’algorithme des K-moyennes prédictives parvient à sélectionner la partition optimale qui réalise le bon compromis entre la description et la prédiction. Ceci permet à l’utilisateur de découvrir les différentes raisons qui peuvent mener à une même prédiction
Predictive clustering is a new supervised learning framework derived from traditional clustering. This new framework allows to describe and to predict simultaneously. Compared to a classical supervised learning, predictive clsutering algorithms seek to discover the internal structure of the target class in order to use it for predicting the class of new instances.The purpose of this thesis is to look for an interpretable model of predictive clustering. To acheive this objective, we choose to modified traditional K-means algorithm. This new modified version is called predictive K-means. It contains 7 differents steps, each of which can be supervised seperatly from the others. In this thesis, we only deal four steps : 1) data preprocessing, 2) initialization of centers, 3) selecting of the best partition, and 4) importance of features.Our experimental results show that the use of just two supervised steps (data preprocessing and initialization of centers), allow the K-means algorithm to acheive competitive performances with some others predictive clustering algorithms.These results show also that our preprocessing methods can help predictive K-means algorithm to provide results easily comprehensible by users. We are also showing in this thesis that the use of our new measure to evaluate predictive clustering quality, helps our predictive K-means algorithm to find the optimal partition that establishes the best trade-off between description and prediction. It thus allows users to find the different reasons behind the same prediction : two differents instances could have the same predicted label
49

Blanchard, Frédéric. "Visualisation et classification de données multidimensionnelles : Application aux images multicomposantes." Reims, 2005. http://theses.univ-reims.fr/exl-doc/GED00000287.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'analyse des images multicomposantes est un problème crucial. Les questions de la visualisation et de la classification pour ces images sont importantes. Nous nous sommes intéressés à ces deux problèmes en nous plaçant dans le cadre plus général de l'analyse des données multidimensionnelles, et avons apporté deux éléments de réponses. Avant de traiter ces questions, nous nous sommes intéressés aux problèmes pratiques et théoriques liés à la dimensionnalité et étudions quelques unes des techniques courantes de réduction de dimensionnalité. La question de la visualisation est alors exposée et une nouvelle méthode utilisant l'image couleur est proposée. Cette technique permet une visualisation immédiate et synthétique des données, sans connaissance a priori. Elle est illustrée par des applications. Nous présentons également une contribution à la classification non supervisée de données qui se situe en amont du processus de classification proprement dit. Nous avons conçu une nouvelle façon de représenter les données et leurs liens à l'aide de la théorie des ensembles flous. Cette méthode permet, en classification, de traiter avec succès des échantillons de données dont les classes sont d'effectifs et de densités différents, sans faire d'a priori sur leur forme. Un algorithme de classification et des exemples de son application sont proposés. Ce travail présente deux contributions importantes aux problématiques de la visualisation et la classification, et fait intervenir des concepts issus de thématiques diverses comme l'analyse de données ou la théorie des ensembles flous. Il peut ainsi être utilisé dans d'autres contextes que celui de l'analyse d'images multicomposantes
The analysis of multicomponent images is a crucial problem. Visualization and clustering problem are two relevant questions about it. We decided to work in the more general frame of data analysis to answer to these questions. The preliminary step of this work is describing the problems induced by the dimensionality and studying the current dimensionality reduction methods. The visualization problem is then considered and a contribution is exposed. We propose a new method of visualization through color image that provides an immediate and sythetic image od data. Applications are presented. The second contribution lies upstream with the clustering procedure strictly speaking. We etablish a new kind of data representation by using rank transformation, fuzziness and agregation procedures. Its use inprove the clustering procedures by dealing with clusters with dissimilar density or variant effectives and by making them more robust. This work presents two important contributions to the field of data analysis applied to multicomponent image. The variety of the tools involved (originally from decision theory, uncertainty management, data mining or image processing) make the presented methods usable in many diversified areas as well as multicomponent images analysis
50

Kurtz, Camille. "Une approche collaborative segmentation - classification pour l'analyse descendante d'images multirésolutions." Phd thesis, Université de Strasbourg, 2012. http://tel.archives-ouvertes.fr/tel-00735217.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Depuis la fin des années 1990, les images optiques à très hautes résolutions spatiales issues de capteurs satellitaires sont de plus en plus accessibles par une vaste communauté d'utilisateurs. En particulier, différents systèmes satellitaires sont maintenant disponibles et produisent une quantité de données importante, utilisable pour l'observation de la Terre. En raison de cet important volume de données,les méthodes analytiques manuelles deviennent inadaptées pour un traitement efficace de ces données. Il devient donc crucial d'automatiser ces méthodes par des procédés informatiques, capables de traiter cette quantité de données hétérogènes.Dans le cadre de cette thèse, nos recherches se sont focalisées sur le développement de nouvelles approches basées régions (i.e., segmentation et classification) permettant l'extraction de plusieurs niveaux de connaissance et d'information à partir d'ensembles d'images à différentes résolutions spatiales. De telles images offrent en effet des vues différentes de la scène étudiée, ce qui peut permettre de faciliter l'extraction des objets d'intérêt. Ces derniers étant structurés sous la forme de hiérarchies d'objets complexes, nos travaux se sont naturellement tournés (1) vers l'utilisation d'approches de segmentation hiérarchique fournissant des ensembles de partitions de la scène à différents niveaux de détail et (2) vers l'intégration de connaissances de haut-niveau dans les processus de fouille de données. De manière plus générale, nous nous sommes intéressés à élaborer un outil informatique reposant sur une stratégie d'analyse descendante,similaire à celle d'un utilisateur, qui consiste à interpréter la scène en considérant, en premier lieu, les grandes zones composant les territoires (à partir des images aux résolutions les plus grossières) puis à affiner récursivement le niveau d'interprétation pour en extraire des zones plus spécialisées (à partir des images aux résolutions les plus fines).L'ensemble de ces travaux a été implanté dans une bibliothèque logicielle et validé dans le contexte de l'analyse d'environnements urbains à partir d'ensembles d'images multi résolutions.

To the bibliography