Dissertations / Theses: 'Détection non supervisée d'anomalies'

1

Mazel, Johan. "Détection non supervisée d'anomalies dans les réseaux de communication." Phd thesis, INSA de Toulouse, 2011. http://tel.archives-ouvertes.fr/tel-00667654.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La détection d'anomalies est une tâche critique de l'administration des réseaux. L'apparition continue de nouvelles anomalies et la nature changeante du trafic réseau compliquent de fait la détection d'anomalies. Les méthodes existantes de détection d'anomalies s'appuient sur une connaissance préalable du trafic : soit via des signatures créées à partir d'anomalies connues, soit via un profil de normalité. Ces deux approches sont limitées : la première ne peut détecter les nouvelles anomalies et la seconde requiert une constante mise à jour de son profil de normalité. Ces deux aspects limitent de façon importante l'efficacité des méthodes de détection existantes. Nous présentons une approche non-supervisée qui permet de détecter et caractériser les anomalies réseaux de façon autonome. Notre approche utilise des techniques de partitionnement afin d'identifier les flux anormaux. Nous proposons également plusieurs techniques qui permettent de traiter les anomalies extraites pour faciliter la tâche des opérateurs. Nous évaluons les performances de notre système sur des traces de trafic réel issues de la base de trace MAWI. Les résultats obtenus mettent en évidence la possibilité de mettre en place des systèmes de détection d'anomalies autonomes et fonctionnant sans connaissance préalable.

2

Jabiri, Fouad. "Applications de méthodes de classification non supervisées à la détection d'anomalies." Master's thesis, Université Laval, 2020. http://hdl.handle.net/20.500.11794/67914.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Dans ce présent mémoire, nous présenterons dans un premier temps l’algorithme d’arbres binaires de partitionnement et la forêt d’isolation. Les arbres binaires sont des classificateurs très populaires dans le domaine de l’apprentissage automatique supervisé. La forêt d’isolation appartient à la famille des méthodes non supervisées. Il s’agit d’un ensemble d’arbres binaires employés en commun pour isoler les instances qui semblent aberrantes ou anormales. Par la suite, nous présenterons l’approche que nous avons nommée "Exponential smoothig" (ou "pooling"). Cette technique consiste à encoder des séquences de variables de longueurs différentes en un seul vecteur de taille fixe. En effet, l’objectif de ce mémoire est d’appliquer l’algorithme des forêts d’isolation pour identifier les anomalies dans les réclamations et les formulaires d’assurances disponibles dans la base de données d’une grande compagnie d’assurances canadienne. Cependant, un formulaire est une séquence de réclamations. Chaque réclamation est caractérisée par un ensemble de variables. Ainsi, il serait impossible d’appliquer l’algorithme des forêts d’isolation directement sur ce genre de données. Pour cette raison, nous allons appliquer le pooling. Notre application parvient effectivement à isoler des réclamations et des formulaires anormaux. Nous constatons que ces derniers ont plus tendances à être audités parla compagnie que les formulaires normaux.
In this thesis, we will first present the binary tree partitioning algorithm and isolation forests. Binary trees are very popular classifiers in supervised machine learning. The isolation forest belongs to the family of unsupervised methods. It is an ensemble of binary trees used in common to isolate outlying instances. Subsequently, we will present the approach that we have named "Exponential smoothig" (or "pooling"). This technique consists in encoding sequences of variables of different lengths into a single vector of fixed size. Indeed, the objective of this thesis is to apply the algorithm of isolation forests to identify anomalies in insurance claim forms available in the database of a large Canadian insurance company in order to detect cases of fraud. However, a form is a sequence of claims. Each claim is characterized by a set of variables and thus it will be impossible to apply the isolation forest algorithm directly to this kind of data. It is for this reason that we are going to apply Exponential smoothing. Our application effectively isolates claims and abnormal forms, and we find that the latter tend to be audited by the company more often than regular forms.

3

Mazel, Johan. "Unsupervised network anomaly detection." Thesis, Toulouse, INSA, 2011. http://www.theses.fr/2011ISAT0024/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La détection d'anomalies est une tâche critique de l'administration des réseaux. L'apparition continue de nouvelles anomalies et la nature changeante du trafic réseau compliquent de fait la détection d'anomalies. Les méthodes existantes de détection d'anomalies s'appuient sur une connaissance préalable du trafic : soit via des signatures créées à partir d'anomalies connues, soit via un profil de normalité. Ces deux approches sont limitées : la première ne peut détecter les nouvelles anomalies et la seconde requiert une constante mise à jour de son profil de normalité. Ces deux aspects limitent de façon importante l'efficacité des méthodes de détection existantes.Nous présentons une approche non-supervisée qui permet de détecter et caractériser les anomalies réseaux de façon autonome. Notre approche utilise des techniques de partitionnement afin d'identifier les flux anormaux. Nous proposons également plusieurs techniques qui permettent de traiter les anomalies extraites pour faciliter la tâche des opérateurs. Nous évaluons les performances de notre système sur des traces de trafic réel issues de la base de trace MAWI. Les résultats obtenus mettent en évidence la possibilité de mettre en place des systèmes de détection d'anomalies autonomes et fonctionnant sans connaissance préalable
Anomaly detection has become a vital component of any network in today’s Internet. Ranging from non-malicious unexpected events such as flash-crowds and failures, to network attacks such as denials-of-service and network scans, network traffic anomalies can have serious detrimental effects on the performance and integrity of the network. The continuous arising of new anomalies and attacks create a continuous challenge to cope with events that put the network integrity at risk. Moreover, the inner polymorphic nature of traffic caused, among other things, by a highly changing protocol landscape, complicates anomaly detection system's task. In fact, most network anomaly detection systems proposed so far employ knowledge-dependent techniques, using either misuse detection signature-based detection methods or anomaly detection relying on supervised-learning techniques. However, both approaches present major limitations: the former fails to detect and characterize unknown anomalies (letting the network unprotected for long periods) and the latter requires training over labeled normal traffic, which is a difficult and expensive stage that need to be updated on a regular basis to follow network traffic evolution. Such limitations impose a serious bottleneck to the previously presented problem.We introduce an unsupervised approach to detect and characterize network anomalies, without relying on signatures, statistical training, or labeled traffic, which represents a significant step towards the autonomy of networks. Unsupervised detection is accomplished by means of robust data-clustering techniques, combining Sub-Space clustering with Evidence Accumulation or Inter-Clustering Results Association, to blindly identify anomalies in traffic flows. Correlating the results of several unsupervised detections is also performed to improve detection robustness. The correlation results are further used along other anomaly characteristics to build an anomaly hierarchy in terms of dangerousness. Characterization is then achieved by building efficient filtering rules to describe a detected anomaly. The detection and characterization performances and sensitivities to parameters are evaluated over a substantial subset of the MAWI repository which contains real network traffic traces.Our work shows that unsupervised learning techniques allow anomaly detection systems to isolate anomalous traffic without any previous knowledge. We think that this contribution constitutes a great step towards autonomous network anomaly detection.This PhD thesis has been funded through the ECODE project by the European Commission under the Framework Programme 7. The goal of this project is to develop, implement, and validate experimentally a cognitive routing system that meet the challenges experienced by the Internet in terms of manageability and security, availability and accountability, as well as routing system scalability and quality. The concerned use case inside the ECODE project is network anomaly

4

Cherdo, Yann. "Détection d'anomalie non supervisée sur les séries temporelle à faible coût énergétique utilisant les SNNs." Electronic Thesis or Diss., Université Côte d'Azur, 2024. http://www.theses.fr/2024COAZ4018.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Dans le cadre de la maintenance prédictive du constructeur automobile Renault, cette thèse vise à fournir des solutions à faible coût énergétique pour la détection non supervisée d'anomalies sur des séries temporelles. Avec l'évolution récente de l'automobile, de plus en plus de données sont produites et doivent être traitées par des algorithmes d'apprentissage automatique. Ce traitement peut être effectué dans le cloud ou directement à bord de la voiture. Dans un tel cas, la bande passante du réseau, les coûts des services cloud, la gestion de la confidentialité des données et la perte de données peuvent être économisés. L'intégration d'un modèle d'apprentissage automatique dans une voiture est un défi car elle nécessite des modèles frugaux en raison des contraintes de mémoire et de calcul. Dans ce but, nous étudions l'utilisation de réseaux de neurones impulsionnels (SNN) pour la detection d'anomalies, la prédiction et la classification sur des séries temporelles. Les performances et les coûts énergétiques des modèles d'apprentissage automatique sont évalués dans un scénario Edge à l'aide de modèles matériels génériques qui prennent en compte tous les coûts de calcul et de mémoire. Pour exploiter autant que possible l'activité neuronale parcimonieuse des SNN, nous proposons un modèle avec des connexions peu denses et entraînables qui consomme la moitié de l'énergie de sa version dense. Ce modèle est évalué sur des benchmarks publics de détection d'anomalies, un cas d'utilisation réel de détection d'anomalies sur les voitures de Renault Alpine, les prévisions météorologiques et le dataset Google Speech Command. Nous comparons également ses performances avec d'autres modèles d'apprentissage automatique existants. Nous concluons que, pour certains cas d'utilisation, les modèles SNN peuvent atteindre les performances de l'état de l'art tout en consommant 2 à 8 fois moins d'énergie. Pourtant, d'autres études devraient être entreprises pour évaluer ces modèles une fois embarqués dans une voiture. Inspirés par les neurosciences, nous soutenons que d'autres propriétés bio-inspirées telles que l'attention, l'activité parcimonieuse, la hiérarchie ou la dynamique des assemblées de neurons pourraient être exploités pour obtenir une meilleure efficacité énergétique et de meilleures performances avec des modèles SNN. Enfin, nous terminons cette thèse par un essai à la croisée des neurosciences cognitives, de la philosophie et de l'intelligence artificielle. En plongeant dans les difficultés conceptuelles liées à la conscience et en considérant les mécanismes déterministes de la mémoire, nous soutenons que la conscience et le soi pourraient être constitutivement indépendants de la mémoire. L'objectif de cet essai est de questionner la nature de l'humain par opposition à celle des machines et de l'IA
In the context of the predictive maintenance of the car manufacturer Renault, this thesis aims at providing low-power solutions for unsupervised anomaly detection on time-series. With the recent evolution of cars, more and more data are produced and need to be processed by machine learning algorithms. This processing can be performed in the cloud or directly at the edge inside the car. In such a case, network bandwidth, cloud services costs, data privacy management and data loss can be saved. Embedding a machine learning model inside a car is challenging as it requires frugal models due to memory and processing constraints. To this aim, we study the usage of spiking neural networks (SNNs) for anomaly detection, prediction and classification on time-series. SNNs models' performance and energy costs are evaluated in an edge scenario using generic hardware models that consider all calculation and memory costs. To leverage as much as possible the sparsity of SNNs, we propose a model with trainable sparse connections that consumes half the energy compared to its non-sparse version. This model is evaluated on anomaly detection public benchmarks, a real use-case of anomaly detection from Renault Alpine cars, weather forecasts and the google speech command dataset. We also compare its performance with other existing SNN and non-spiking models. We conclude that, for some use-cases, spiking models can provide state-of-the-art performance while consuming 2 to 8 times less energy. Yet, further studies should be undertaken to evaluate these models once embedded in a car. Inspired by neuroscience, we argue that other bio-inspired properties such as attention, sparsity, hierarchy or neural assemblies dynamics could be exploited to even get better energy efficiency and performance with spiking models. Finally, we end this thesis with an essay dealing with cognitive neuroscience, philosophy and artificial intelligence. Diving into conceptual difficulties linked to consciousness and considering the deterministic mechanisms of memory, we argue that consciousness and the self could be constitutively independent from memory. The aim of this essay is to question the nature of humans by contrast with the ones of machines and AI

5

Barreyre, Clementine. "Statistiques en grande dimension pour la détection d'anomalies dans les données fonctionnelles issues des satellites." Thesis, Toulouse, INSA, 2018. http://www.theses.fr/2018ISAT0009/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Ce travail de thèse consiste au développement de méthodes statistiques pour détecter des com- portements anormaux dans les données fonctionnelles que produit le satellite tout au long de sa vie. Un premier travail a été de comprendre comment mettre en évidence les anomalies grâce à des projections sur des bases de fonctions. En complément de cette revue des projections, nous avons appliqué plusieurs méthodes de détection d’anomalies, telles que la One-Class SVM et le Local Outlier Factor (LOF). En plus de ces deux méthodes, nous avons développé notre propre méthode pour prendre en compte la saisonnalité des courbes que nous considérons. En se basant sur cette étude, nous avons développé une nouvelle procédure pour sélectionner automatiquement les coefficients les plus intéressants pour la détection d’anomalies dans un cadre semi-supervisé. Notre méthode est une procédure de tests multiples où nous appliquons un test à deux échantillons à tous les niveaux de coefficients. Nous nous sommes également intéressés aux covariances des télémesures entre elles pour la détection d’anomalies. Pour cela, nous cherchons à comparer les covariances entre un groupe de télémesures pour deux journées, ou périodes consécutives. Nous avons appliqué trois tests sta- tistiques ayant des angles d’approche différents. Nous avons également développé dans ce but un nouveau test asymptotique. Outre la démonstration de la convergence de notre test, nous démontrons par des exemples que ce test est dans la pratique le plus puissant sur les données dont nous disposons. Dans cette thèse, nous avons abordé plusieurs aspects de la détection d’anomalies dans les données fonctionnelles issues des satellites. Pour chacune des méthodes, nous avons pu détecter toutes les anomalies, améliorant sensiblement le taux de fausses alarmes
In this PhD, we have developed statistical methods to detect abnormal events in all the functional data produced by the satellite all through its lifecycle. The data we are dealing with come from two main phases in the satellite’s life, telemetries and test data. A first work on this thesis was to understand how to highlight the outliers thanks to projections onto functional bases. On these projections, we have also applied several outlier detection methods, such as the One-Class SVM, the Local Outlier Factor (LOF). In addition to these two methods, we have developed our own outlier detection method, by taking into account the seasonality of the data we consider. Based on this study, we have developed an original procedure to select automatically the most interesting coefficients in a semi-supervised framework for the outlier detection, from a given projection. Our method is a multiple testing procedure where we apply the two sample-test to all the levels of coefficients.We have also chosen to analyze the covariance matrices representing the covariance of the te- lemetries between themselves for the outlier detection in multivariate data. In this purpose, we are comparing the covariance of a cluster of several telemetries deriving from two consecutive days, or consecutive orbit periods. We have applied three statistical tests targeting this same issue with different approaches. We have also developed an original asymptotic test, inspired by both first tests. In addition to the proof of the convergence of this test, we demonstrate thanks to examples that this new test is the most powerful. In this PhD, we have tackled several aspects of the anomaly detection in the functional data deriving from satellites. For each of these methods, we have detected all the major anomalies, improving significantly the false discovery rate

6

Boussik, Amine. "Apprentissage profond non-supervisé : Application à la détection de situations anormales dans l’environnement du train autonome." Electronic Thesis or Diss., Valenciennes, Université Polytechnique Hauts-de-France, 2023. http://www.theses.fr/2023UPHF0040.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La thèse aborde les défis du monitoring de l’environnement et de détection des anomalies, notamment des obstacles, pour un train de fret autonome. Bien que traditionnellement, les transports ferroviaires étaient sous la supervision humaine, les trains autonomes offrent des perspectives d’avantages en termes de coûts, de temps et de sécurité. Néanmoins, leur exploitation dans des environnements complexes pose d’importants enjeux de sûreté. Au lieu d’une approche supervisée nécessitant des données annotées onéreuses et limitées, cette recherche adopte une technique non supervisée, utilisant des données non étiquetées pour détecter les anomalies en s’appuyant sur des techniques capables d’identifier les comportements atypiques.Deux modèles de surveillance environnementale sont présentés : le premier, basé sur un autoencodeur convolutionnel (CAE), est dédié à l’identification d’obstacles sur la voie principale; le second, une version avancée incorporant le transformeur de vision (ViT), se concentre sur la surveillance générale de l’environnement. Tous deux exploitent des techniques d’apprentissage non supervisé pour la détection d’anomalies.Les résultats montrent que la méthode mise en avant apporte des éléments pertinents pour le monitoring de l’environnement du train de fret autonome, ayant un potentiel pour renforcer sa fiabilité et sécurité. L’utilisation de techniques non supervisées démontre ainsi l’utilité et la pertinence de leur adoption dans un contexte d’application pour le train autonome
The thesis addresses the challenges of monitoring the environment and detecting anomalies, especially obstacles, for an autonomous freight train. Although traditionally, rail transport was under human supervision, autonomous trains offer potential advantages in terms of costs, time, and safety. However, their operation in complex environments poses significant safety concerns. Instead of a supervised approach that requires costly and limited annotated data, this research adopts an unsupervised technique, using unlabeled data to detect anomalies based on methods capable of identifying atypical behaviors.Two environmental surveillance models are presented : the first, based on a convolutional autoencoder (CAE), is dedicated to identifying obstacles on the main track; the second, an advanced version incorporating the vision transformer (ViT), focuses on overall environmental surveillance. Both employ unsupervised learning techniques for anomaly detection.The results show that the highlighted method offers relevant insights for monitoring the environment of the autonomous freight train, holding potential to enhance its reliability and safety. The use of unsupervised techniques thus showcases the utility and relevance of their adoption in an application context for the autonomous train

7

Truong, Thi Bich Thanh. "Home Automation Monitoring for Assisted Living Services and Healthcare." Lorient, 2010. http://www.theses.fr/2010LORIS204.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Avec le développement des technologies de l’information et de la communication, les logements individuels et collectifs sont de plus en plus souvent équipés de solutions domotiques dont le coût décroît, augmentant ainsi le niveau de confort des habitants. Il en résulte de nombreux challenges mais aussi opportunités concernant les soins de santé et les services d’assistance pour les personnes dépendantes, qu’elles soient handicapées ou âgées. La domotique est une technologie simple d’utilisation et par ailleurs nous observons que la maîtrise des technologies de l’information progresse rapidement parmi les populations âgées. Les personnes dépendantes peuvent donc bénéficier de ces technologies pour compenser leurs handicaps et ainsi continuer à vivre mieux et plus longtemps chez elles. Outre l’intérêt économique, les statistiques montrent que le maintien à domicile est un critère favorisant l’autonomie et l’espérance de vie. Il en est de même pour les personnes handicapées qui souhaitent augmenter leur degré d’autonomie à travers l’utilisation de systèmes domotiques. Les services d’aide aux personnes en situation de handicap deviennent dès lors l’objet d’enjeux économiques et sociaux importants qui imposent de faire évoluer les systèmes de santé pour répondre à ces besoins grandissants. Dans ce contexte, les travaux de cette thèse visent à apporter une nouvelle contribution à l’assistance technique des personnes dépendantes à domicile. L’idée originale de notre approche réside dans le fait que les systèmes domotiques et multimédias existants apportent des informations suffisamment pertinentes pour être utilisées en tant que capteurs pour une télésurveillance, légère et peu intrusive, d’une personne à domicile. À travers l’analyse des habitudes de l’utilisateur, notre approche comprend deux étapes originales. Dans une première étape, nous réalisons une identification automatique de scénarios. La solution proposée repose sur une combinaison d’algorithmes de fouille de données (data mining), d’intelligence artificielle, de théorie des graphes et de recherche opérationnelle pour proposer des scénarios d’usage qui soient adaptés à la capacité motrice de l’utilisateur en lui facilitant l’accès aux services. Un scénario d’usage est une suite d’activations automatiques (ou pas à pas) de services multimédias et domotiques. Dans une deuxième étape, les informations de ces capteurs fictifs sont utilisées pour la gestion d’alertes qui s’appuie sur la détection automatique d’anomalies. Une anomalie correspond à une déviation par rapport à certaines habitudes de vie de la personne, ces habitudes sont une suite d’activités domotiques automatiquement identifiées comme très fortement probables et clairement caractérisées. Ces deux étapes permettent de proposer une télésurveillance à domicile non intrusive, simple à mettre en œuvre et peu coûteuse. Elle permet aux personnes en situation de handicap d’une part de retrouver un certain degré d’autonomie à travers la proposition automatique de services et d’autre part de gagner en confiance au sein d’un environnement plus simplement contrôlable et qui en quelque sorte peut veiller sur elles au travers de la notification d’alertes détectant les anomalies. Un simulateur, intégrant tous les modèles élaborés, a été développé dans une première phase pour la génération de la base de données de l’utilisateur, évitant ainsi l’attente de quelques mois d’observation. Ces données de simulation nous permettent de développer, régler, tester et évaluer différentes stratégies pour notre approche, avant de l’appliquer dans un contexte réel. Ensuite, une expérimentation, sur le site de Kerpape, a été mise en œuvre via l’enregistrement des signaux infrarouges et sur l’utilisation de systèmes domotiques et multimédias. Les résultats de ces données réelles nous permettent d’évaluer la performance ainsi que l’efficacité de notre solution. Une méthodologie simple de mise en œuvre a été proposée. Elle inclut dans la boucle l’utilisateur ainsi que les ergothérapeutes et le personnel médical qui doivent valider les scénarios ainsi que les alertes proposées et évaluées par le système. Le déploiement simple est aussi un point fort de l’approche dans le contexte de l’assistance à domicile. Le capteur étant le système domotique lui-même, l’installation est uniquement logicielle. Elle repose sur la définition de services Web génériques avec un nombre limité de paramètres à destination des différents utilisateurs. Ce travail s’inscrit dans le cadre de la collaboration entre le Lab-STICC, l’UBS et le centre de Kerpape, il se prolongera par la mise en œuvre de l’approche au sein des futures installations domotiques
With the development of technology and information, there are more and more opportunities and challenges for healthcare and assistance services for disabled people as well as the elderly. In this context, this PhD work proposes and demonstrates a new solution for home monitoring. Our approach is based on the idea that existing home automation and multimedia services provide some relevant information to be used as available sensors for remote monitoring. Through the analysis of user habits, our work includes two steps. In the first step, we automate a scenario identification, based on a combination of data mining, AI, graph theory and operational research algorithms to offer scenarios self adapting to user capabilities, while facilitating user access to the services. In the second step, this sensor information is used for alert management based on the anomaly detection, meaning a deviation of usual habits. These two steps provide a low level and non-intrusive personal monitoring while giving people more autonomy and confidence in their environments. A simulation model is developed in a first stage for the generation of user database without waiting for months monitoring user activities. This simulation data allows us to develop, tune and evaluate different aspects of our approach, before being applied in a real context. Then an experimentation through the IR recording is realized to monitor the user activities. The results of these real data allow us to evaluate the performance as well as the efficiency of our solution

8

Pantin, Jérémie. "Détection et caractérisation sémantique de données textuelles aberrantes." Electronic Thesis or Diss., Sorbonne université, 2023. https://accesdistant.sorbonne-universite.fr/login?url=https://theses-intra.sorbonne-universite.fr/2023SORUS347.pdf.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L'apprentissage automatique répond au problème du traitement de tâches spécifiques pour une grande variété de données. Ces algorithmes peuvent être simples ou difficiles à mettre en place, et c'est par ailleurs le même constat qui peut être fait pour les données. Les données de faible dimension (2 ou 3 dimensions) avec une représentation intuitive (ex. moyenne du prix des baguette par années) sont plus faciles à interpréter/expliquer pour un humain que les données avec des milliers de dimensions. Pour les données à faible dimension, une donnée aberrantes conduit souvent à un décalage conséquent par rapport aux données normales, mais pour le cas des données à haute dimension, c'est différent. La détection des données aberrantes (ou détection d'anomalie, ou détection de nouveauté) est l'étude des observations singulières pour détecter ce qui est normal et anormal. Différentes familles d'approches peuvent être trouvées dans la littérature sur la détection des aberrations. Elles effectuent une analyse des valeurs aberrantes en détectant les comportements principaux de la majorité des observations. Ainsi, les données qui diffèrent de la distribution normale sont considérées comme bruit ou aberration. Nous nous intéressons à l'application de cette tâche au texte. Malgré les progrès récents dans le traitement du langage naturel il est difficile pour une machine de traiter certains contextes. Par exemple, la phrase "Un sourire est une courbe qui redresse tout" a plusieurs niveaux de compréhension, et une machine peut rencontrer des difficultés pour choisir le bon niveau de lecture. Cette thèse présente l'analyse des valeurs aberrantes de haute dimension, appliquée au texte. Peu de travaux s'intéressent à ce contexte précis et nous introduisons un formalisme dédié. Nous abordons également les méthodes d'ensemble qui sont quasiment inexistantes dans la littérature pour notre contexte. Enfin, nous pouvons voir que l'application de la détection de valeurs aberrantes amène des améliorations sur le résumé de texte automatique par abstraction. Dans nos travaux, nous proposons GenTO, une méthode qui prépare et génère un fractionnement des données dans lequel sont insérées des anomalies et des valeurs aberrantes. Sur la base de cette méthode, nous proposons une évaluation et un benchmark des approches de détection de valeurs aberrantes avec des documents. En outre, l'apprentissage sans supervision conduit souvent les modèles à se fier à certains hyperparamètres. À cet égard, nous explorons l'influence de ce genre de paramètre pour les données textuelles. Alors que le choix d'un seul modèle peut entraîner un biais évident par rapport aux données du monde réel, les méthodes d'ensemble permettent d'atténuer ce problème. Elles sont particulièrement efficaces pour l'analyse des valeurs aberrantes. En effet, la sélection de plusieurs valeurs pour un hyperparamètre peut aider à détecter des valeurs aberrantes fortes. L'importance est alors abordée et peut aider un humain à comprendre la sortie d'un modèle boîte noire. Ainsi, l'interprétabilité des modèles de détection de valeurs aberrantes est remise en question. L'association de modèles complets et de modèles restreints permet d'atténuer l'effet boîte noire de certaines approches. Dans certains cas, la détection des aberrations fait référence à la suppression du bruit ou à la détection des anomalies. Certaines applications peuvent bénéficier de la caractéristique d'une telle tâche. La détection des spams et des fake news en est un exemple, mais nous proposons d'utiliser les approches de détection des aberrations pour l'exploration des signaux faibles dans un projet de marketing (par exemple). Ainsi, nous observons que les modèles de la littérature aident à améliorer les approches de résumé de texte par abstraction, sans supervision. Ceux-ci permettent également de trouver les signaux faibles dans le texte
Machine learning answers to the problem of handling dedicated tasks with a wide variety of data. Such algorithms can be either simple or difficult to handle depending of the data. Low dimensional data (2-dimension or 3-dimension) with an intuitive representation (average of baguette price by years) are easier to interpret/explain for a human than data with thousands of dimensions. For low dimensional data, the error leads to a significant shift against normal data, but for the case of high dimensional data it is different. Outlier detection (or anomaly detection, or novelty detection) is the study of outlying observations for detecting what is normal and abnormal. Methods that perform such task are algorithms, methods or models that are based on data distributions. Different families of approaches can be found in the literature of outlier detection, and they are mainly independent of ground truth. They perform outlier analysis by detecting the principal behaviors of majority of observations. Thus, data that differ from normal distribution are considered noise or outlier. We detail the application of outlier detection with text. Despite recent progress in natural language processing, computer still lack profound understanding of human language in absence of information. For instance, the sentence "A smile is a curve that set everything straight" has several levels of understanding and a machine can encounter hardship to chose the right level of lecture. This thesis presents the analysis of high-dimensional outliers, applied to text. Recent advances in anomaly detection and outlier detection are not significantly represented with text data and we propose to highlight the main differences with high-dimensional outliers. We also approach ensemble methods that are nearly nonexistent in the literature for our context. Finally, an application of outlier detection for elevate results on abstractive summarization is conducted. We propose GenTO, a method that prepares and generates split of data in which anomalies and outliers are inserted. Based on this method, evaluation and benchmark of outlier detection approaches is proposed with documents. The proposed taxonomy allow to identify difficult and hierarchised outliers that the literature tackles without knowing. Also, learning without supervision often leads models to rely in some hyperparameter. For instance, Local Outlier Factor relies to the k-nearest neighbors for computing the local density. Thus, choosing the right value for k is crucial. In this regard, we explore the influence of such parameter for text data. While choosing one model can leads to obvious bias against real-world data, ensemble methods allow to mitigate such problem. They are particularly efficient with outlier analysis. Indeed, the selection of several values for one hyperparameter can help to detect strong outliers.Importance is then tackled and can help a human to understand the output of black box model. Thus, the interpretability of outlier detection models is questioned. We find that for numerous dataset, a low number of features can be selected as oracle. The association of complete models and restrained models helps to mitigate the black-box effect of some approaches. In some cases, outlier detection refers to noise removal or anomaly detection. Some applications can benefit from the characteristic of such task. Mail spam detection and fake news detection are one example, but we propose to use outlier detection approaches for weak signal exploration in marketing project. Thus, we find that the model of the literature help to improve unsupervised abstractive summarization, and also to find weak signals in text

9

Audibert, Julien. "Unsupervised anomaly detection in time-series." Electronic Thesis or Diss., Sorbonne université, 2021. http://www.theses.fr/2021SORUS358.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La détection d'anomalies dans les séries temporelles multivariées est un enjeu majeur dans de nombreux domaines. La complexité croissante des systèmes et l'explosion de la quantité de données ont rendu son automatisation indispensable. Cette thèse propose une méthode non supervisée de détection d'anomalies dans les séries temporelles multivariées appelée USAD. Cependant, les méthodes de réseaux de neurones profonds souffrent d'une limitation dans leur capacité à extraire des caractéristiques des données puisqu'elles ne s'appuient que sur des informations locales. Afin d'améliorer les performances de ces méthodes, cette thèse présente une stratégie d'ingénierie des caractéristiques qui introduit des informations non-locales. Enfin, cette thèse propose une comparaison de seize méthodes de détection d'anomalies dans les séries temporelles pour comprendre si l'explosion de la complexité des méthodes de réseaux de neurones proposées dans les publications actuelles est réellement nécessaire
Anomaly detection in multivariate time series is a major issue in many fields. The increasing complexity of systems and the explosion of the amount of data have made its automation indispensable. This thesis proposes an unsupervised method for anomaly detection in multivariate time series called USAD. However, deep neural network methods suffer from a limitation in their ability to extract features from the data since they only rely on local information. To improve the performance of these methods, this thesis presents a feature engineering strategy that introduces non-local information. Finally, this thesis proposes a comparison of sixteen time series anomaly detection methods to understand whether the explosion in complexity of neural network methods proposed in the current literature is really necessary

10

Attal, Ferhat. "Classification de situations de conduite et détection des événements critiques d'un deux roues motorisé." Thesis, Paris Est, 2015. http://www.theses.fr/2015PEST1003/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L'objectif de cette thèse est de développer des outils d'analyse de données recueillies sur les deux roues motorisés (2RMs). Dans ce cadre, des expérimentations sont menées sur des motos instrumentés dans un contexte de conduite réelle incluant à la fois des conduites normales dites naturelles et des conduites à risques (presque chute et chute). Dans la première partie de la thèse, des méthodes d'apprentissage supervisé ont été utilisées pour la classification de situations de conduite d'un 2RM. Les approches développées dans ce contexte ont montré l'intérêt de prendre en compte l'aspect temporel des données dans la conduite d'un 2RM. A cet effet, nous avons montré l'efficacité des modèles de Markov cachés. La seconde partie de cette thèse porte sur le développement d'outils de détection et de classification hors ligne des évènements critiques de conduite, ainsi que, la détection en ligne des situations de chute d'un 2RM. L'approche proposée pour la détection hors ligne des évènements critiques de conduite repose sur l'utilisation d'un modèle de mélange de densités gaussiennes à proportions logistiques. Ce modèle sert à la segmentation non supervisée des séquences de conduite. Des caractéristiques extraites du paramètre du modèle de mélange sont utilisées comme entrées d'un classifieur pour classifier les évènements critiques. Pour la détection en ligne de chute, une méthode simple de détection séquentielle d'anomalies basée sur la carte de contrôle MCUSUM a été proposée. Les résultats obtenus sur une base de données réelle ont permis de montrer l'efficacité des méthodologies proposées à la fois pour la classification de situations de conduite et à la détection des évènements critiques de conduite
This thesis aims to develop framework tools for analyzing and understanding the riding of Powered Two Wheelers (PTW). Experiments are conducted using instrumented PTW in real context including both normal (naturalistic) riding behaviors and critical riding behaviors (near fall and fall). The two objectives of this thesis are the riding patterns classification and critical riding events detection. In the first part of this thesis, a machine-learning framework is used for riding pattern recognition problem. Therefore, this problem is formulated as a classification task to identify the class of riding patterns. The approaches developed in this context have shown the interest to take into account the temporal aspect of the data in PTW riding. Moreover, we have shown the effectiveness of hidden Markov models for such problem. The second part of this thesis focuses on the development of the off-line detection and classification of critical riding events tools and the on-line fall detection. The problem of detection and classification of critical riding events has been performed towards two steps: (1) the segmentation step, where the multidimensional time of data were modeled and segmented by using a mixture model with quadratic logistic proportions; (2) the classification step, which consists in using a pattern recognition algorithm in order to assign each event by its extracted features to one of the three classes namely Fall, near Fall and Naturalistic riding. Regarding the fall detection problem, it is formulated as a sequential anomaly detection problem. The Multivariate CUmulative SUM (MCUSUM) control chart was applied on the data collected from sensors mounted on the motorcycle. The obtained results on a real database have shown the effectiveness of the proposed methodology for both riding pattern recognition and critical riding events detection problems

11

Putina, Andrian. "Unsupervised anomaly detection : methods and applications." Electronic Thesis or Diss., Institut polytechnique de Paris, 2022. http://www.theses.fr/2022IPPAT012.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Une anomalie (également connue sous le nom de outlier) est une instance qui s'écarte de manière significative du reste des données et est définie par Hawkins comme "une observation, qui s'écarte tellement des autres observations qu'elle éveille les soupçons qu'il a été généré par un mécanisme différent". La détection d’anomalies (également connue sous le nom de détection de valeurs aberrantes ou de nouveauté) est donc le domaine de l’apprentissage automatique et de l’exploration de données dans le but d’identifier les instances dont les caractéristiques semblent être incohérentes avec le reste de l’ensemble de données. Dans de nombreuses applications, distinguer correctement l'ensemble des points de données anormaux (outliers) de l'ensemble des points normaux (inliers) s'avère très important. Une première application est le nettoyage des données, c'est-à-dire l'identification des mesures bruyantes et fallacieuses dans un ensemble de données avant d'appliquer davantage les algorithmes d'apprentissage. Cependant, avec la croissance explosive du volume de données pouvant être collectées à partir de diverses sources, par exemple les transactions par carte, les connexions Internet, les mesures de température, etc., l'utilisation de la détection d'anomalies devient une tâche autonome cruciale pour la surveillance continue des systèmes. Dans ce contexte, la détection d'anomalies peut être utilisée pour détecter des attaques d'intrusion en cours, des réseaux de capteurs défaillants ou des masses cancéreuses. La thèse propose d'abord une approche basée sur un collection d'arbres pour la détection non supervisée d'anomalies, appelée "Random Histogram Forest (RHF)". L'algorithme résout le problème de la dimensionnalité en utilisant le quatrième moment central (alias 'kurtosis') dans la construction du modèle en bénéficiant d'un temps d'exécution linéaire. Un moteur de détection d'anomalies basé sur le stream, appelé 'ODS', qui exploite DenStream, une technique de clustering non supervisée est présenté par la suite et enfin un moteur de détection automatisée d'anomalies qui allège l'effort humain requis lorsqu'il s'agit de plusieurs algorithmes et hyper-paramètres est présenté en dernière contribution
An anomaly (also known as outlier) is an instance that significantly deviates from the rest of the input data and being defined by Hawkins as 'an observation, which deviates so much from other observations as to arouse suspicions that it was generated by a different mechanism'. Anomaly detection (also known as outlier or novelty detection) is thus the machine learning and data mining field with the purpose of identifying those instances whose features appear to be inconsistent with the remainder of the dataset. In many applications, correctly distinguishing the set of anomalous data points (outliers) from the set of normal ones (inliers) proves to be very important. A first application is data cleaning, i.e., identifying noisy and fallacious measurement in a dataset before further applying learning algorithms. However, with the explosive growth of data volume collectable from various sources, e.g., card transactions, internet connections, temperature measurements, etc. the use of anomaly detection becomes a crucial stand-alone task for continuous monitoring of the systems. In this context, anomaly detection can be used to detect ongoing intrusion attacks, faulty sensor networks or cancerous masses.The thesis proposes first a batch tree-based approach for unsupervised anomaly detection, called 'Random Histogram Forest (RHF)'. The algorithm solves the curse of dimensionality problem using the fourth central moment (aka kurtosis) in the model construction while boasting linear running time. A stream based anomaly detection engine, called 'ODS', that leverages DenStream, an unsupervised clustering technique is presented subsequently and finally Automated Anomaly Detection engine which alleviates the human effort required when dealing with several algorithm and hyper-parameters is presented as last contribution

12

Alaverdyan, Zaruhi. "Unsupervised representation learning for anomaly detection on neuroimaging. Application to epilepsy lesion detection on brain MRI." Thesis, Lyon, 2019. http://www.theses.fr/2019LYSEI005/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette étude vise à développer un système d’aide au diagnostic (CAD) pour la détection de lésions épileptogènes, reposant sur l’analyse de données de neuroimagerie, notamment, l’IRM T1 et FLAIR. L’approche adoptée, introduite précédemment par Azami et al., 2016, consiste à placer la tâche de détection dans le cadre de la détection de changement à l'échelle du voxel, basée sur l’apprentissage d’un modèle one-class SVM pour chaque voxel dans le cerveau. L'objectif principal de ce travail est de développer des mécanismes d’apprentissage de représentations, qui capturent les informations les plus discriminantes à partir de l’imagerie multimodale. Les caractéristiques manuelles ne sont pas forcément les plus pertinentes pour la tâche visée. Notre première contribution porte sur l'intégration de différents réseaux profonds non-supervisés, pour extraire des caractéristiques dans le cadre du problème de détection de changement. Nous introduisons une nouvelle configuration des réseaux siamois, mieux adaptée à ce contexte. Le système CAD proposé a été évalué sur l’ensemble d’images IRM T1 des patients atteints d'épilepsie. Afin d'améliorer la performance obtenue, nous avons proposé d'étendre le système pour intégrer des données multimodales qui possèdent des informations complémentaires sur la pathologie. Notre deuxième contribution consiste donc à proposer des stratégies de combinaison des différentes modalités d’imagerie dans un système pour la détection de changement. Ce système multimodal a montré une amélioration importante sur la tâche de détection de lésions épileptogènes sur les IRM T1 et FLAIR. Notre dernière contribution se focalise sur l'intégration des données TEP dans le système proposé. Etant donné le nombre limité des images TEP, nous envisageons de synthétiser les données manquantes à partir des images IRM disponibles. Nous démontrons que le système entraîné sur les données réelles et synthétiques présente une amélioration importante par rapport au système entraîné sur les images réelles uniquement
This work represents one attempt to develop a computer aided diagnosis system for epilepsy lesion detection based on neuroimaging data, in particular T1-weighted and FLAIR MR sequences. Given the complexity of the task and the lack of a representative voxel-level labeled data set, the adopted approach, first introduced in Azami et al., 2016, consists in casting the lesion detection task as a per-voxel outlier detection problem. The system is based on training a one-class SVM model for each voxel in the brain on a set of healthy controls, so as to model the normality of the voxel. The main focus of this work is to design representation learning mechanisms, capturing the most discriminant information from multimodality imaging. Manual features, designed to mimic the characteristics of certain epilepsy lesions, such as focal cortical dysplasia (FCD), on neuroimaging data, are tailored to individual pathologies and cannot discriminate a large range of epilepsy lesions. Such features reflect the known characteristics of lesion appearance; however, they might not be the most optimal ones for the task at hand. Our first contribution consists in proposing various unsupervised neural architectures as potential feature extracting mechanisms and, eventually, introducing a novel configuration of siamese networks, to be plugged into the outlier detection context. The proposed system, evaluated on a set of T1-weighted MRIs of epilepsy patients, showed a promising performance but a room for improvement as well. To this end, we considered extending the CAD system so as to accommodate multimodality data which offers complementary information on the problem at hand. Our second contribution, therefore, consists in proposing strategies to combine representations of different imaging modalities into a single framework for anomaly detection. The extended system showed a significant improvement on the task of epilepsy lesion detection on T1-weighted and FLAIR MR images. Our last contribution focuses on the integration of PET data into the system. Given the small number of available PET images, we make an attempt to synthesize PET data from the corresponding MRI acquisitions. Eventually we show an improved performance of the system when trained on the mixture of synthesized and real images

13

Ait, Saada Mira. "Unsupervised learning from textual data with neural text representations." Electronic Thesis or Diss., Université Paris Cité, 2023. http://www.theses.fr/2023UNIP7122.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L'ère du numérique génère des quantités énormes de données non structurées telles que des images et des documents, nécessitant des méthodes de traitement spécifiques pour en tirer de la valeur. Les données textuelles présentent une difficulté supplémentaire car elles ne contiennent pas de valeurs numériques. Les plongements de mots sont des techniques permettant de transformer automatiquement du texte en données numériques, qui permettent aux algorithmes d'apprentissage automatique de les traiter. Les tâches non-supervisées sont un enjeu majeur dans l'industrie car elles permettent de créer de la valeur à partir de grandes quantités de données sans nécessiter une labellisation manuelle coûteuse. Cette thèse explore l'utilisation des modèles Transformeurs pour les tâches non-supervisées telles que la classification automatique, la détection d'anomalies et la visualisation de données. Elle propose également des méthodologies pour exploiter au mieux les modèles Transformeurs multicouches dans un contexte non-supervisé pour améliorer la qualité et la robustesse du clustering de documents tout en s'affranchissant du choix de la couche à utiliser et du nombre de classes. En outre, la thèse examine les méthodes de transfert d'apprentissage pour améliorer la qualité des modèles Transformeurs pré-entraînés sur une autre tâche en les utilisant pour la tâche de clustering. Par ailleurs, nous investiguons plus profondément dans cette thèse les modèles de langage "Transformers" et leur application au clustering en examinant en particulier les méthodes de transfert d'apprentissage qui consistent à réapprendre des modèles pré-entraînés sur une tâche différente afin d'améliorer leur qualité pour de futures tâches. Nous démontrons par une étude empirique que les méthodes de post-traitement basées sur la réduction de dimension sont plus avantageuses que les stratégies de réapprentissage proposées dans la littérature pour le clustering. Enfin, nous proposons un nouveau cadre de détection d'anomalies textuelles en français adapté à deux cas : celui où les données concernent une thématique précise et celui où les données ont plusieurs sous-thématiques. Dans les deux cas, nous obtenons des résultats supérieurs à l'état de l'art avec un temps de calcul nettement inférieur
The digital era generates enormous amounts of unstructured data such as images and documents, requiring specific processing methods to extract value from them. Textual data presents an additional challenge as it does not contain numerical values. Word embeddings are techniques that transform text into numerical data, enabling machine learning algorithms to process them. Unsupervised tasks are a major challenge in the industry as they allow value creation from large amounts of data without requiring costly manual labeling. In thesis we explore the use of Transformer models for unsupervised tasks such as clustering, anomaly detection, and data visualization. We also propose methodologies to better exploit multi-layer Transformer models in an unsupervised context to improve the quality and robustness of document clustering while avoiding the choice of which layer to use and the number of classes. Additionally, we investigate more deeply Transformer language models and their application to clustering, examining in particular transfer learning methods that involve fine-tuning pre-trained models on a different task to improve their quality for future tasks. We demonstrate through an empirical study that post-processing methods based on dimensionality reduction are more advantageous than fine-tuning strategies proposed in the literature. Finally, we propose a framework for detecting text anomalies in French adapted to two cases: one where the data concerns a specific topic and the other where the data has multiple sub-topics. In both cases, we obtain superior results to the state of the art with significantly lower computation time

14

Huck, Alexis. "Analyse non-supervisée d’images hyperspectrales : démixage linéaire et détection d’anomalies." Aix-Marseille 3, 2009. http://www.theses.fr/2009AIX30036.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse explore deux axes de recherche pour l'analyse non-supervisée d'Images HyperSpectrales (HSIs). Sous l'hypothèse du modèle de mélange linéaire de spectres, nous abordons d'abord la problématique du démixage par Factorisation en Matrices Non-négatives (NMF). D'une part, nous proposons de régulariser le problème en intégrant de l'information a priori spectrale et spatiale judicieuse, spécifique aux HSIs. D'autre part, nous proposons un estimateur du pas optimal pour la descente de gradient projeté. Nous montrons ainsi que, correctement régularisée, la NMF est un outil pertinent pour le démixage d'HSIs. Puis, nous explorons la problématique de la détection d'anomalies. Nous proposons un algorithme de Poursuite de Composantes Anormales (PCA), basé simultanément sur la poursuite de projections et sur un modèle probabiliste avec test d'hypothèses. Ainsi, la PCA détecte les anomalies à taux de fausse alarme constant et les discrimine en classes spectralement homogènes
This thesis focusses on two research fields regarding unsupervised analysis of hyperspectral images (HSIs). Under the assumptions of the linear spectral mixing model, the formalism of Non-Negative Matrix Factorization is investigated for unmixing purposes. We propose judicious spectral and spatial a priori knowledge to regularize the problem. In addition, we propose an estimator for the projected gradient optimal step-size. Thus, suitably regularized NMF is shown to be a relevant approach to unmix HSIs. Then, the problem of anomaly detection is considered. We propose an algorithm for Anomalous Component Pursuit (ACP), simultaneously based on projection pursuit and on a probabilistic model and hypothesis testing. ACP detects the anomalies with a constant false alarm rate and discriminates them into spectrally homogeneous classes

15

Benammar, Riyadh. "Détection non-supervisée de motifs dans les partitions musicales manuscrites." Thesis, Lyon, 2019. http://www.theses.fr/2019LYSEI112.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse s'inscrit dans le contexte de la fouille de données appliquées aux partitions musicales manuscrites anciennes et vise une recherche de motifs mélodiques ou rythmiques fréquents définis comme des séquences de notes répétitives aux propriétés caractéristiques. On rencontre un grand nombre de déclinaisons possibles de motifs : les transpositions, les inversions et les motifs dits « miroirs ». Ces motifs permettent aux musicologues d'avoir un niveau d'analyse approfondi sur les œuvres d'un compositeur ou d'un style musical. Dans un contexte d'exploration de corpus de grande taille où les partitions sont juste numérisées et non transcrites, une recherche automatisée de motifs vérifiant des contraintes ciblées devient un outil indispensable à leur étude. Pour la réalisation de l'objectif de détection de motifs fréquents sans connaissance a priori, nous sommes partis d'images de partitions numérisées. Après des étapes de prétraitements sur l'image, nous avons exploité et adapté un modèle de détection et de reconnaissance de primitives musicales (tête de notes, hampes...) de la famille de réseaux de neurones à convolutions de type Region-Proposal CNN (RPN). Nous avons ensuite développé une méthode d'encodage de primitives pour générer une séquence de notes en évitant la tâche complexe de transcription complète de l'œuvre manuscrite. Cette séquence a ensuite été analysée à travers l'approche CSMA (Contraint String Mining Algorithm) que nous avons conçue pour détecter les motifs fréquents présents dans une ou plusieurs séquences avec une prise en compte de contraintes sur leur fréquence et leur taille, ainsi que la taille et le nombre de sauts autorisés (gaps) à l'intérieur des motifs. La prise en compte du gap a ensuite été étudiée pour contourner les erreurs de reconnaissance produites par le réseau RPN évitant ainsi la mise en place d'un système de post-correction des erreurs de transcription des partitions. Le travail a été finalement validé par l'étude des motifs musicaux pour des applications d'identification et de classification de compositeurs
This thesis is part of the data mining applied to ancient handwritten music scores and aims at a search for frequent melodic or rhythmic motifs defined as repetitive note sequences with characteristic properties. There are a large number of possible variations of motifs: transpositions, inversions and so-called "mirror" motifs. These motifs allow musicologists to have a level of in-depth analysis on the works of a composer or a musical style. In a context of exploring large corpora where scores are just digitized and not transcribed, an automated search for motifs that verify targeted constraints becomes an essential tool for their study. To achieve the objective of detecting frequent motifs without prior knowledge, we started from images of digitized scores. After pre-processing steps on the image, we exploited and adapted a model for detecting and recognizing musical primitives (note-heads, stems...) from the family of Region-Proposal CNN (RPN) convolution neural networks. We then developed a primitive encoding method to generate a sequence of notes without the complex task of transcribing the entire manuscript work. This sequence was then analyzed using the CSMA (Constraint String Mining Algorithm) approach designed to detect the frequent motifs present in one or more sequences, taking into account constraints on their frequency and length, as well as the size and number of gaps allowed within the motifs. The gap was then studied to avoid recognition errors produced by the RPN network, thus avoiding the implementation of a post-correction system for transcription errors. The work was finally validated by the study of musical motifs for composers identification and classification

16

Lung-Yut-Fong, Alexandre. "Détection robuste de ruptures pour les signaux multidimensionnels : application à la détection d'anomalies dans les réseaux." Paris, Télécom ParisTech, 2011. https://pastel.hal.science/pastel-00675543.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L'objectif de cette thèse est de proposer des méthodes non-paramétriques de détection rétrospective de ruptures. L'application principale de cette étude est la détection d'attaques dans les réseaux informatiques à partir de données recueillies par plusieurs sondes disséminées dans le réseau. Nous proposons dans un premier temps une méthode en trois étapes de détection décentralisée d'anomalies faisant coopérer des sondes n'ayant accès qu'à une partie du trafic réseau. Un des avantages de cette approche est la possibilité de traiter un flux massif de données, ce qui est permis par une étape de filtrage par records. Un traitement local est effectué dans chaque sonde, et une synthèse est réalisée dans un centre de fusion. La détection est effectuée à l'aide d'un test de rang qui est inspiré par le test de rang de Wilcoxon et étendu aux données censurées. Dans une seconde partie, nous proposons d'exploiter les relations de dépendance entre les données recueillies par les différents capteurs afin d'améliorer les performances de détection. Nous proposons ainsi une méthode non-paramétrique de détection d'une ou plusieurs ruptures dans un signal multidimensionnel. Cette méthode s'appuie sur un test d'homogénéité utilisant un test de rang multivarié. Nous décrivons les propriétés asymptotiques de ce test ainsi que ses performances sur divers jeux de données (bio-informatiques, économétriques ou réseau). La méthode proposée obtient de très bons résultats, en particulier lorsque la distribution des données est atypique (par exemple en présence de valeurs aberrantes)
The aim of this work is to propose non-parametric change-point detection methods. The main application of such methods is the use of data recorded by a collection of network sensors to detect malevolent attacks. The first contribution of the thesis work is a decentralized anomaly detector. Each network sensor applies a rank-based change-point detection test, and the final decision is taken by a fusion center which aggregates the information transmitted by the sensors. This method is able to process a huge amount of data, thanks to a clever filtering step. In the second contribution, we take into account the dependencies between the different sensors to improve the detection performance. Based on homogeneity tests that we have proposed to assess the similarity between different sets of data, the robust detection methods that we have designed are able to find one or more change-point in a multidimensional signal. We thus obtained robust and versatile methods, with strong theoretical properties, to solve a large collection of segmentation problems: network anomaly detection, econometrics, DNA analysis for cancer prognosis… The methods that we proposed are particularly adequate when the characteristics of the analyzed data are unknown

17

Laurendin, Olivier. "Identification de situations de mise en danger d'usagers aux alentours de portes automatiques de train par détection d'anomalies auto-supervisée." Electronic Thesis or Diss., Ecole nationale supérieure Mines-Télécom Lille Douai, 2023. http://www.theses.fr/2023MTLD0009.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Ce travail de recherche s’inscrit dans le cadre d’un projet d’autonomisation des trains de voyageurs et tout particulièrement ceux circulant sur les lignes régionales françaises. A terme, le prototype de train autonome développé vise le degré d’automatisation maximal, pour lequel toutes les fonctions d’opération du train actuellement sous la responsabilité des agents de bord seront traitées par des systèmes techniques. Nous nous sommes intéressons ici à l’autonomisation d’une de ces fonctions, à savoir l’opération en sécurité des portes extérieures du train.De nombreuses situations de mise en danger d’usagers ont été répertoriées lors de la fermeture des portes et certaines figurent aujourd’hui parmi les principales sources d’incidents voyageurs. L’objectif de cette thèse est de développer un système de détection de ces événements à partir de l’analyse automatique des flux vidéo d’un système de surveillance embarqué.Cette thèse adresse ce problème par l’application de réseaux de neurones profonds afin de détecter, localiser et identifier tout événement dangereux lié aux piétons et aux portes présent dans des flux vidéo fournis par des caméras fish-eye installées sur le plafond des plates-formes d’embarquement du train. Ces événements dangereux apparaissant très rarement au cours de l’exploitation du train, la solution proposée repose sur la notion d’anomalie définie comme un événement inconnu ou inattendu dans un contexte donné. L’architecture neuronale proposée constitue donc un modèle de normalité et identifie comme anomalie toute donnée aberrante qui s’en écarte.L’architecture du réseau neuronal que nous proposons se décompose en deux branches spécialisées capables d’apprendre un modèle d’interaction normale entre deux objets. Chaque branche est entraînée par l’apprentissage de tâches prétextes capables de modéliser différents aspects de normalité supposés pertinents pour la détection d’anomalies liées aux piétons et aux portes.Aucun jeu de données relatif à notre cas d’usage n’existant dans la littérature, nous avons récolté et annoté un ensemble de séquences d’images pour l’entraînement et l’évaluation de nos architectures. Ces séquences mettent en scène des usagers aux alentours d’une réplique de portes automatiques de train en laboratoire et d’un train réel instrumenté pour les expérimentations du projet. Enfin, nous avons mis au point des métriques d’évaluation de l’efficacité des modèles développés afin d’évaluer leur applicabilité opérationnelle
This work is part of a research project to develop an autonomous passenger train operating on French regional lines. Ultimately, the developed autonomous train prototype aims for the maximum degree of railway automation, for which all train operating functions currently under the responsability of on-board staff will be handled by technical systems. We are interested here in the automation of one of these functions, namely the safe operation of the train’s external doors.Numerous dangerous situations for passagers during door closing have been identified, and some are now among the main sources of passager incidents. The aim of this thesis is to develop a detection system to identify these events based on the automatic analysis of on-board surveillance system video streams.This thesis addresses this problem by applying deep neural networks to detect, locate and identify any dangerous event related to pedestrians and doors present in video streams provided by fish-eye cameras installed on the ceiling of the train boarding platforms.As instances of these dangerous events occur very rarely during train operation, the proposed solution is based on the notion of anomaly, defined as an unknown or unexpected event in a given context of « normality ». The proposed neural architecture therefore constitutes a model of normality and identifies as abnormal any aberrant data that deviates from it.The neural network architecture we are proposing breaks down into two specialized branches capable of learning a model of normal interaction between two objects. Each branch is trained using learned proxy tasks capable of modelling different aspects of normality assumed to be relevant for the detection of anomalies associated with pedestrians and doors.As no image dataset related to our use case exists in the literature, we have collected and annotated a set of image sequences for training and evaluating our architectures. These sequences depict users in the vicinity of a train doors replica and in a real train instrumented as part of the research project. Finaly, we have developed metrics for evaluating the effectiveness of our models in order to test their operational applicability

18

Peng, Anrong. "Segmentation statistique non supervisée d'images et de détection de contours par filtrage." Compiègne, 1992. http://www.theses.fr/1992COMPD512.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse est consacrée à deux catégories de méthodes de la segmentation d'images: la segmentation statistique non supervisée et la détection de contours par filtrage. Les contributions de ce travail reposent sur les études des deux familles de méthodes en soi et sur leur mise en parallèle. Dans la première partie, nous abordons la segmentation Bayesienne non supervisée. Des algorithmes d'estimation préalable à la segmentation contextuelle, tels que EM, ICE, SEM, sont étudiés. Puis ces estimateurs valables dans les champs stationnaires sont adaptés aux champs non stationnaires. En levant l'hypothèse de stationnarité pour le champ de classes, les segmentations contextuelles donnent des résultats nettement meilleurs dans certains cas. Après une application de diverses combinaisons des estimateurs et des segmentations à des images différemment bruitées, nous menons une comparaison des performances des estimateurs suivant des caractéristiques du bruit. Une étude de la robustesse de la segmentation contextuelle est effectuée, ce qui est utile pour le choix d'un estimateur, ainsi que pour la définition d'un compromis entre la précision de l'estimation et le temps de calcul. La deuxième partie est consacrée à la détection de contours par filtrage. Une définition des contours utilisant l'ordre de discontinuité est d'abord proposée. La méthodologie de la détection de contours d'ordre 0 (contour échelon) est généralisée aux contours de discontinuité d'ordre quelconque. Le problème de la détection de contours est ainsi réduit à la recherche d'un filtre de lissage optimal dont la forme joue un rôle important. L'accent est donc mis sur l'étude des formes de filtres de lissage existants. Un exemple de cette généralisation, la détection du contour rampe, est appliquée aux images simulées et images réelles. La troisième partie est consacrée à la mise en parallèle des deux familles de méthodes. Après une étude sur leurs profils différents et points communs du point de vue théorique, l'objectif principal est la comparaison de la qualité, tant visuelle que selon des critères objectifs, des contours obtenus par deux familles de méthodes. Les comparaisons sont effectuées également au sein d'une même famille. Des algorithmes d'estimation, ICE stationnaire et ICE non stationnaire, combinés avec les méthodes de segmentation, telles que aveugle et contextuelle, sont choisis comme représentants de la première famille. Le filtre de Shen est choisi comme représentant de la deuxième famille. Cette étude met en lumière les différences de comportement des deux familles de méthodes, et peut ainsi servir à la décision quant au choix de la méthode la plus appropriée en fonction de propriétés objectives des images.

19

Lung-Yut-Fong, Alexandre. "Détection de ruptures pour les signaux multidimensionnels. Application à la détection d'anomalies dans les réseaux." Phd thesis, Télécom ParisTech, 2011. http://pastel.archives-ouvertes.fr/pastel-00675543.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L'objectif de cette thèse est de proposer des méthodes non-paramétriques de détection rétrospective de ruptures. L'application principale de cette étude est la détection d'attaques dans les réseaux informatiques à partir de données recueillies par plusieurs sondes disséminées dans le réseau. Nous proposons dans un premier temps une méthode en trois étapes de détection décentralisée d'anomalies faisant coopérer des sondes n'ayant accès qu'à une partie du trafic réseau. Un des avantages de cette approche est la possibilité de traiter un flux massif de données, ce qui est permis par une étape de filtrage par records. Un traitement local est effectué dans chaque sonde, et une synthèse est réalisée dans un centre de fusion. La détection est effectuée à l'aide d'un test de rang qui est inspiré par le test de rang de Wilcoxon et étendu aux données censurées. Dans une seconde partie, nous proposons d'exploiter les relations de dépendance entre les données recueillies par les différents capteurs afin d'améliorer les performances de détection. Nous proposons ainsi une méthode non-paramétrique de détection d'une ou plusieurs ruptures dans un signal multidimensionnel. Cette méthode s'appuie sur un test d'homogénéité utilisant un test de rang multivarié. Nous décrivons les propriétés asymptotiques de ce test ainsi que ses performances sur divers jeux de données (bio-informatiques, économétriques ou réseau). La méthode proposée obtient de très bons résultats, en particulier lorsque la distribution des données est atypique (par exemple en présence de valeurs aberrantes).

20

Dubois, Rémi. "Application des nouvelles méthodes d'apprentissage à la détection précoce d'anomalies en électrocardiographie." Paris 6, 2004. https://pastel.archives-ouvertes.fr/pastel-00000571.

Full text

APA, Harvard, Vancouver, ISO, and other styles

21

Dubois, R. "Application des nouvelles méthodes d'apprentissage à la détection précoce d'anomalies cardiaques en électrocardiographie." Phd thesis, Université Pierre et Marie Curie - Paris VI, 2004. http://pastel.archives-ouvertes.fr/pastel-00000571.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L'enregistrement Holter (enregistrement électrocardiographique de 24 heures) est un examen très fréquemment utilisé en cardiologie. Parmi les 100 000 battements enregistrés, seul un petit nombre d'entre eux peut traduire la présence d'une pathologie sous-jacente; l'analyse automatique est donc indispensable. Les outils actuels fonctionnent sur le principe d'un système expert, robuste, mais peu adaptatif et essentiellement limité à la détection et la classification des signaux de dépolarisation ventriculaire. Une analyse plus détaillée des signaux cardiaques permet une bien meilleure détection de nombreuses pathologies, en particulier grâce à l'extraction des signaux d'origine auriculaire et des ondes de repolarisation. Nous proposons dans cette thèse une méthode de décomposition mathématique originale des battements cardiaques sur une base de fonctions appelées "bosses". Contrairement aux régresseurs classiques utilisés en modélisation (ondelettes, RBF...), les bosses sont des fonctions prévues pour modéliser chaque onde caractéristique du battement cardiaque (les ondes P, Q, R, S et T). Chaque battement de l'enregistrement est ainsi décomposé en bosses; puis les labels médicaux P, Q, R, S et T leur sont attribués par des classifieurs (réseaux de neurones). Disposant alors de l'emplacement et de la forme des toutes les ondes caractéristiques pour l'ensemble de l'ECG, nous pouvons désormais repérer automatiquement des anomalies comme l'inversion de l'onde P, jusqu'alors non détectées par les algorithmes sur les enregistrements de longues durées. Cette approche a été testée sur de nombreuses bases de données et a montré toute son efficacité par rapport aux méthodes actuelles dem détection d'anomalies

22

Nasser, Alissar. "Contribution à la classification non supervisée par machines à noyaux." Littoral, 2007. http://www.theses.fr/2007DUNK0182.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La classification automatique non supervisée suscite de plus en plus d’intérêt dans différents domaines des sciences de l’ingénieur. Ceci est dû au développement rapide des moyens technologiques de mesure et de stockage générant de grandes quantités de données issues de sources diverses dont il faut analyser afin d’en extraire des informations utiles. Le principe de la classification non supervisée est justement de doter les machines de la capacité à découvrir des groupes naturels ou classes dans les objets présents aux entrées sans aucune connaissance a priori. Deux grandes catégories de méthodes existent : (1) les méthodes de classification dans l’espace d’entrée multidimensionnel et (2) les méthodes de projection pour la visualisation plane. Les premières cherchent des groupes denses ou des zones de fortes densités de probabilité alors que les secondes fournissent une vue plane image des données multidimensionnelles. La solution de bon sens est de faire coopérer ces méthodes d’une manière interactive impliquant l’opérateur humain dans le processus d’exploration de la structure des données. Récemment, les machines à noyaux ont connu un vif succès en classification non supervisée. L’idée de base est au lieu de projeter ou classer directement les données, on les transforme dans un espace de caractéristiques de grande dimension où les points images sont susceptibles d’être linéairement séparables. Ensuite, une technique classique de projection linéaire telle que l’analyse en composantes principales (PCA) ou de partitionnement tel que l’algorithme des K-means, sera appliquée sur les points dans leur espace de caractéristiques. C’est le principe des méthodes à noyaux ou « kernels » : kernel PCA, kernel K-means, etc. Le mémoire se propose de montrer l’apport des machines à noyaux dans la classification non supervisée, notamment en projection et en classification. Il présente au début les méthodes traditionnelles de projection pour ensuite exposer les méthodes d’analyse en composantes principales à noyau, les méthodes de classification spectrale et les méthodes de partitionnement kernel K-means. Les problèmes d’ajustement des paramètres et d’estimation du nombre des classes sont étudiés à travers des exemples de données synthétiques et réelles et les résultats des différentes méthodes sont comparés. Les approches de classification sont enfin appliquées pour l’aide à la détection d’évènements audio dans le transport public
Unsupervised classification has emerged as a popular technique for pattern recognition, image processing, and data mining. This is due to the development of advanced data measurements tools and data storage devices resulting in a huge quantity of data. This makes it necessary to analyze these data in order to extract some useful information. Unsupervised classification is one of the well-studied techniques, which concerns the partitioning of similar objects into clusters without any prior knowledge, such that objects in the same cluster share some unique properties. Two main categories of methods exist : (1) clustering methods in the multidimensional space and (2) projection methods for exploratory data analysis. The first category seeks zones/groups of high densities whereas the second category provides an accurate image on the plane of the multidimensional data. One of convenient lethods is by combining these two categories together in a way that involves a human operator into the process of structure analysis. Recently, Kernel machines gained a success in unsupervised classification. Instead, of projecting or classifying data directly in their input space, one transforms it into a high dimensional space called feature space and then applies any traditional projection technique such as Principal Components Analysis (PCA) or any clustering method such as K-means algorithm. The logic behind kernel is to enhance those features of the input data which make distinct pattern classes separate from each other. The present thesis shows the contribution of kernel machines in unsupervised classification, particularly in projection and classification methods. It first presents traditional projection methods and then present kernel Principal Components Analysis (kPCA). Spectral classification and kernel K-means clustering algortihm. The problems of adjusting kernel parameters and estimating the number of classes are studied. More over samples on synthetic and real data are executed ; results from various presented methods are compared. These clustering approaches are finally applied for the assistance to the detection of audio events in public transport

23

Luvison, Bertrand. "Détection non supervisée d'évènements rares dans un flot vidéo : application à la surveillance d'espaces publics." Phd thesis, Université Blaise Pascal - Clermont-Ferrand II, 2010. http://tel.archives-ouvertes.fr/tel-00626490.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse est une collaboration entre le LAboratoire des Sciences et Matériaux pour l'Électronique et d'Automatique (LASMEA) de Clermont-Ferrand et le Laboratoire Vision et Ingénierie des Contenus (LVIC) du CEA LIST à Saclay. La première moitié de la thèse a été accomplie au sein de l'équipe ComSee (1) du LASMEA et la deuxième au LVIC. L'objectif de ces travaux est de concevoir un système de vidéo-assistance temps réel pour la détection d'évènements dans des scènes possiblement denses.La vidéosurveillance intelligente de scènes denses telles que des foules est particulièrement difficile, principalement à cause de leur complexité et de la grande quantité de données à traiter simultanément. Le but de cette thèse consiste à élaborer une méthode de détection d'évènements rares dans de telles scènes, observées depuis une caméra fixe. La méthode en question s'appuie sur l'analyse automatique de mouvement et ne nécessite aucune information à priori. Les mouvements nominaux sont déterminés grâce à un apprentissage statistique non supervisé. Les plus fréquemment observés sont considérés comme des évènements normaux. Une phase de classification permet ensuite de détecter les mouvements déviant trop du modèle statistique, pour les considérer comme anormaux. Cette approche est particulièrement adaptée aux lieux de déplacements structurés, tels que des scènes de couloirs ou de carrefours routiers. Aucune étape de calibration, de segmentation de l'image, de détection d'objets ou de suivi n'est nécessaire. Contrairement aux analyses de trajectoires d'objets suivis, le coût calculatoire de notre méthode est invariante au nombre de cibles présentes en même temps et fonctionne en temps réel. Notre système s'appuie sur une classification locale du mouvement de la scène, sans calibration préalable. Dans un premier temps, une caractérisation du mouvement est réalisée, soit par des méthodes classiques de flot optique, soit par des descripteurs spatio-temporels. Ainsi, nous proposons un nouveau descripteur spatio-temporel fondé sur la recherche d'une relation linéaire entre les gradients spatiaux et les gradients temporels en des zones où le mouvement est supposé uniforme. Tout comme les algorithmes de flot optique, ce descripteur s'appuie sur la contrainte d'illumination constante.Cependant en prenant en compte un voisinage temporel plus important, il permet une caractérisation du mouvement plus lisse et plus robuste au bruit. De plus, sa faible complexité calculatoire est bien adaptée aux applications temps réel. Nous proposons ensuite d'étudier différentes méthodes de classification : La première, statique, dans un traitement image par image, s'appuie sur une estimation bayésienne de la caractérisation du mouvement au travers d'une approche basée sur les fenêtres de Parzen. Cette nouvelle méthode est une variante parcimonieuse des fenêtres de Parzen. Nous montrons que cette approche est algorithmiquement efficace pour approximer de manière compacte et précise les densités de probabilité. La seconde méthode, basée sur les réseaux bayésiens, permet de modéliser la dynamique du mouvement. Au lieu de considérer ce dernier image par image, des séquences de mouvements sont analysées au travers de chaînes de Markov Cachées. Ajouté à cela, une autre contribution de ce manuscrit est de prendre en compte la modélisation du voisinage d'un bloc afin d'ajouter une cohérence spatiale à la propagation du mouvement. Ceci est réalisé par le biais de couplages de chaînes de Markov cachées.Ces différentes approches statistiques ont été évaluées sur des données synthétiques ainsi qu'en situations réelles, aussi bien pour la surveillance du trafic routier que pour la surveillance de foule.Cette phase d'évaluation permet de donner des premières conclusions encourageantes quant à la faisabilité de la vidéosurveillance intelligente d'espaces possiblement denses.

24

Laby, Romain. "Détection et localisation d'anomalies dans des données hétérogènes en utilisant des modèles graphiques non orientés mixtes." Electronic Thesis or Diss., Paris, ENST, 2017. http://www.theses.fr/2017ENST0026.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse s’articule autour d’un besoin industriel de la société Thales Système Aéroportés et du radar de combat RBE2 équipant les avions de chasses Dassault Rafale. Elle développe une méthodologie de localisation d’anomalies dans des flux de données hétérogènes en utilisant un modèle graphique mixte non orienté et pairs à pairs. Les données sont un mélange de variables catégorielles et quantitatives, et le modèle est appris à partir d’un jeu de données dont on suppose qu’il ne contient pas de données anormales. Les algorithmes de localisation d’anomalies utilisent une version adaptée de l’algorithme CUSUM, dont la fonction de décision est basée sur le calcul de ratios de vraisemblance conditionnelles. Cette fonction permet de réaliser une détection d’anomalies variable par variable et de localiser précisément les variables impliquées dans l’anomalie
This thesis revolves around an industrial need of Thales Système Aéroportés and the RBE2 combat radar equipping Dassault Rafale fighter aircraft. It develops a methodology for locating anomalies in heterogeneous data stream using a mixed, non-orientation and peer-to-peer graphical model. The data are a mixture of categorical and quantitative variables, and the model is learned from a data set that is assumed not to contain abnormal data. Anomaly localization algorithms use an adapted version of the CUSUM algorithm, whose decision function is based on the calculation of conditional likelihood ratios. This function allows the detection of variable anomalies per variable and the precise localization of the variables involved in the anomaly

25

Goubet, Étienne. "Contrôle non destructif par analyse supervisée d'images 3D ultrasonores." Cachan, Ecole normale supérieure, 1999. http://www.theses.fr/1999DENS0011.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L'objet de cette thèse consiste en l'élaboration d'une chaine de traitements permettant d'extraire l'information utile de données 3d ultrasonores et de caractériser les défauts éventuellement présents dans la pièce inspectée. Cette caractérisation a été abordée pour des fissures contrôlées par un même émetteur/récepteur. Dans une première partie nous rappelons les principes du contrôle non destructif par ultrasons ainsi que les représentations classiques des données ultrasonores. La deuxième partie est consacrée à l'étude d'un modèle d'extraction de l'information d'échos présents sur les données au moyen d'une base d'ondelettes adaptée. L'utilisation d'une ondelette unique translatée dans le temps est rendue possible par un travail sur une représentation complexe des données réelles originales. Une première étape permet de détecter et de positionner les échos d'amplitude significative. Dans un deuxième temps, on effectue une régularisation spatialement cohérente des instants de détection à l'aide d'un modèle markovien. On élimine ainsi les échos dont les instants de détection ne font pas partie de surfaces d'instants régulières. Les parties suivantes traitent de la localisation et du dimensionnement des fissures. On utilise des caractéristiques extraites du faisceau ultrasonore afin de déterminer le trajet de l'onde ultrasonore du capteur à l'objet diffractant lorsque la réponse de l'écho est maximale. On met en correspondance l'instant de détection obtenu pour cet écho et le temps de parcours selon le trajet défini afin de positionner un point d'arête dans la pièce. On obtient ainsi un ensemble de points de discrétisation pour chaque arête. Dans le cadre de données 3d obtenues sur un matériau isotrope, on élimine les points d'arête extrêmes en utilisant un critère de comparaison sur les courbes échodynamiques associées aux points de détection sur les données réelles et sur des données simulées équivalentes. La localisation est abordée pour des fissures situées dans un matériau isotrope ou acier revêtu d'anisotrope.

26

El, Khoury Elie. "Indexation vidéo non-supervisée basée sur la caractérisation des personnes." Phd thesis, Université Paul Sabatier - Toulouse III, 2010. http://tel.archives-ouvertes.fr/tel-00515424.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse consiste à proposer une méthode de caractérisation non-supervisée des intervenants dans les documents audiovisuels, en exploitant des données liées à leur apparence physique et à leur voix. De manière générale, les méthodes d'identification automatique, que ce soit en vidéo ou en audio, nécessitent une quantité importante de connaissances a priori sur le contenu. Dans ce travail, le but est d'étudier les deux modes de façon corrélée et d'exploiter leur propriété respective de manière collaborative et robuste, afin de produire un résultat fiable aussi indépendant que possible de toute connaissance a priori. Plus particulièrement, nous avons étudié les caractéristiques du flux audio et nous avons proposé plusieurs méthodes pour la segmentation et le regroupement en locuteurs que nous avons évaluées dans le cadre d'une campagne d'évaluation. Ensuite, nous avons mené une étude approfondie sur les descripteurs visuels (visage, costume) qui nous ont servis à proposer de nouvelles approches pour la détection, le suivi et le regroupement des personnes. Enfin, le travail s'est focalisé sur la fusion des données audio et vidéo en proposant une approche basée sur le calcul d'une matrice de cooccurrence qui nous a permis d'établir une association entre l'index audio et l'index vidéo et d'effectuer leur correction. Nous pouvons ainsi produire un modèle audiovisuel dynamique des intervenants.

27

Labadié, Alexandre. "Segmentation thématique de texte linéaire et non-supervisée : détection active et passive des frontières thématiques en Français." Phd thesis, Montpellier 2, 2008. http://www.theses.fr/2008MON20159.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Ce travail s'inscrit dans le domaine du traitement automatique du langage naturel et traite plus spécifiquement de l'application de ce dernier à la segmentation thématique de texte. L'originalité de cette thèse consiste à intégrer dans une méthode non-supervisée de segmentation thématique de texte de l'information syntaxique, sémantique et stylistique. Ce travail propose une approche linéaire de la segmentation thématique s'appuyant sur une représentation vectorielle issue de l'analyse morpho-syntaxique et sémantique de la phrase. Cette représentation est ensuite utilisée pour calculer des distances entre segments thématiques potentiels en intégrant de l'information stylistique. Ce travail a donné lieu au développement d'une application qui permet de tester les différents paramètre de notre modèle, mais qui propose également d'autres approches testées dans ce travail. Notre modèle a été évaluer de deux manière différente, une évaluation automatique sur la base de textes annotés et une évaluation manuelle. Notre évaluation manuelle a donné lieu à la définition d'un protocole d'évaluation s'appuyant sur des critères précis. Dans les deux cas, les résultats de notre évaluation ont été au niveau, voir même au dessus, des performances des algorithmes les plus populaires de la littérature

28

Labadié, Alexandre. "Segmentation thématique de texte linéaire et non-supervisée : détection active et passive des frontières thématiques en Français." Phd thesis, Université Montpellier II - Sciences et Techniques du Languedoc, 2008. http://tel.archives-ouvertes.fr/tel-00364848.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Ce travail s'inscrit dans le domaine du traitement automatique du langage naturel et traite plus spéci?quement de l'application de ce dernier à la segmentation thématique de texte. L'originalité de cette thèse consiste à intégrer dans une méthode non-supervisée de segmentation thématique de texte de l'information syntaxique, sémantique et stylistique. Ce travail propose une approche linéaire de la segmentation thématique s'appuyant sur une représentation vectorielle issue de l'analyse morpho-syntaxique et sémantique de la phrase. Cette représentation est ensuite utilisée pour calculer des distances entre segments thématiques potentiels en intégrant de l'information stylistique. Ce travail a donné lieu au développement d'une application qui permet de tester les di?érents paramètre de notre modèle, mais qui propose également d'autres approches testées dans ce travail. Notre modèle a été évaluer de deux manières di?érentes, une évaluation automatique sur la base de textes annotés et une évaluation manuelle. Notre évaluation manuelle a donné lieu à la dé?nition d'un protocole d'évaluation s'appuyant sur des critères précis. Dans les deux cas, les résultats de notre évaluation ont été au niveau, voir même au dessus, des performances des algorithmes les plus populaires de la littérature.

29

Gan, Changquan. "Une approche de classification non supervisée basée sur la notion des K plus proches voisins." Compiègne, 1994. http://www.theses.fr/1994COMP765S.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La classification non supervisée a pour objectif de définir dans un ensemble de données des classes permettant de caractériser la structure interne des données. C’est une technique très utile dans de nombreux domaines technologiques comme en diagnostic des systèmes complexes (pour la mise en évidence de modes de fonctionnement) et en vision par ordinateur (pour la segmentation d'image). Les méthodes traditionnelles de la classification non supervisée présentent plusieurs problèmes en pratique, par exemple, la nécessité de préfixer le nombre de classes, le manque de stratégie appropriée pour le réglage de paramètres et la difficulté de valider le résultat obtenu. Dans cette thèse nous tentons d'apporter une solution à ces problèmes en développant une nouvelle approche basée sur la notion des K plus proches voisins. Alliant la détection de mode et la recherche de graphe reflétant la proximité des données, cette approche identifie d'abord les centres de classe, puis construit une classe autour de chaque centre. Elle n'emploie aucune connaissance a priori sur les données et ne possède qu'un seul paramètre. Une stratégie de réglage de ce paramètre a été établie après une étude théorique et une analyse expérimentale. L’idée est de rechercher la stabilité du résultat de classification. Des tests présentés dans ce mémoire montrent une bonne performance de l'approche proposée ; elle est libre d'hypothèse sur la nature des données, relativement robuste et facile à utiliser

30

Thépaut, Solène. "Problèmes de clustering liés à la synchronie en écologie : estimation de rang effectif et détection de ruptures sur les arbres." Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLS477/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Au vu des changements globaux actuels engendrés en grande partie par l'être humain, il devient nécessaire de comprendre les moteurs de la stabilité des communautés d'êtres vivants. La synchronie des séries temporelles d'abondances fait partie des mécanismes les plus importants. Cette thèse propose trois angles différents permettant de répondre à différentes questions en lien avec la synchronie interspécifique ou spatiale. Les travaux présentés trouvent des applications en dehors du cadre écologique. Un premier chapitre est consacré à l'estimation du rang effectif de matrices à valeurs dans ℝ ou ℂ. Nous apportons ainsi des outils permettant de mesurer le taux de synchronisation d'une matrice d'observations. Dans le deuxième chapitre, nous nous basons sur les travaux existants sur le problème de détection de ruptures sur les chaînes afin de proposer plusieurs algorithmes permettant d'adapter ce problème au cas des arbres. Les méthodes présentées peuvent être utilisées sur la plupart des données nécessitant d'être représentées sous la forme d'un arbre. Afin d'étudier les liens entre la synchronie interspécifique et les tendances à long termes ou les traits d'espèces de papillons, nous proposons dans le dernier chapitre d'adapter des méthodes de clustering et d'apprentissage supervisé comme les Random Forest ou les Réseaux de Neurones artificiels à des données écologiques
In the view of actual global changes widely caused by human activities, it becomes urgent to understand the drivers of communities' stability. Synchrony between time series of abundances is one of the most important mechanisms. This thesis offers three different angles in order to answer different questions linked to interspecific and spatial synchrony. The works presented find applications beyond the ecological frame. A first chapter is dedicated to the estimation of effective rank of matrices in ℝ or ℂ. We offer tools allowing to measure the synchronisation rate of observations matrices. In the second chapter, we base on the existing work on change-points detection problem on chains in order to offer algorithms which detects change-points on trees. The methods can be used with most data that have to be represented as a tree. In order to study the link between interspecific synchrony and long term tendencies or traits of butterflies species, we offer in the last chapter adaptation of clustering and supervised machine learning methods, such as Random Forest or Artificial Neural Networks to ecological data

31

Goulet, Sylvain. "Techniques d'identification d'entités nommées et de classification non-supervisée pour des requêtes de recherche web à l'aide d'informations contenues dans les pages web visitées." Mémoire, Université de Sherbrooke, 2014. http://hdl.handle.net/11143/5387.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Le web est maintenant devenu une importante source d’information et de divertissement pour un grand nombre de personnes et les techniques pour accéder au contenu désiré ne cessent d’évoluer. Par exemple, en plus de la liste de pages web habituelle, certains moteurs de recherche présentent maintenant directement, lorsque possible, l’information recherchée par l’usager. Dans ce contexte, l’étude des requêtes soumises à ce type de moteur de recherche devient un outil pouvant aider à perfectionner ce genre de système et ainsi améliorer l’expérience d’utilisation de ses usagers. Dans cette optique, le présent document présentera certaines techniques qui ont été développées pour faire l’étude des requêtes de recherche web soumises à un moteur de recherche. En particulier, le travail présenté ici s’intéresse à deux problèmes distincts. Le premier porte sur la classification non-supervisée d’un ensemble de requêtes de recherche web dans le but de parvenir à regrouper ensemble les requêtes traitant d’un même sujet. Le deuxième problème porte quant à lui sur la détection non-supervisée des entités nommées contenues dans un ensemble de requêtes qui ont été soumises à un moteur de recherche. Les deux techniques proposées utilisent l’information supplémentaire apportée par la connaissance des pages web qui ont été visitées par les utilisateurs ayant émis les requêtes étudiées.

32

Varejão, Andreão Rodrigo. "Segmentation de battements ECG par approche markovienne : application à la détection d'ischémies." Evry, Institut national des télécommunications, 2004. http://www.theses.fr/2004TELE0004.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L'enregistrement ambulatoire continu de l'électrocardiogramme par la méthode de Holter (ECG ambulatoire) pourvoit des informations pour le dépistage de l'ischémie myocardique pour des patients atteints d'une maladie coronarienne. Dans ce contexte, nous proposons un système automatique d'analyse d'ECG ambulatoire basé sur la fusion d'une approche markovienne et d'une approche heuristique capable de détecter des épisodes ischémiques. L'approche markovienne permet d'extraire du signal ECG les informations nécessaires à l'analyse du décalage du segment ST. Notre approche est capable de prendre en compte des morphologies complexes grâce à une modélisation individuelle des ondes P, QRS et T par des modèles de Markov spécifiques. De plus, une stratégie originale d'apprentissage non supervisée permet d'adapter les paramètres du modèle markovien au signal de la personne. Pour obtenir une classification en terme de pathologie, nous avons ajouté des règles qui s'appliquent aux informations extraites du signal par l'approche markovienne. Nous avons aussi exploré la fusion des informations obtenues sur plusieurs dérivations produisant ainsi des résultats plus fiables. Finalement, notre système a été validé sur deux bases d'ECG ambulatoires. La performance a été évaluée pour différents problèmes : détection des complexes QRS, segmentation précise des ondes P et T, et du complexe QRS, détection des battements ventriculaires et détection des épisodes ischémiques. Les résultats permettent de mettre en valeur l'intérêt de la modélisation proposée et se situent favorablement par rapport à l'état de l'art
Ambulatory electrocardiography (AECG) provides precise and rich information from the clinical point of view for the diagnostic of cardiac diseases and particularly myocardial ischemia in patients with coronary disease. Early detection of myocardial ischemia allows fast diagnostic and makes treatment more effective. Ischemic episodes are detected through the ST-segment deviation function, wich is built after analysis of each heartbeat. In this context, we propose a system combining a Markovian approach and a heuristic approach to perform automatic ischemic episode detection. Our markovian approach extracts from the ECG signal the information needed to perform ST-sergment deviation analysis. It is able to take into account complex morphologies thanks to the use of individual HMM to model each beat waveform (P, QRS and T). In addition, our original non supervised training strategy provides HMM parameter adaptation to the ECG signal of each patient. To classify the ECG signal in terms of a specific abnormality, we added a set of rules to manage the information extracted from the signal. We also explored the information fusion obtained from different leads yielding to more reliable detection results. Finally, we assessed our system performance over two AECG databases. Different problems were concerned QRS complex detection, waveform sergmentation precision, premature ventricular contraction beat detection and ischemic episode detection. All results attest the interest in the approach proposed and compare favourably to the state of the art

33

Thivin, Solenne. "Détection automatique de cibles dans des fonds complexes. Pour des images ou séquences d'images." Thesis, Université Paris-Saclay (ComUE), 2015. http://www.theses.fr/2015SACLS235/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L'objectif principal de ces travaux de thèse a été la mise en place d'un algorithme de détection de cibles sous-résolues pour des images infra-rouges de ciel.Pour cela, nous avons d'abord cherché à modéliser les images réelles dont nous disposions. Après une étude de ces images, nous avons proposé plusieurs modèles gaussiens prenant en compte la covariance spatiale. Dans ces modèles, nous avons supposé que les images pouvaient être segmentées en zones stationnaires. Dans chaque zone, nous avons supposé une structure forte sur la matrice de covariance (comme les modèles auto-régressifs en deux dimensions par exemple).Il a ensuite fallu choisir entre ces modèles. Pour cela, nous avons appliqué une méthode de sélection de modèles par critère de vraisemblance pénalisée introduite par Birgé et Massart. Nous avons obtenu comme résultats théoriques une inégalité oracle qui a permis de démontrer les propriétés statistiques du modèle choisi. Une fois le modèle sélectionné, nous avons pu bâtir un test de détection. Nous nous sommes inspirés de la théorie de Neyman-Pearson et du test du rapport de vraisemblance généralisé. Notre contrainte principale a été le respect du taux de fausses alarmes par image. Pour le garantir, nous avons appris le comportement du test sur les images réelles pour en déduire le seuil à appliquer.~~Nous avons ensuite remarqué que le comportement de ce test variait fortement selon la texture de l'image : image de ciel bleu uniforme, image de nuage très texturé, etc. Après avoir caractérisé les différentes textures rencontrées avec les coefficients de scattering de Stéphane Mallat, nous avons décidé de classer ces textures. Le seuil appliqué lors de la détection a alors été adapté à la texture locale du fond. Nous avons finalement mesuré les performances de cet algorithme sur des images réelles et nous les avons comparées à d'autres méthodes de détection.Mots-clés: Détection, Covariance spatiale, Sélection de modèles, Apprentissage, Classification non supervisée
During this PHD, we developped an detection algorithm. Our principal objective was to detect small targets in a complex background like clouds for example.For this, we used the spatial covariate structure of the real images.First, we developped a collection of models for this covariate structure. Then, we selected a special model in the previous collection. Once the model selected, we applied the likelihood ratio test to detect the potential targets.We finally studied the performances of our algorithm by testing it on simulated and real images

34

Kassab, Randa. "Analyse des propriétés stationnaires et des propriétés émergentes dans les flux d'information changeant au cours du temps." Thesis, Nancy 1, 2009. http://www.theses.fr/2009NAN10027/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

De nombreuses applications génèrent et reçoivent des données sous la forme de flux continu, illimité, et très rapide. Cela pose naturellement des problèmes de stockage, de traitement et d'analyse de données qui commencent juste à être abordés dans le domaine des flux de données. Il s'agit, d'une part, de pouvoir traiter de tels flux à la volée sans devoir mémoriser la totalité des données et, d'autre part, de pouvoir traiter de manière simultanée et concurrente l'analyse des régularités inhérentes au flux de données et celle des nouveautés, exceptions, ou changements survenant dans ce même flux au cours du temps. L'apport de ce travail de thèse réside principalement dans le développement d'un modèle d'apprentissage - nommé ILoNDF - fondé sur le principe de la détection de nouveauté. L'apprentissage de ce modèle est, contrairement à sa version de départ, guidé non seulement par la nouveauté qu'apporte une donnée d'entrée mais également par la donnée elle-même. De ce fait, le modèle ILoNDF peut acquérir constamment de nouvelles connaissances relatives aux fréquences d'occurrence des données et de leurs variables, ce qui le rend moins sensible au bruit. De plus, doté d'un fonctionnement en ligne sans répétition d'apprentissage, ce modèle répond aux exigences les plus fortes liées au traitement des flux de données. Dans un premier temps, notre travail se focalise sur l'étude du comportement du modèle ILoNDF dans le cadre général de la classification à partir d'une seule classe en partant de l'exploitation des données fortement multidimensionnelles et bruitées. Ce type d'étude nous a permis de mettre en évidence les capacités d'apprentissage pures du modèle ILoNDF vis-à-vis de l'ensemble des méthodes proposées jusqu'à présent. Dans un deuxième temps, nous nous intéressons plus particulièrement à l'adaptation fine du modèle au cadre précis du filtrage d'informations. Notre objectif est de mettre en place une stratégie de filtrage orientée-utilisateur plutôt qu'orientée-système, et ceci notamment en suivant deux types de directions. La première direction concerne la modélisation utilisateur à l'aide du modèle ILoNDF. Cette modélisation fournit une nouvelle manière de regarder le profil utilisateur en termes de critères de spécificité, d'exhaustivité et de contradiction. Ceci permet, entre autres, d'optimiser le seuil de filtrage en tenant compte de l'importance que pourrait donner l'utilisateur à la précision et au rappel. La seconde direction, complémentaire de la première, concerne le raffinement des fonctionnalités du modèle ILoNDF en le dotant d'une capacité à s'adapter à la dérive du besoin de l'utilisateur au cours du temps. Enfin, nous nous attachons à la généralisation de notre travail antérieur au cas où les données arrivant en flux peuvent être réparties en classes multiples
Many applications produce and receive continuous, unlimited, and high-speed data streams. This raises obvious problems of storage, treatment and analysis of data, which are only just beginning to be treated in the domain of data streams. On the one hand, it is a question of treating data streams on the fly without having to memorize all the data. On the other hand, it is also a question of analyzing, in a simultaneous and concurrent manner, the regularities inherent in the data stream as well as the novelties, exceptions, or changes occurring in this stream over time. The main contribution of this thesis concerns the development of a new machine learning approach - called ILoNDF - which is based on novelty detection principle. The learning of this model is, contrary to that of its former self, driven not only by the novelty part in the input data but also by the data itself. Thereby, ILoNDF can continuously extract new knowledge relating to the relative frequencies of the data and their variables. This makes it more robust against noise. Being operated in an on-line mode without repeated training, ILoNDF can further address the primary challenges for managing data streams. Firstly, we focus on the study of ILoNDF's behavior for one-class classification when dealing with high-dimensional noisy data. This study enabled us to highlight the pure learning capacities of ILoNDF with respect to the key classification methods suggested until now. Next, we are particularly involved in the adaptation of ILoNDF to the specific context of information filtering. Our goal is to set up user-oriented filtering strategies rather than system-oriented in following two types of directions. The first direction concerns user modeling relying on the model ILoNDF. This provides a new way of looking at user's need in terms of specificity, exhaustivity and contradictory profile-contributing criteria. These criteria go on to estimate the relative importance the user might attach to precision and recall. The filtering threshold can then be adjusted taking into account this knowledge about user's need. The second direction, complementary to the first one, concerns the refinement of ILoNDF's functionality in order to confer it the capacity of tracking drifting user's need over time. Finally, we consider the generalization of our previous work to the case where streaming data can be divided into multiple classes

35

Le, Gorrec Luce. "Équilibrage bi-stochastique des matrices pour la détection de structures par blocs et applications." Thesis, Toulouse 3, 2019. http://www.theses.fr/2019TOU30136.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La détection de structures par blocs dans les matrices est un enjeu important. D'abord en analyse de données, où les matrices sont classiquement utilisées pour représenter des données, par exemple via les tables de données ou les matrices d'adjacence. Dans le premier cas, la détection d'une structure par blocs de lignes et de colonnes permet de trouver un co-clustering. Dans le second cas, la détection d'une structure par blocs diagonaux dominants fournit un clustering. En outre, la détection d'une structure par blocs est aussi utile pour la résolution de systèmes linéaires car elle permet, notamment, de rendre efficace des préconditionneurs type Block Jacobi, ou de trouver des groupes de lignes fortement décorrélés en vue de l'application d'un solveur type Block Cimmino. Dans cette thèse, nous centrons notre analyse sur la détection de blocs diagonaux dominants par permutations symétriques des lignes et des colonnes. De nombreux algorithmes pour trouver ces structures ont été créés. Parmi eux, les algorithmes spectraux jouent un rôle crucial, et se divisent en deux catégories. La première est composée d'algorithmes qui projettent les lignes de la matrice dans un espace de faible dimension composé des vecteurs propres dominants avant d'appliquer une procédure de type k-means sur les données réduites. Ces algorithmes ont le désavantage de nécessiter la connaissance du nombre de classes à découvrir. La deuxième famille est composée de procédures itératives qui, à chaque itération, cherchent la k-ième meilleure partition en deux blocs. Mais pour les matrices ayant plus de deux blocs, la partition optimale en deux blocs ne coïncide en général pas avec la véritable structure. Nous proposons donc un algorithme spectral répondant aux deux problèmes évoqués ci-dessus. Pour ce faire, nous prétraitons notre matrice via un équilibrage bi-stochastique permettant de stratifier les blocs. D'abord, nous montrons les bénéfices de cet équilibrage sur la détection de structures par blocs en l'utilisant comme prétraitement de l'algorithme de Louvain pour détecter des communautés dans des réseaux. Nous explorons aussi plusieurs mesures globales utilisées pour évaluer la cohérence d'une structure par blocs. En adaptant ces mesures à nos matrices bi-stochastiques, nous remarquons que notre équilibrage tend à unifier ces mesures. Ensuite, nous détaillons notre algorithme basé sur les éléments propres de la matrice équilibrée. Il est construit sur le principe que les vecteurs singuliers dominants d'une matrice bi-stochastique doivent présenter une structure en escalier lorsque l'on réordonne leurs coordonnées dans l'ordre croissant, à condition que la matrice ait une structure par blocs. Des outils de traitement du signal, initialement conçus pour détecter les sauts dans des signaux, sont appliqués aux vecteurs pour en détecter les paliers, et donc les séparations entre les blocs. Cependant, ces outils ne sont pas naturellement adaptés pour cette utilisation. Des procédures, mises en place pour répondre à des problèmes rencontrés, sont donc aussi détaillées. Nous proposons ensuite trois applications de la détection de structures par blocs dans les matrices. D'abord la détection de communautés dans des réseaux, et le préconditionnement de type Block Jacobi de systèmes linéaire. Pour ces applications, nous comparons les résultats de notre algorithme avec ceux d'algorithmes spécifiquement conçus à cet effet. Enfin, la détection des actes de dialogues dans un discours en utilisant la base de données STAC qui consiste en un chat de joueurs des "Colons de Catane" en ligne. Pour ce faire nous couplons des algorithmes de clustering non supervisés avec un réseau de neurones BiLSTM permettant de prétraiter les unités de dialogue. Enfin, nous concluons en entamant une réflexion sur la généralisation de notre méthode au cas des matrices rectangulaires
The detection of block structures in matrices is an important challenge. First in data analysis where matrices are a key tool for data representation, as data tables or adjacency matrices. Indeed, for the first one, finding a co-clustering is equivalent to finding a row and column block structure of the matrix. For the second one, finding a structure of diagonal dominant blocks leads to a clustering of the data. Moreover, block structure detection is also usefull for the resolution of linear systems. For instance, it helps to create efficient Block Jacobi precoditioners or to find groups of rows that are strongly decorrelated in order to apply a solver such as Block Cimmino. In this dissertation, we focus our analysis on the detection of dominant diagonal block structures by symmetrically permuting the rows and columns of matrices. Lots of algorithms have been designed that aim to highlight such structures. Among them, spectral algorithms play a key role. They can be divided into two kinds. The first one consists of algorithms that first project the matrix rows onto a low-dimensional space generated by the matrix leading eigenvectors, and then apply a procedure such as a k-means on the reduced data. Their main drawbacks is that the knowledge of number of clusters to uncover is required. The second kind consists of iterative procedures that look for the k-th best partition into two subblocks of the matrix at step k. However, if the matrix structure shows more than two blocks, the best partition into two blocks may be a poor fit to the matrix groundtruth structure. Hence, we propose a spectral algorithm that deals with both issues described above. To that end, we preprocess the matrix with a doubly-stochastic scaling, which leverages the blocks. First we show the benefits of using such a scaling by using it as a preprocessing for the Louvain's algorithm, in order to uncover community structures in networks. We also investigate several global modularity measures designed for quantifying the consistency of a block structure. We generalise them to make them able to handle doubly-stochastic matrices, and thus we remark that our scaling tends to unify these measures. Then, we describe our algorithm that is based on spectral elements of the scaled matrix. Our method is built on the principle that leading singular vectors of a doubly-stochastic matrix should have a staircase pattern when their coordinates are sorted in the increasing order, under the condition that the matrix shows a hidden block structure. Tools from signal processing-that have been initially designed to detect jumps in signals-are applied to the sorted vectors in order to detect steps in these vectors, and thus to find the separations between the blocks. However, these tools are not specifically designed to this purpose. Hence procedures that we have implemented to answer the encountered issues are also described. We then propose three applications for the matrices block structure detection. First, community detection in networks, and the design of efficient Block Jacobi type preconditioners for solving linear systems. For these applications, we compare the results of our algorithm with those of algorithms that have been designed on purpose. Finally, we deal with the dialogue act detection in a discorsre, using the STAC database that consists in a chat of online players of " The Settlers of Catan ". To that end we connect classical clustering algorithms with a BiLSTM neural network taht preprocesses the dialogue unities. Finally, we conclude by giving some preliminary remarks about the extension of our method to rectangular matrices

36

Khichane, Abderaouf. "Diagnostic of performance by data interpretation for 5G cloud native network functions." Electronic Thesis or Diss., université Paris-Saclay, 2024. http://www.theses.fr/2024UPASG017.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les opérateurs télécoms doivent aujourd'hui faire face à une évolution profonde, inéluctable, des services et des infrastructures. Ils sont constamment tenus d'accélérer le renouvellement de leurs offres afin de faire face à de nouveaux défis et opportunités. C'est dans ce contexte que le concept des fonctions réseau « Cloud-native» [1][2][3] est en train de prendre de plus en plus d'ampleur. S'inspirant du monde IT où la « Cloud readiness» a déjà fait ses preuves, l'idée de la cloudification des fonctions réseau consiste à mettre en place des fonctions « scalables » et auto-réparables tout en fournissant des API génériques accessibles par leurs systèmes de management et d'orchestration. Néanmoins, la transition vers un modèle « Cloud-native » ne se limite pas à l'encapsulation des fonctions réseau dans des machines virtuelles. Elle exige une adaptation, voire une refonte totale des fonctions réseau.C'est dans ce contexte que les architectures micro-service [4] deviennent incontournables pour la conception des applications 5G cloud natives. En effet, la décomposition des applications en services indépendants permet d'apporter de la flexibilité en termes de i) développement, ii) déploiement et iii) évolutivité. Néanmoins, adopter ce nouveau paradigme architectural pour les fonctions réseau virtualisées apporte de nouvelles interrogations sur les opérations liées à l'orchestration et l'automatisation. En particulier, l'observabilité représente un pilier d'une démarche de surveillance des fonctions 5G dans le but de fournir le plus haut niveau de satisfaction client. Cette fonctionnalité correspond aux activités impliquant les mesures, la collecte et l'analyse des données de télémétrie remontés à la fois de l'infrastructure de l'opérateur et des applications qui s'y exécutent. L'observabilité permet ainsi d'acquérir une compréhension approfondie du comportement du réseau et d'anticiper des dégradations de la qualité de service. Diverses approches d'observabilité sont proposées dans la littérature [5]. Ces dernières permettent d'analyser le comportement des applications IT cloud-natives et d'apporter les actions de remédiation nécessaires.Dans ce contexte, les données de télémétries représentent des informations précises sur l'état des réseaux des opérateurs. Cependant, la complexité de l'infrastructure softwarisée de l'opérateur et le volume de données [6] à traiter nécessitent l'élaboration de nouvelles techniques capables de détecter en temps réel une situation à risque et de prendre les bonnes décisions afin d'éviter par exemple une violation du contrat en matière de Qualité de Service (SLA). C'est dans ce cadre que s'inscrivent les travaux de cette thèse
Operators today are facing a profound and inevitable evolution of services and infrastructure. They are constantly pressured to accelerate the renewal of their offerings to meet new challenges and opportunities. It is in this context that the concept of "Cloud-native" network functions [1][2][3] is gaining increasing significance. Drawing inspiration from the IT world where "Cloud readiness" has already proven its worth, the idea of cloudifying network functions involves implementing scalable and self-healing functions while providing generic APIs accessible through their management and orchestration systems. However, the transition to a "Cloud-native" model is not limited to encapsulating network functions in virtual machines. It requires an adaptation, even a total redesign, of network functions.In this context, microservices architectures [4] become essential for the design of cloud-native 5G applications. Decomposing applications into independent services brings flexibility in terms of i) development, ii) deployment, and iii) scalability. Nevertheless, adopting this new architectural paradigm for virtualized network functions raises new questions about orchestration and automation operations. In particular, observability represents a cornerstone in monitoring 5G functions to provide the highest level of customer satisfaction. This functionality involves activities related to measuring, collecting, and analyzing telemetry data from both the operator's infrastructure and the applications running on it. Observability enables a deep understanding of network behavior and the anticipation of service quality degradation. Various observability approaches are proposed in the literature [5], allowing the analysis of the behavior of cloud-native IT applications and the implementation of necessary remediation actions.In this context, telemetry data provides precise information about the state of operator networks. However, the complexity of the operator's software-defined infrastructure and the volume of data [6] to be processed require the development of new techniques capable of detecting real-time risk situations and making the right decisions, for example, to avoid a violation of the Service Level Agreement (SLA). This is the framework in which the work of this thesis is situated

37

Kessi, Louisa. "Unsupervised detection based on spatial relationships : Application for object detection and recognition of colored business document structures." Thesis, Lyon, 2018. http://www.theses.fr/2018LYSEI068.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse a pour objectif de développer un système de reconnaissance de structures logique des documents d'entreprises sans modèle. Il s'agit de reconnaître la fonction logique de blocs de textes qui sont importants à localiser et à identifier. Ce problème est identique à celui de la détection d'objets dans une scène naturelle puisqu'il faut à la fois reconnaître les objets et les localiser dans une image. A la différence de la reconnaissance d'objets, les documents d'entreprises doivent être interprétés sans aucune information a priori sur leurs modèles de structures. La seule solution consiste à développer une approche non supervisée basée principalement sur les relations spatiales et sur les informations textuelles et images. Les documents d'entreprises possèdent des contenus et des formes très hétérogènes car chaque entreprise et chaque administration créent son propre formulaire ou ses propres modèles de factures. Nous faisons l'hypothèse que toute structure logique de document est constituée de morceaux de micro-structures déjà observées dans d'autres documents. Cette démarche est identique en détection d'objets dans les images naturelles. Tout modèle particulier d'objet dans une scène est composé de morceaux d'éléments déjà vu sur d'autres exemples d'objets de même classe et qui sont reliés entre eux par des relations spatiales déjà observées. Notre modèle est donc basé sur une reconnaissance partie par partie et sur l'accumulation d'évidences dans l'espace paramétrique et spatial. Notre solution a été testée sur des applications de détection d'objets dans les scènes naturelles et de reconnaissance de structure logique de documents d'entreprises. Les bonnes performances obtenues valident les hypothèses initiales. Ces travaux contiennent aussi de nouvelles méthodes de traitement et d'analyse d'image couleurs de documents et d'images naturelles
This digital revolution introduces new services and new usages in numerous domains. The advent of the digitization of documents and the automatization of their processing constitutes a great cultural and economic revolution. In this context, computer vision provides numerous applications and impacts our daily lives and businesses. Behind computer-vision technology, fundamental concepts, methodologies, and algorithms have been developed worldwide in the last fifty years. Today, computer vision technologies arrive to maturity and become a reality in many domains. Computer-vision systems reach high performance thanks to the large amount of data and the increasing performance of the hardware. Despite the success of computer-vision applications, however, numerous other applications require more research, new methodologies, and novel algorithms. Among the difficult problems encountered in the computer-vision domain, detection remains a challenging task. Detection consists of localizing and recognizing an object in an image. This problem is far more difficult than the problem of recognition alone. Among the numerous applications based on detection, object detection in a natural scene is the most popular application in the computer-vision community. This work is about the detection tasks and its applications

38

Kassab, Randa. "Analyse des propriétés stationnaires et des propriétés émergentes dans les flux d'informations changeant au cours du temps." Phd thesis, Université Henri Poincaré - Nancy I, 2009. http://tel.archives-ouvertes.fr/tel-00402644.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

De nombreuses applications génèrent et reçoivent des données sous la forme de flux continu, illimité, et très rapide. Cela pose naturellement des problèmes de stockage, de traitement et d'analyse de données qui commencent juste à être abordés dans le domaine des flux de données. Il s'agit, d'une part, de pouvoir traiter de tels flux à la volée sans devoir mémoriser la totalité des données et, d'autre part, de pouvoir traiter de manière simultanée et concurrente l'analyse des régularités inhérentes au flux de données et celle des nouveautés, exceptions, ou changements survenant dans ce même flux au cours du temps.

L'apport de ce travail de thèse réside principalement dans le développement d'un modèle d'apprentissage - nommé ILoNDF - fondé sur le principe de la détection de nouveauté. L'apprentissage de ce modèle est, contrairement à sa version de départ, guidé non seulement par la nouveauté qu'apporte une donnée d'entrée mais également par la donnée elle-même. De ce fait, le modèle ILoNDF peut acquérir constamment de nouvelles connaissances relatives aux fréquences d'occurrence des données et de leurs variables, ce qui le rend moins sensible au bruit. De plus, doté d'un fonctionnement en ligne sans répétition d'apprentissage, ce modèle répond aux exigences les plus fortes liées au traitement des flux de données.

Dans un premier temps, notre travail se focalise sur l'étude du comportement du modèle ILoNDF dans le cadre général de la classification à partir d'une seule classe en partant de l'exploitation des données fortement multidimensionnelles et bruitées. Ce type d'étude nous a permis de mettre en évidence les capacités d'apprentissage pures du modèle ILoNDF vis-à-vis de l'ensemble des méthodes proposées jusqu'à présent. Dans un deuxième temps, nous nous intéressons plus particulièrement à l'adaptation fine du modèle au cadre précis du filtrage d'informations. Notre objectif est de mettre en place une stratégie de filtrage orientée-utilisateur plutôt qu'orientée-système, et ceci notamment en suivant deux types de directions. La première direction concerne la modélisation utilisateur à l'aide du modèle ILoNDF. Cette modélisation fournit une nouvelle manière de regarder le profil utilisateur en termes de critères de spécificité, d'exhaustivité et de contradiction. Ceci permet, entre autres, d'optimiser le seuil de filtrage en tenant compte de l'importance que pourrait donner l'utilisateur à la précision et au rappel. La seconde direction, complémentaire de la première, concerne le raffinement des fonctionnalités du modèle ILoNDF en le dotant d'une capacité à s'adapter à la dérive du besoin de l'utilisateur au cours du temps. Enfin, nous nous attachons à la généralisation de notre travail antérieur au cas où les données arrivant en flux peuvent être réparties en classes multiples.

39

Soltani, Mariem. "Partitionnement des images hyperspectrales de grande dimension spatiale par propagation d'affinité." Thesis, Rennes 1, 2014. http://www.theses.fr/2014REN1S099/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les images hyperspectrales suscitent un intérêt croissant depuis une quinzaine d'années. Elles fournissent une information plus détaillée d'une scène et permettent une discrimination plus précise des objets que les images couleur RVB ou multi-spectrales. Bien que les potentialités de la technologie hyperspectrale apparaissent relativement grandes, l'analyse et l'exploitation de ces données restent une tâche difficile et présentent aujourd'hui un défi. Les travaux de cette thèse s'inscrivent dans le cadre de la réduction et de partitionnement des images hyperspectrales de grande dimension spatiale. L'approche proposée se compose de deux étapes : calcul d'attributs et classification des pixels. Une nouvelle approche d'extraction d'attributs à partir des matrices de tri-occurrences définies sur des voisinages cubiques est proposée en tenant compte de l'information spatiale et spectrale. Une étude comparative a été menée afin de tester le pouvoir discriminant de ces nouveaux attributs par rapport aux attributs classiques. Les attributs proposés montrent un large écart discriminant par rapport à ces derniers et par rapport aux signatures spectrales. Concernant la classification, nous nous intéressons ici au partitionnement des images par une approche de classification non supervisée et non paramétrique car elle présente plusieurs avantages: aucune connaissance a priori, partitionnement des images quel que soit le domaine applicatif, adaptabilité au contenu informationnel des images. Une étude comparative des principaux classifieurs semi-supervisés (connaissance du nombre de classes) et non supervisés (C-moyennes, FCM, ISODATA, AP) a montré la supériorité de la méthode de propagation d'affinité (AP). Mais malgré un meilleur taux de classification, cette méthode présente deux inconvénients majeurs: une surestimation du nombre de classes dans sa version non supervisée, et l'impossibilité de l'appliquer sur des images de grande taille (complexité de calcul quadratique). Nous avons proposé une approche qui apporte des solutions à ces deux problèmes. Elle consiste tout d'abord à réduire le nombre d'individus à classer avant l'application de l'AP en agrégeant les pixels à très forte similarité. Pour estimer le nombre de classes, la méthode AP utilise de manière implicite un paramètre de préférence p dont la valeur initiale correspond à la médiane des valeurs de la matrice de similarité. Cette valeur conduisant souvent à une sur-segmentation des images, nous avons introduit une étape permettant d'optimiser ce paramètre en maximisant un critère lié à la variance interclasse. L'approche proposée a été testée avec succès sur des images synthétiques, mono et multi-composantes. Elle a été également appliquée et comparée sur des images hyperspectrales de grande taille spatiale (1000 × 1000 pixels × 62 bandes) avec succès dans le cadre d'une application réelle pour la détection des plantes invasives
The interest in hyperspectral image data has been constantly increasing during the last years. Indeed, hyperspectral images provide more detailed information about the spectral properties of a scene and allow a more precise discrimination of objects than traditional color images or even multispectral images. High spatial and spectral resolutions of hyperspectral images enable to precisely characterize the information pixel content. Though the potentialities of hyperspectral technology appear to be relatively wide, the analysis and the treatment of these data remain complex. In fact, exploiting such large data sets presents a great challenge. In this thesis, we are mainly interested in the reduction and partitioning of hyperspectral images of high spatial dimension. The proposed approach consists essentially of two steps: features extraction and classification of pixels of an image. A new approach for features extraction based on spatial and spectral tri-occurrences matrices defined on cubic neighborhoods is proposed. A comparative study shows the discrimination power of these new features over conventional ones as well as spectral signatures. Concerning the classification step, we are mainly interested in this thesis to the unsupervised and non-parametric classification approach because it has several advantages: no a priori knowledge, image partitioning for any application domain, and adaptability to the image information content. A comparative study of the most well-known semi-supervised (knowledge of number of classes) and unsupervised non-parametric methods (K-means, FCM, ISODATA, AP) showed the superiority of affinity propagation (AP). Despite its high correct classification rate, affinity propagation has two major drawbacks. Firstly, the number of classes is over-estimated when the preference parameter p value is initialized as the median value of the similarity matrix. Secondly, the partitioning of large size hyperspectral images is hampered by its quadratic computational complexity. Therefore, its application to this data type remains impossible. To overcome these two drawbacks, we propose an approach which consists of reducing the number of pixels to be classified before the application of AP by automatically grouping data points with high similarity. We also introduce a step to optimize the preference parameter value by maximizing a criterion related to the interclass variance, in order to correctly estimate the number of classes. The proposed approach was successfully applied on synthetic images, mono-component and multi-component and showed a consistent discrimination of obtained classes. It was also successfully applied and compared on hyperspectral images of high spatial dimension (1000 × 1000 pixels × 62 bands) in the context of a real application for the detection of invasive and non-invasive vegetation species

40

Musé, Pablo. "Sur la définition et la reconnaissance des formes planes dans les images numériques." Phd thesis, École normale supérieure de Cachan - ENS Cachan, 2004. http://tel.archives-ouvertes.fr/tel-00133648.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse traite de la reconnaissance des formes dans les images numériques. Une représentation appropriée des formes est déduite de l'analyse des perturbations qui n'affectent pas la reconnaissance : changement de contraste, occlusion partielle, bruit, perspective. Les atomes de cette représentation, appelés "éléments de forme", fournissent des descriptions semi-locales des formes. L'appariement de ces éléments permet de reconnaitre des formes partielles. Les formes globales sont alors définies comme des groupes de formes partielles présentant une cohérence dans leur disposition spatiale. L'aspect fondamental de ce travail est la mise en place de seuils non-supervisés, à tous les niveaux de décision du processus de reconnaissance. Nous proposons des règles de décision pour la en correcpondance de formes partielles ainsi que pour la détection de formes globales. Le cadre proposé est basé sur une méthodologie générale de la détection dans laquelle un événement est significatif s'il n'est pas susceptible d'arriver par hasard.

41

Ternynck, Camille. "Contributions à la modélisation de données spatiales et fonctionnelles : applications." Thesis, Lille 3, 2014. http://www.theses.fr/2014LIL30062/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Dans ce mémoire de thèse, nous nous intéressons à la modélisation non paramétrique de données spatiales et/ou fonctionnelles, plus particulièrement basée sur la méthode à noyau. En général, les échantillons que nous avons considérés pour établir les propriétés asymptotiques des estimateurs proposés sont constitués de variables dépendantes. La spécificité des méthodes étudiées réside dans le fait que les estimateurs prennent en compte la structure de dépendance des données considérées.Dans une première partie, nous appréhendons l’étude de variables réelles spatialement dépendantes. Nous proposons une nouvelle approche à noyau pour estimer les fonctions de densité de probabilité et de régression spatiales ainsi que le mode. La particularité de cette approche est qu’elle permet de tenir compte à la fois de la proximité entre les observations et de celle entre les sites. Nous étudions les comportements asymptotiques des estimateurs proposés ainsi que leurs applications à des données simulées et réelles.Dans une seconde partie, nous nous intéressons à la modélisation de données à valeurs dans un espace de dimension infinie ou dites "données fonctionnelles". Dans un premier temps, nous adaptons le modèle de régression non paramétrique introduit en première partie au cadre de données fonctionnelles spatialement dépendantes. Nous donnons des résultats asymptotiques ainsi que numériques. Puis, dans un second temps, nous étudions un modèle de régression de séries temporelles dont les variables explicatives sont fonctionnelles et le processus des innovations est autorégressif. Nous proposons une procédure permettant de tenir compte de l’information contenue dans le processus des erreurs. Après avoir étudié le comportement asymptotique de l’estimateur à noyau proposé, nous analysons ses performances sur des données simulées puis réelles.La troisième partie est consacrée aux applications. Tout d’abord, nous présentons des résultats de classification non supervisée de données spatiales (multivariées), simulées et réelles. La méthode de classification considérée est basée sur l’estimation du mode spatial, obtenu à partir de l’estimateur de la fonction de densité spatiale introduit dans le cadre de la première partie de cette thèse. Puis, nous appliquons cette méthode de classification basée sur le mode ainsi que d’autres méthodes de classification non supervisée de la littérature sur des données hydrologiques de nature fonctionnelle. Enfin, cette classification des données hydrologiques nous a amené à appliquer des outils de détection de rupture sur ces données fonctionnelles
In this dissertation, we are interested in nonparametric modeling of spatial and/or functional data, more specifically based on kernel method. Generally, the samples we have considered for establishing asymptotic properties of the proposed estimators are constituted of dependent variables. The specificity of the studied methods lies in the fact that the estimators take into account the structure of the dependence of the considered data.In a first part, we study real variables spatially dependent. We propose a new kernel approach to estimating spatial probability density of the mode and regression functions. The distinctive feature of this approach is that it allows taking into account both the proximity between observations and that between sites. We study the asymptotic behaviors of the proposed estimates as well as their applications to simulated and real data. In a second part, we are interested in modeling data valued in a space of infinite dimension or so-called "functional data". As a first step, we adapt the nonparametric regression model, introduced in the first part, to spatially functional dependent data framework. We get convergence results as well as numerical results. Then, later, we study time series regression model in which explanatory variables are functional and the innovation process is autoregressive. We propose a procedure which allows us to take into account information contained in the error process. After showing asymptotic behavior of the proposed kernel estimate, we study its performance on simulated and real data.The third part is devoted to applications. First of all, we present unsupervised classificationresults of simulated and real spatial data (multivariate). The considered classification method is based on the estimation of spatial mode, obtained from the spatial density function introduced in the first part of this thesis. Then, we apply this classification method based on the mode as well as other unsupervised classification methods of the literature on hydrological data of functional nature. Lastly, this classification of hydrological data has led us to apply change point detection tools on these functional data

42

Frévent, Camille. "Contribution to spatial statistics for high-dimensional and survival data." Electronic Thesis or Diss., Université de Lille (2022-....), 2022. http://www.theses.fr/2022ULILS032.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Dans ce mémoire de thèse nous nous intéressons aux méthodes d'apprentissage statistique pour données spatiales en grande dimension et données de survie. L'objectif est de développer des méthodes de détection de clusters non supervisées avec des statistiques de scan spatiales, à la fois dans le cadre de l'analyse de données fonctionnelles, mais aussi pour l'analyse de données de survie. Nous considérons tout d'abord des données fonctionnelles univariées ou multivariées mesurées spatialement dans une région géographique. Nous proposons des statistiques de scan paramétriques et non paramétriques dans ce contexte. Ces approches fonctionnelles univariées et multivariées évitent la perte d'information respectivement d'une méthode univariée ou multivariée appliquée sur des observations moyennes au cours de la période d'étude. Nous étudions également les performances de ces approches sur des études de simulation, avant de les appliquer sur des données réelles économiques et environnementales. Nous nous intéressons également à la détection de clusters spatiaux de temps de survie. Bien qu'il existe déjà dans la littérature des approches de statistiques de scan spatiale dans ce cadre, celles-ci ne permettent pas de prendre en compte une éventuelle corrélation entre les temps de survie des individus d'une même unité spatiale. De plus, la nature spatiale des données implique une potentielle dépendance entre les unités spatiales, qui doit être prise en compte. L'originalité de l'approche que nous proposons est le développement d'une nouvelle statistique de scan spatiale basée sur un modèle de Cox à fragilité spatiale, permettant à la fois la prise en compte de la corrélation entre les temps de survie des individus d'une même unité spatiale, et une éventuelle dépendance entre les unités spatiales. Nous avons comparé les performances de cette nouvelle approche avec les méthodes existantes et nous les avons appliquées sur des données réelles de temps de survie des personnes âgées atteintes d'insuffisance rénale chronique terminale dans le nord de la France. Enfin, nous proposons un certain nombre de perspectives à notre travail, à la fois avec des prolongements directs à cette thèse dans le cadre des statistiques de scan spatiales pour données en grande dimension et données de survie, mais également avec des perspectives dans un cadre plus large d'analyse spatiale non supervisée (clustering spatial pour données en grande dimension modélisées par des tenseurs), et d'apprentissage spatial supervisé (régression)
In this thesis, we are interested in statistical spatial learning for high-dimensional and survival data. The objective is to develop unsupervised cluster detection methods by means of spatial scan statistics in the contexts of functional data analysis in one hand and survival data analysis in the other hand. In the first two chapters, we consider univariate and multivariate functional data measured spatially in a geographical area. We propose both parametric and nonparametric spatial scan statistics in this framework. These univariate and multivariate functional approaches avoid the loss of information respectively of a univariate method or a multivariate method applied on the average of the observations during the study period. We study the new methods' performances in simulation studies before applying them on economic and environmental real data. We are also interested in spatial cluster detection of survival data. Although there exist already spatial scan statistics approaches in this framework in the literature, these do not take into account a potential correlation of survival times between individuals of the same spatial unit. Moreover, the spatial nature of the data implies a potential dependence between the spatial units, which should be taken into account. The originality of our proposed method is to introduce a spatial scan statistic based on a Cox model with a spatial frailty, allowing to take into account both the potential correlation between the survival times of the individuals of the same spatial unit and the potential dependence between the spatial units. We compare the performances of this new approach with the existing methods and apply them on real data corresponding to survival times of elderly people with end-stage kidney failure in northern France. Finally, we propose a number of perspectives to our work, both in a direct extension of this thesis in the framework of spatial scan statistics for high-dimensional and survival data, but also perspectives in a broader context of unsupervised spatial analysis (spatial clustering for high-dimensional data (tensors)), and supervised spatial learning (regression)

43

Zhao, Zilong. "Extracting knowledge from macroeconomic data, images and unreliable data." Thesis, Université Grenoble Alpes, 2020. http://www.theses.fr/2020GRALT074.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L'identification de système et l'apprentissage automatique sont deux concepts similaires utilisés indépendamment dans la communauté automatique et informatique. L'identification des systèmes construit des modèles à partir de données mesurées. Les algorithmes d'apprentissage automatique construisent des modèles basés sur des données d'entraînement (propre ou non), afin de faire des prédictions sans être explicitement programmé pour le faire. Sauf la précision de prédiction, la vitesse de convergence et la stabilité sont deux autres facteurs clés pour évaluer le processus de l'apprentissage, en particulier dans le cas d'apprentissage en ligne, et ces propriétés ont déjà été bien étudiées en théorie du contrôle. Donc, cette thèse implémente des recherches suivantes : 1) Identification du système et contrôle optimal des données macroéconomiques : Nous modélisons d'abord les données macroéconomiques chinoises sur le modèle VAR (Vector Auto-Regression), puis identifions la relation de cointégration entre les variables et utilisons le Vector Error Correction Model (VECM) pour étudier le court terme fluctuations autour de l'équilibre à long terme, la causalité de Granger est également étudiée avec VECM. Ce travail révèle la tendance de la transition de la croissance économique de la Chine : de l'exportation vers la consommation ; La deuxième étude est avec des données de la France. On représente le modèle dans l'espace d'états, mettons le modèle dans un cadre de feedback-control, le contrôleur est conçu par un régulateur linéaire-quadratique (LQR). On peut également imposer des perturbations sur les sorties et des contraintes sur les entrées, ce qui simule la situation réelle de crise économique. 2) Utilisation de la théorie du contrôle pour améliorer l'apprentissage en ligne du réseau neuronal profond : Nous proposons un algorithme de taux d'apprentissage basé sur les performances : E (Exponential)/PD (Proportional Derivative) contrôle, qui considère le Convolutional Neural Network (CNN) comme une plante, taux d'apprentissage comme signal de commande et valeur de loss comme signal d'erreur. Le résultat montre que E/PD surpasse l'état de l'art en termes de précision finale, de loss finale et de vitesse de convergence, et le résultat est également plus stable. Cependant, une observation des expériences E/PD est que le taux d'apprentissage diminue tandis que la loss diminue continuellement. Mais la loss diminue, le modèle s’approche d’optimum, on ne devait pas diminuer le taux d'apprentissage. Pour éviter cela, nous proposons un event-based E/PD. Le résultat montre qu'il améliore E/PD en précision finale, loss finale et vitesse de convergence ; Une autre observation de l'expérience E/PD est que l'apprentissage en ligne fixe des époques constantes pour chaque batch. Puisque E/PD converge rapidement, l'amélioration significative ne vient que des époques initiales. Alors, nous proposons un autre event-based E/PD, qui inspecte la loss historique. Le résultat montre qu'il peut épargner jusqu'à 67% d'époques sur la donnée CIFAR-10 sans dégrader beaucoup les performances.3) Apprentissage automatique à partir de données non fiables : Nous proposons un cadre générique : Robust Anomaly Detector (RAD), la partie de sélection des données de RAD est un cadre à deux couches, où la première couche est utilisée pour filtrer les données suspectes, et la deuxième couche détecte les modèles d'anomalie à partir des données restantes. On dérive également trois variantes de RAD : voting, active learning et slim, qui utilisent des informations supplémentaires, par exempe, les opinions des classificateurs conflictuels et les requêtes d'oracles. Le résultat montre que RAD peut améliorer la performance du modèle en présence de bruit sur les étiquettes de données. Trois variations de RAD montrent qu'elles peuvent toutes améliorer le RAD original, et le RAD Active Learning fonctionne presque aussi bien que dans le cas où il n'y a pas de bruit sur les étiquettes
System identification and machine learning are two similar concepts independently used in automatic and computer science community. System identification uses statistical methods to build mathematical models of dynamical systems from measured data. Machine learning algorithms build a mathematical model based on sample data, known as "training data" (clean or not), in order to make predictions or decisions without being explicitly programmed to do so. Except prediction accuracy, converging speed and stability are another two key factors to evaluate the training process, especially in the online learning scenario, and these properties have already been well studied in control theory. Therefore, this thesis will implement the interdisciplinary researches for following topic: 1) System identification and optimal control on macroeconomic data: We first modelize the China macroeconomic data on Vector Auto-Regression (VAR) model, then identify the cointegration relation between variables and use Vector Error Correction Model (VECM) to study the short-time fluctuations around the long-term equilibrium, Granger Causality is also studied with VECM. This work reveals the trend of China's economic growth transition: from export-oriented to consumption-oriented; Due to limitation of China economic data, we turn to use France macroeconomic data in the second study. We represent the model in state-space, put the model into a feedback control framework, the controller is designed by Linear-Quadratic Regulator (LQR). The system can apply the control law to bring the system to a desired state. We can also impose perturbations on outputs and constraints on inputs, which emulates the real-world situation of economic crisis. Economists can observe the recovery trajectory of economy, which gives meaningful implications for policy-making. 2) Using control theory to improve the online learning of deep neural network: We propose a performance-based learning rate algorithm: E (Exponential)/PD (Proportional Derivative) feedback control, which consider the Convolutional Neural Network (CNN) as plant, learning rate as control signal and loss value as error signal. Results show that E/PD outperforms the state-of-the-art in final accuracy, final loss and converging speed, and the result are also more stable. However, one observation from E/PD experiments is that learning rate decreases while loss continuously decreases. But loss decreases mean model approaches optimum, we should not decrease the learning rate. To prevent this, we propose an event-based E/PD. Results show that it improves E/PD in final accuracy, final loss and converging speed; Another observation from E/PD experiment is that online learning fixes a constant training epoch for each batch. Since E/PD converges fast, the significant improvement only comes from the beginning epochs. Therefore, we propose another event-based E/PD, which inspects the historical loss, when the progress of training is lower than a certain threshold, we turn to next batch. Results show that it can save up to 67% epochs on CIFAR-10 dataset without degrading much performance. 3) Machine learning out of unreliable data: We propose a generic framework: Robust Anomaly Detector (RAD), The data selection part of RAD is a two-layer framework, where the first layer is used to filter out the suspicious data, and the second layer detects the anomaly patterns from the remaining data. We also derive three variations of RAD namely, voting, active learning and slim, which use additional information, e.g., opinions of conflicting classifiers and queries of oracles. We iteratively update the historical selected data to improve accumulated data quality. Results show that RAD can continuously improve model's performance under the presence of noise on labels. Three variations of RAD show they can all improve the original setting, and the RAD Active Learning performs almost as good as the case where there is no noise on labels

44

Puigt, Matthieu. "Méthodes de séparation aveugle de sources fondées sur des transformées temps-fréquence : application à des signaux de parole." Toulouse 3, 2007. http://thesesups.ups-tlse.fr/217/.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Plusieurs méthodes de séparation aveugle de source (SAS), fondées sur des transformées temps-fréquence (TF), ont été proposées au cours de cette thèse. En sortie des systèmes utilisés, une contribution de chaque source est estimée, uniquement à l'aide des signaux mélangés. Toutes les méthodes étudiées dans ce manuscrit trouvent des petites zones du plan TF où une seule source est présente et estiment dans ces zones les paramètres de mélange. Ces approches sont particulièrement adaptées aux sources non-stationnaires. Nous avons tout d'abord étudié et amélioré des méthodes proposées précédemment par l'équipe, basées sur des critères de variance ou de corrélation, pour des mélanges linéaires instantanés. Elles apportent d'excellentes performances pour des signaux de parole et peuvent aussi séparer des spectres issus de données astrophysiques. Cependant, la nature des mélanges qu'elles peuvent traiter limite leur champ d'application. Nous avons donc étendu ces approches à des mélanges plus réalistes. Les premières extensions considèrent des mélanges de sources atténuées et décalées temporellement, ce qui correspond physiquement aux mélanges en chambre anéchoïque. Elles nécessitent des hypothèses de parcimonie beaucoup moins fortes que certaines approches de la littérature, tout en traitant le même type de mélanges. Nous avons étudié l'apport de méthodes de classification non-supervisée sur nos approches et avons obtenu de bonnes performances pour des mélanges de signaux de parole. Enfin, une extension théorique aux mélanges convolutifs généraux est décrite mais nécessite de fortes hypothèses de parcimonie et le réglage d'indéterminations propres aux méthodes fréquentielles
Several time-frequency (TF) blind source separation (BSS) methods have been proposed in this thesis. In the systems output that have been used, a contribution of each source is estimated, using only mixed signals. All the methods proposed in this manuscript find tiny TF zones where only one source is active and estimate the mixing parameters in these zones. These approaches are particularly well suited for non-stationary sources (speech, music). We first studied and improved linear instantaneous methods based on variance or correlation criteria, that have been previously proposed by our team. They yield excellent performance for signals of speech and can also separate spectra from astrophysical data. However, the nature of the mixtures that they can process limits their application fields. We have extended these approaches to more realistic mixtures. The first extensions consider attenuated and delayed mixtures of sources, which corresponds to mixtures in anechoic chamber. They require less restrictive sparsity assumptions than some approaches previously proposed in the literature, while addressing the same type of mixtures. We have studied the contribution of clustering techniques to our approaches and have achieved good performance for mixtures of speech signals. Lastly, a theoretical extension of these methods to general convolutive mixtures is described. It needs strong sparsity hypotheses and we have to solve classical indeterminacies of frequency-domain BSS methods

45

Kalinicheva, Ekaterina. "Unsupervised satellite image time series analysis using deep learning techniques." Electronic Thesis or Diss., Sorbonne université, 2020. http://www.theses.fr/2020SORUS335.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse présente un ensemble d'algorithmes non-supervisés pour l'analyse générique de séries temporelles d'images satellites (STIS). Nos algorithmes exploitent des méthodes de machine learning et, notamment, les réseaux de neurones afin de détecter les différentes entités spatio-temporelles et leurs changements éventuels dans le temps. Nous visons à identifier trois types de comportement temporel : les zones sans changements, les changements saisonniers, les changements non triviaux (changements permanents comme les constructions, la rotation des cultures agricoles, etc).Par conséquent, nous proposons deux frameworks : pour la détection et le clustering des changements non-triviaux et pour le clustering des changements saisonniers et des zones sans changements. Le premier framework est composé de deux étapes : la détection de changements bi-temporels et leur interprétation dans le contexte multi-temporel avec une approche basée graphes. La détection de changements bi-temporels est faite pour chaque couple d’images consécutives et basée sur la transformation des features avec les autoencodeurs (AEs). A l’étape suivante, les changements à différentes dates qui appartiennent à la même zone géographique forment les graphes d’évolution qui sont par la suite clusterisés avec un modèle AE de réseaux de neurones récurrents. Le deuxième framework présente le clustering basé objets de STIS. Premièrement, la STIS est encodée en image unique avec un AE convolutif 3D multi-vue. Dans un deuxième temps, nous faisons la segmentation en deux étapes en utilisant à la fois l’image encodée et la STIS. Finalement, les segments obtenus sont clusterisés avec leurs descripteurs encodés
This thesis presents a set of unsupervised algorithms for satellite image time series (SITS) analysis. Our methods exploit machine learning algorithms and, in particular, neural networks to detect different spatio-temporal entities and their eventual changes in the time.In our thesis, we aim to identify three different types of temporal behavior: no change areas, seasonal changes (vegetation and other phenomena that have seasonal recurrence) and non-trivial changes (permanent changes such as constructions or demolishment, crop rotation, etc). Therefore, we propose two frameworks: one for detection and clustering of non-trivial changes and another for clustering of “stable” areas (seasonal changes and no change areas). The first framework is composed of two steps which are bi-temporal change detection and the interpretation of detected changes in a multi-temporal context with graph-based approaches. The bi-temporal change detection is performed for each pair of consecutive images of the SITS and is based on feature translation with autoencoders (AEs). At the next step, the changes from different timestamps that belong to the same geographic area form evolution change graphs. The graphs are then clustered using a recurrent neural networks AE model to identify different types of change behavior. For the second framework, we propose an approach for object-based SITS clustering. First, we encode SITS with a multi-view 3D convolutional AE in a single image. Second, we perform a two steps SITS segmentation using the encoded SITS and original images. Finally, the obtained segments are clustered exploiting their encoded descriptors

46

Tonnelier, Emeric. "Apprentissage de représentations pour les traces de mobilité." Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS389.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Le transport urbain est un enjeu crucial pour la gestion des territoires. Dans les grandes métropoles, les transports publics urbains représentent le principal moyen de déplacement de nombreux habitants. Si la caractérisation des réseaux et des usagers est historiquement abordée par l'analyse de données de questionnaires, depuis la fin des années 1990, nous voyons l'apparition de nouveaux types de données (GPS, données billétiques, etc.) qui décrivent la mobilité des individus en ville et son évolution à moyen terme. Disponibles dans de grandes quantités, échantillonnés précisément, mais contenant peu de sémantique et beaucoup de bruit. Au cours de cette thèse, nous proposons de travailler sur la modélisation des usagers et du réseau d'une part, et la détection d'anomalies d'autre part, à partir de données collectées dans un contexte de réseaux de transports urbains, en utilisant des méthodes d'apprentissage automatique. Grâce à ces méthodes adaptées à l'analyse et la mise en valeur de grandes masses de données, nous voulons traiter ces données brutes et bruitées. Nous porterons une attention particulière sur l'adaptation de ces méthodes aux problématiques particulières des données de mobilité. Nous verrons que la modélisation orientée usager d'un réseau de transports permet d'obtenir des profils fins et robustes que l'on peut agréger efficacement afin d'obtenir une valorisation plus précise et plus descriptive du réseau qu'une modélisation orientée réseau; que l'utilisation de ces profils permet de traiter des tâches complexes; que la contextualisation des modèles (spatial, temporel, comportements partagés) améliore les performances quantitatives et qualitatives
Urban transport is a crucial issue for territories management. In large cities, many inhabitants have to rely on urban public transport to move around, go to work, visit friends. Historically, urban transportation analysis is based on surveys. Questions are ask to a panel of users, leading to the introduction of various bias and no dynamic informations. Since the late 1990s, we see the emergence of new types of data (GPS, smart cards log, etc.) that describe the mobility and of individuals in the city. Available in large quantities, sampled precisely, but containing few semantics and a lot of noise, they allow a monitoring of the individuals's mobility in the medium term. During this thesis, we propose to work on the modeling of users and the network on the one hand, and the detection of anomalies on the other hand. We will do so using data collected automatically in a context of urban transport networks and using machine learning methods. Moreover, we will focus on the design of methods suited to deal with the particularities of mobility data. We will see that the user-oriented modeling of a transport network allows to obtain fine and robust profiles that can be aggregated efficiently in order to obtain a more precise and more descriptive valuation of the network than a network-oriented modeling. Then, we will explain that the use of these profiles makes it possible to handle complex tasks such as anomaly detection or partitioning of network stations. Finally we will show that the contextualization of the models (spatial context, temporal, shared behaviors) improves the quantitative and qualitative performances

47

Frédéric, Schmidt. "Classification de la surface de Mars par imagerie hyperspectrale OMEGA. Suivi spatio-temporel et étude des dépôts saisonniers de CO2 et H2O." Phd thesis, 2007. http://tel.archives-ouvertes.fr/tel-00192298.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L'étude des surfaces planétaires a été profondément modifiée par la dernière génération d'instruments spatiaux : les spectro-imageurs. Ces détecteurs produisent de nombreuses images hyperspectrales, pour lesquelles chaque pixel est associé à un spectre. Ils permettent un suivi spatial et temporel des propriétés optiques des sols. Le premier objectif de cette thèse est de proposer des outils permettant de traiter la grande quantité d'images et de spectres afin d'aborder des problématiques planétologiques. Deux types d'analyse des images produites par l'instrument OMEGA (Mars Express/ESA) sont avancées : (i) WAVANGLET, une méthode rapide de détection des corps chimiques au sol, (ii) JADE+BPSS, une séparation de source en aveugle qui permet de détecter des corps chimiques sans a priori.
Les régions polaires de Mars sont le siège d'un cycle climatique annuel d'échange de CO2 entre atmosphère et surface. Pendant la nuit polaire, le CO2 atmosphérique se condense au sol, tandis qu'il se sublime à nouveau pour gonfler l'atmosphère, dès les premiers rayons du soleil au printemps. Ce cycle a été mis à jour depuis les années 60 mais aujourd'hui encore, le détail microphysique d'interaction entre atmosphère et surface demeure inconnu. Le second objectif de cette thèse est d'établir un modèle de sublimation des dépôts saisonniers martiens. Le bilan de masse est simulé par un bilan radiatif sur une surface rugueuse. La confrontation de ce modèle avec différents jeux de données spatiales a permis de montrer que la sublimation de la calotte saisonnière sud de Mars est contrôlée majoritairement par son albédo. Des études ultérieures seront nécessaires pour saisir quels sont les mécanismes à l'origine des variabilités d'albédo (métamorphisme, contamination en poussière, . . . ).

Dissertations / Theses on the topic 'Détection non supervisée d'anomalies'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles