Bibliografie tematiche / Apprentissage automatique non supervisée

Letteratura scientifica selezionata sul tema "Apprentissage automatique non supervisée"

Autore: Grafiati

Pubblicato: 6 luglio 2024

Cita una fonte nei formati APA, MLA, Chicago, Harvard e in molti altri stili

Scegli il tipo di fonte:

Consulta la lista di attuali articoli, libri, tesi, atti di convegni e altre fonti scientifiche attinenti al tema "Apprentissage automatique non supervisée".

Accanto a ogni fonte nell'elenco di riferimenti c'è un pulsante "Aggiungi alla bibliografia". Premilo e genereremo automaticamente la citazione bibliografica dell'opera scelta nello stile citazionale di cui hai bisogno: APA, MLA, Harvard, Chicago, Vancouver ecc.

Puoi anche scaricare il testo completo della pubblicazione scientifica nel formato .pdf e leggere online l'abstract (il sommario) dell'opera se è presente nei metadati.

Articoli di riviste sul tema "Apprentissage automatique non supervisée":

Jacopin, Eliott, Antoine Cornuéjols, Christine Martin, Farzaneh Kazemipour e Christophe Sausse. "Détection automatique de plantes au sein d’images aériennes de champs par apprentissage non supervisé et approche multi-agents". Revue Ouverte d'Intelligence Artificielle 2, n. 1 (17 novembre 2021): 123–56. http://dx.doi.org/10.5802/roia.12.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Heddam, Salim, Abdelmalek Bermad e Noureddine Dechemi. "Modélisation de la dose de coagulant par les systèmes à base d’inférence floue (ANFIS) application à la station de traitement des eaux de Boudouaou (Algérie)". Revue des sciences de l’eau 25, n. 1 (28 marzo 2012): 1–17. http://dx.doi.org/10.7202/1008532ar.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

La coagulation est l’une des étapes les plus importantes dans le traitement des eaux. La difficulté principale est de déterminer la dose optimale de coagulant à injecter en fonction des caractéristiques de l’eau brute. Un mauvais contrôle de ce procédé peut entraîner une augmentation importante des coûts de fonctionnement et le non-respect des objectifs de qualité en sortie de la station de traitement. Le sulfate d’aluminium (Al2SO4.18H2O) est le réactif coagulant le plus généralement utilisé. La détermination de la dose de coagulant se fait au moyen de l’essai dit de « Jar Test » conduit en laboratoire. Ce type d’approche a le désavantage d’avoir un temps de retard relativement long et ne permet donc pas un contrôle automatique du procédé de coagulation. Le présent article décrit un modèle neuro flou de type Takagi Sugeno (TK), développé pour la prédiction de la dose de coagulant utilisée lors de la phase de clarification dans la station de traitement des eaux de Boudouaou qui alimente la ville d’Alger en eau potable. Le modèle ANFIS (système d’inférence flou à base de réseaux de neurones adaptatifs), qui combine les techniques floues et neuronales en formant un réseau à apprentissage supervisé, a été appliqué durant la phase de calage et testé en période de validation. Les résultats obtenus par le modèle ANFIS ont été comparés avec ceux obtenus avec un réseau de neurones de type perceptron multicouche (MLP) et un troisième modèle à base de regression linéaire multiple (MLR). Un coefficient de détermination (R2) de l’ordre de 0,92 en période de validation a été obtenu avec le modèle ANFIS, alors que pour le MLP, il est de l’ordre de 0,75, et que pour le modèle MLR, il ne dépasse pas 0,35. Les résultats obtenus sont d’une grande importance pour la gestion de l’installation.

Chehata, Nesrine, Karim Ghariani, Arnaud Le Bris e Philippe Lagacherie. "Apport des images pléiades pour la délimitation des parcelles agricoles à grande échelle". Revue Française de Photogrammétrie et de Télédétection, n. 209 (29 gennaio 2015): 165–71. http://dx.doi.org/10.52638/rfpt.2015.220.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les pratiques et les arrangements spatiaux des parcelles agricoles ont un fort impact sur les flux d'eau dans les paysages cultivés . Afin de surveiller les paysages à grande échelle, il ya un fort besoin de délimitation automatique ou semi-automatique des parcelles agricoles. Cet article montre la contribution des images satellitaires à très haute résolution spatiales, telles que Pléiades, pour délimiter le parcellaire agricole de manière automatique .On propose une approche originale utilisant une classification binaire supervisée des limites. Une approche d'apprentissage actif est proposée afin d'adapter le modèle de classifieur au contexte local permettant ainsi la délimitation parcellaire à grande échelle.Le classifieur des Forêts Aléatoires est utilisé pour la classification et la sélection des attributs . Le concept de marge non supervisée est utilisé comme mesure d'incertitude dans l'algorithme d'apprentissage actif. En outre, un étiquetage automatique des pixels incertains est proposé en utilisant une approche hybride qui combinant une approche région et le concept de marge.Des résultats satisfaisants sont obtenus sur une image Pléiades. Différentes stratégies d'apprentissage sont comparées et discutées . Pour un cas d'étude opérationnel, un modèle global ou bien un modèle simple enrichi peuvent être utilisés en fonction des données de terrain disponibles.

Sbihi, Mohammed, Ahmed Moussa, Jack-Gérard Postaire e Abderrahmane Sbihi. "Approche markovienne pour la classification automatique non supervisée de données multidimensionnelles". Journal Européen des Systèmes Automatisés 39, n. 9-10 (30 dicembre 2005): 1133–54. http://dx.doi.org/10.3166/jesa.39.1133-1154.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Benmostefa, Soumia, e Hadria Fizazi. "Classification automatique des images satellitaires optimisée par l'algorithme des chauves-souris". Revue Française de Photogrammétrie et de Télédétection, n. 203 (8 aprile 2014): 11–17. http://dx.doi.org/10.52638/rfpt.2013.25.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Cet article propose une nouvelle approche de classification automatique non supervisée des images. La classification est l'une des opérations les plus importantes dans plusieurs domaines d'analyse d'images telles que la médecine et la télédétection. Elle consiste à rechercher les différents thèmes constituant une scène représentée. Cependant, en raison de sa complexité plusieurs méthodes ont été proposées, spécifiquement des méthodes d'optimisation. Nous nous intéressons à la technique des chauves-souris, une métaheuristique d'optimisation biologique très récente, visant à modéliser le comportement d'écholocation des chauves-souris que nous allons adapter au problème de classification. Elle combine les avantages de plusieurs métaheuristiques telles que l'optimisation par essaims particulaires, les algorithmes génétiques et le recuit simulé.\\Une nouvelle approche de classification automatique basée sur l'algorithme des chauves-souris est implémentée et appliquée sur deux images, la première est synthétique contenant des objets polyédriques, la seconde est satellitaire représentant la région d'Oran ouest en Algérie. Les différentes expérimentations effectuées conduisent à des résultats satisfaisants et montrent l'efficacité de l'approche.

MANDEL, P., A. FLEURY, K. DELABRE e V. HEIM. "La conductivité électrique, témoin opérationnel de la qualité de l’eau dans un réseau de distribution". Techniques Sciences Méthodes 11 (21 novembre 2022): 27–37. http://dx.doi.org/10.36904/tsm/202211027.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Cette étude montre comment les données de conductivité mesurées par des sondes déployées sur un réseau de distribution d’eau potable peuvent être exploitées de manière automatique pour résumer et expliquer les variations spatiales de qualité d’eau. Un algorithme de classification non supervisée est utilisé pour regrouper les sondes dont les profils de conductivité se ressemblent et proposer ainsi des groupes représentant des zones de qualité d’eau homogène. La méthodologie est évaluée sur le réseau du Syndicat des eaux d’Île-de-France (Sedif), à partir des données de 215 sondes mesurant la conductivité toutes les cinq minutes. Deux types de résultats sont présentés : d’une part, l’image d’ensemble de la qualité de l’eau dans le réseau ; d’autre part, une typologie des différents phénomènes mis au jour par la méthode. Les résultats présentés montrent que les différentes zones de qualité d’eau connues par l’expertise métier sont repérées automatiquement, et que de nombreuses sous-zones jusqu’alors inconnues sont identifiées. Ainsi les conséquences des restitutions de réservoir, des interconnexions avec des distributeurs voisins, de l’âge de l’eau, des mélanges d’eaux produites par différentes usines, sont mises en évidence par la méthodologie proposée. Pour le réseau du Sedif, les résultats ont montré que 96 % des sondes pouvaient être affectées à un groupe. Cette méthodologie peut être appliquée à tout réseau équipé de capteurs de conductivité, dès lors qu’il est susceptible d’être alimenté par des eaux de qualités différentes.

Forestier, Michèle. "De la naissance aux premiers pas". Thérapie Psychomotrice et Recherches N° 187, n. 3 (1 luglio 2022): 36–42. http://dx.doi.org/10.3917/tpr.187.0036.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Apprendre à marcher… quoi de plus naturel et pourtant, quel exploit ! Le petit d’homme arrive au monde complètement dépendant de l’adulte et parvient en moins de deux ans à maîtriser suffisamment son corps pour se déplacer debout sur ses deux jambes ! Cet apprentissage se fait de manière progressive, à travers des étapes bien définies qui permettent à l’enfant d’arriver à la position debout en toute sécurité et à utiliser la marche de manière automatique tout au long de la journée, avec de plus en plus d’assurance. Stimulés ou non, tous les bébés en bonne santé parviennent à la marche. Si certains passent de longs moments à explorer l’espace en rampant ou à quatre pattes, tous n’ont pas le loisir de se déplacer au sol avant de marcher. Emmi Pikler, pédiatre hongroise, a observé, dès 1930 et pendant de nombreuses années, la motricité des bébés et leur développement social, intellectuel et affectif. Ses recherches scientifiques ont démontré que les enfants sains peuvent découvrir seuls les positions et déplacements qui conduisent à la marche (ils sont « programmés » pour le faire) et que leur développement global s’en trouve considérablement enrichi.

Ohmaid, Hicham, S. Eddarouich, A. Bourouhou e M. Timouya. "Comparison between SVM and KNN classifiers for iris recognition using a new unsupervised neural approach in segmentation". IAES International Journal of Artificial Intelligence (IJ-AI) 9, n. 3 (1 settembre 2020): 429. http://dx.doi.org/10.11591/ijai.v9.i3.pp429-438.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Un système biométrique d'identification et d'authentification permet la reconnaissance automatique d'un individu en fonction de certaines caractéristiques ou caractéristiques uniques qu'il possède. La reconnaissance de l'iris est une méthode d'identification biométrique qui applique la reconnaissance des formes aux images de l'iris. En raison des motifs épigénétiques uniques de l'iris, la reconnaissance de l'iris est considérée comme l'une des méthodes les plus précises dans le domaine de l'identification biométrique. L'algorithme de segmentation proposé dans cet article commence par déterminer les régions de l'œil à l'aide d'une approche neuronale non supervisée, après que le contour de l'œil a été trouvé à l'aide du bord de Canny, la transformation de Hough est utilisée pour déterminer le centre et le rayon de la pupille et de l'iris. . Ensuite, la normalisation permet de transformer la région de l'iris circulaire segmenté en une forme rectangulaire de taille fixe en utilisant le modèle de feuille de caoutchouc de Daugman. Une transformation en ondelettes discrètes (DWT) est appliquée à l'iris normalisé pour réduire la taille des modèles d'iris et améliorer la précision du classificateur. Enfin, la base de données URIBIS iris est utilisée pour la vérification individuelle de l'utilisateur en utilisant le classificateur KNN ou la machine à vecteur de support (SVM) qui, sur la base de l'analyse du code de l'iris lors de l'extraction des caractéristiques, est discutée.

Tesi sul tema "Apprentissage automatique non supervisée":

Delsert, Stéphane. "Classification interactive non supervisée de données multidimensionnelles par réseaux de neurones à apprentissage cométitif". Lille 1, 1996. https://pepite-depot.univ-lille.fr/LIBRE/Th_Num/1996/50376-1996-214.pdf.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

L'idée de base de la classification interactive consiste à fournir à l'opérateur humain une représentation plane des données multidimensionnelles et un ensemble d'outils lui permettant de découvrir des groupements ou classes au sein de la population étudiée. Dans ce mémoire, nous étudions l'apport des réseaux de neurones à apprentissage compétitif dans le cadre de la classification interactive non supervisée. Après avoir abordé de manière succincte les méthodes de classification statistiques et neuronales dans le chapitre 1, nous présentons de manière détaillée les réseaux de neurones à apprentissage compétitif et les améliorations apportées ces dernières années dans le chapitre 2. Le chapitre 3 est consacré à la projection plane non linéaire par la carte de kohonen. Chaque neurone de la carte est représenté sous la forme d'un pixel sur 6'écran d'un ordinateur. Le niveau de gris d'un pixel reflète la position relative du vecteur poids du neurone dans l'espace d'observation. Nous proposons dans le chapitre 4, une méthodologie intégrant différentes méthodes de projection et des outils logiciels pour aider l'analyste dans sa tache de classification. Le dernier chapitre applique la démarche adoptée sur un exemple réel tire de la biométrie des abeilles et sur des exemples artificiels non linéairement séparables

Guérif, Sébastien. "Réduction de dimension en apprentissage numérique non supervisé". Paris 13, 2006. http://www.theses.fr/2006PA132032.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

La classification automatique - clustering - est une étape importante du processus d'extraction de connaissances à partir de données (ECD). Elle vise à découvrir la structure intrinsèque d'un ensemble d'objets en formant des regroupements - clusters - qui partagent des caractéristiques similaires. La complexité de cette tache s'est fortement accrue ces deux dernières décennies lorsque les masses de données disponibles ont vu leur volume exploser. En effet, le nombre d'objets présents dans les bases de données a fortement augmente mais également la taille de leur description. L'augmentation de la dimension des données a des conséquences non négligeables sur les traitements classiquement mis en œuvre: outre l'augmentation naturelle des temps de traitements, les approches classiques s'avèrent parfois inadaptées en présence de bruit ou de redondance. Dans cette thèse, nous nous intéressons à la réduction de dimension dans le cadre de la classification non supervisée. Différentes approches de sélection ou de pondération de variables sont proposées pour traiter les problèmes lies a la présence d'attributs redondants ou d'attributs fortement bruites : Nous proposons d'abord l'algorithme p-SOM qui limite l‘effet de la présence d'attributs redondants en calculant une pondération des attributs à partir d'une classification simultanée des objets et des attributs. Nous présentons ensuite une approche intégrée - embedded - de sélection de variables pour la classification automatique qui permet de découvrir à la fois le nombre de groupes d' objets présents dans les données mais aussi un sous-ensemble d'attributs pertinents. Nous terminons en présentant l'algorithme wβ -SOM qui introduit une pondération des attributs dans la fonction de coût des cartes auto-organisatrices - Self Organizing Maps - qui est ensuite optimisée itérativement en altérant trois étapes : optimisation des affectations, optimisation des prototypes et optimisation des poids. La pondération obtenue après convergence est ensuite utilisée pour proposer une approche filtre - Filter - de selection de variables. Nous concluons cette these en indiquant les limites des approches proposées et envisageant quelques axes à développer lors de la poursuite ces recherches.

Peyrache, Jean-Philippe. "Nouvelles approches itératives avec garanties théoriques pour l'adaptation de domaine non supervisée". Thesis, Saint-Etienne, 2014. http://www.theses.fr/2014STET4023/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Ces dernières années, l’intérêt pour l’apprentissage automatique n’a cessé d’augmenter dans des domaines aussi variés que la reconnaissance d’images ou l’analyse de données médicales. Cependant, une limitation du cadre classique PAC a récemment été mise en avant. Elle a entraîné l’émergence d’un nouvel axe de recherche : l’Adaptation de Domaine, dans lequel on considère que les données d’apprentissage proviennent d’une distribution (dite source) différente de celle (dite cible) dont sont issues les données de test. Les premiers travaux théoriques effectués ont débouché sur la conclusion selon laquelle une bonne performance sur le test peut s’obtenir en minimisant à la fois l’erreur sur le domaine source et un terme de divergence entre les deux distributions. Trois grandes catégories d’approches s’en inspirent : par repondération, par reprojection et par auto-étiquetage. Dans ce travail de thèse, nous proposons deux contributions. La première est une approche de reprojection basée sur la théorie du boosting et s’appliquant aux données numériques. Celle-ci offre des garanties théoriques intéressantes et semble également en mesure d’obtenir de bonnes performances en généralisation. Notre seconde contribution consiste d’une part en la proposition d’un cadre permettant de combler le manque de résultats théoriques pour les méthodes d’auto-étiquetage en donnant des conditions nécessaires à la réussite de ce type d’algorithme. D’autre part, nous proposons dans ce cadre une nouvelle approche utilisant la théorie des (epsilon, gamma, tau)-bonnes fonctions de similarité afin de contourner les limitations imposées par la théorie des noyaux dans le contexte des données structurées
During the past few years, an increasing interest for Machine Learning has been encountered, in various domains like image recognition or medical data analysis. However, a limitation of the classical PAC framework has recently been highlighted. It led to the emergence of a new research axis: Domain Adaptation (DA), in which learning data are considered as coming from a distribution (the source one) different from the one (the target one) from which are generated test data. The first theoretical works concluded that a good performance on the target domain can be obtained by minimizing in the same time the source error and a divergence term between the two distributions. Three main categories of approaches are derived from this idea : by reweighting, by reprojection and by self-labeling. In this thesis work, we propose two contributions. The first one is a reprojection approach based on boosting theory and designed for numerical data. It offers interesting theoretical guarantees and also seems able to obtain good generalization performances. Our second contribution consists first in a framework filling the gap of the lack of theoretical results for self-labeling methods by introducing necessary conditions ensuring the good behavior of this kind of algorithm. On the other hand, we propose in this framework a new approach, using the theory of (epsilon, gamma, tau)- good similarity functions to go around the limitations due to the use of kernel theory in the specific context of structured data

Cleuziou, Guillaume. "Une méthode de classification non-supervisée pour l'apprentissage de règles et la recherche d'information". Phd thesis, Université d'Orléans, 2004. http://tel.archives-ouvertes.fr/tel-00084828.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Le regroupement d'objets, dans un cadre non-supervisé, est une tâche importante et difficile en apprentissage. Ce processus intervient dans des contextes variés tels que la découverte de connaissances, la simplification dans le représentation ou la description d'un ensemble de données.

Nous proposons, dans cette étude, l'algorithme de clustering PoBOC permettant de structurer un ensemble d'objets en classes non-disjointes. Nous utilisons cette méthode de clustering comme outil de traitement dans deux applications très différentes.

- En apprentissage supervisé, l'organisation préalable des instances apporte une connaissance utile pour la tâche d'induction de règles propositionnelles et logiques.

- En Recherche d'Information, les ambiguïtés et subtilités de la langue naturelle induisent naturellement des recouvrements entre thématiques.

Dans ces deux domaines de recherche, l'intérêt d'organiser les objets en classes non-disjointes est confirmé par les études expérimentales adaptées.

Fischer, Aurélie. "Apprentissage statistique non supervisé : grande dimension et courbes principales". Paris 6, 2011. http://www.theses.fr/2011PA066142.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Le contexte général de cette thèse est celui de l’apprentissage statistique non supervisé. Nous nous intéressons aux problématiques de la quantification et des courbes principales, que nous étudions dans deux parties successives. La première partie, qui concerne la quantification, se divise en trois chapitres. Le premier chapitre présente quelques propriétés théoriques de la quantification et du clustering dans un espace de Banach, en utilisant des divergences de Bregman comme notion de distance. Dans le deuxième chapitre, qui traite du clustering de courbes dans le cadre de l’industrie nucléaire, nous examinons une méthode de réduction de la dimension reposant sur la projection sur une base hilbertienne. Le troisième chapitre est dédié au choix du nombre de groupes en clustering. La seconde partie de la thèse, consacrée aux courbes principales, comporte deux chapitres. Ces courbes paramétrées passant « au milieu » d’un nuage de points peuvent être vues comme une généralisation non linéaire de l’Analyse en Composantes Principales. Comme il existe différents points de vue sur les courbes principales, le premier chapitre propose une synthèse bibliographique sur ce sujet. Selon la définition retenue, une courbe principale dépend de certains paramètres, comme la longueur ou la courbure, qui doivent être correctement déterminés pour obtenir une courbe reflétant précisément la forme des données sans pour autant relier tous les points. Dans le second chapitre, adoptant une définition basée sur la minimisation d’un critère empirique de type moindres carrés, nous considérons le problème du choix de ces paramètres sous l’angle de la sélection de modèle par pénalisation.

Ribeiro, Swen. "Induction non-supervisée de schémas d’évènements à partir de textes journalistiques". Thesis, université Paris-Saclay, 2020. http://www.theses.fr/2020UPASS059.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

L'événement est un concept central dans plusieurs tâches du Traitement Automatique des Langues, en dépit de l'absence d'une définition unifiée de ce que recouvre cette notion. Le traitement des événements s'est structuré sous l'égide des campagnes d'évaluation MUC (Message Understanding Conference), qui fournissaient des structures de référence appelées schémas (templates), se présentant sous la forme d'un titre et d'une collection d'arguments (slots), chacun représentant un élément caractéristique de l'événement décrit (par exemple l'épicentre d'un séisme). La création de ces schémas requiert une connaissance experte et est donc longue, coûteuse et difficile à étendre à un large ensemble de domaines de spécialité.En parallèle de ces travaux, la quantité de données produites par les individus et les organisations a crû de manière exponentielle, ouvrant des perspectives applicatives inédites. Cette croissance a notamment favorisé l'essor d'un nouveau paradigme journalistique appelé journalisme de données (data-journalism).Le présent travail se propose d'induire, à partir d'un grand volume de texte journalistique et sans supervision, des représentations synthétiques d'événements journalistiques comparables aux templates des campagnes MUC, dans l'objectif de faciliter l'exploitation de grandes masses de données par des journalistes des données. Pour ce faire, nous suivons une approche ascendante divisée en trois grandes étapes. Dans la première étape, nous groupons ensemble les nombreuses mentions textuelles relatant la même réalisation d'un événement, identifiée dans le temps et l'espace et appelée instance. La deuxième étape vise à s'abstraire des caractéristiques spatio-temporelles de chaque instance pour les grouper en grands types d'événements. Enfin, la dernière étape de cette contribution vise à extraire les éléments caractéristiques de chaque type d'événement induit afin d'en proposer une représentation synthétique assimilable à un schéma d'événement
Events are central in many Natural Language Processing tasks, despite the lack of a unified definition for the concept. The field of event processing took off with the MUC evaluation campaigns that provided participants with reference structures called templates. These templates were composed of a title (the name of the event) and several slots, i.e specific and atomic pieces of data about the event. Creating these templates is an expert task and therefore costly, painstaking and hard to extend to new domains.Meanwhile, the amount of data produced by individuals and organizations has grown exponentially, opening unprecedented perspectives of applications. In the journalistic domain, it fueled the development of a new paradigm called data-journalism.In this work, we aim at inducing synthetic representations of events from large textual journalistic corpora. These representations would be comparable to MUC templates and used by data-journalists to explore large textual news datasets. To this end, we propose a bottom-up approach composed of three main steps. The first step clusters several textual mentions of a same particular event (i.e tied to a time and place) to identify distinct instances. The second step groups these instances together based on more abstract features to infer event types. Finally, the third and last step extracts the most salient elements of each type to produce the synthetic, template-like structure we are looking for

Sublemontier, Jacques-Henri. "Classification non supervisée : de la multiplicité des données à la multiplicité des analyses". Phd thesis, Université d'Orléans, 2012. http://tel.archives-ouvertes.fr/tel-00801555.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

La classification automatique non supervisée est un problème majeur, aux frontières de multiples communautés issues de l'Intelligence Artificielle, de l'Analyse de Données et des Sciences de la Cognition. Elle vise à formaliser et mécaniser la tâche cognitive de classification, afin de l'automatiser pour la rendre applicable à un grand nombre d'objets (ou individus) à classer. Des visées plus applicatives s'intéressent à l'organisation automatique de grands ensembles d'objets en différents groupes partageant des caractéristiques communes. La présente thèse propose des méthodes de classification non supervisées applicables lorsque plusieurs sources d'informations sont disponibles pour compléter et guider la recherche d'une ou plusieurs classifications des données. Pour la classification non supervisée multi-vues, la première contribution propose un mécanisme de recherche de classifications locales adaptées aux données dans chaque représentation, ainsi qu'un consensus entre celles-ci. Pour la classification semi-supervisée, la seconde contribution propose d'utiliser des connaissances externes sur les données pour guider et améliorer la recherche d'une classification d'objets par un algorithme quelconque de partitionnement de données. Enfin, la troisième et dernière contribution propose un environnement collaboratif permettant d'atteindre au choix les objectifs de consensus et d'alternatives pour la classification d'objets mono-représentés ou multi-représentés. Cette dernière contribution ré-pond ainsi aux différents problèmes de multiplicité des données et des analyses dans le contexte de la classification non supervisée, et propose, au sein d'une même plate-forme unificatrice, une proposition répondant à des problèmes très actifs et actuels en Fouille de Données et en Extraction et Gestion des Connaissances.

Bach, Tran. "Algorithmes avancés de DCA pour certaines classes de problèmes en apprentissage automatique du Big Data". Electronic Thesis or Diss., Université de Lorraine, 2019. http://www.theses.fr/2019LORR0255.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

De nos jours, le Big Data est devenu essentiel et omniprésent dans tous les domaines. Par conséquence, il est nécessaire de développer des techniques innovantes et efficaces pour traiter la croissance rapide du volume des masses de données. Nous considérons les problèmes suivants dans le contexte de Big Data : la sélection de groupes de variables pour la régression logistique multi-classes, la réduction de dimension par t-SNE (« t-distributed Stochastic Neighbor Embedding « en anglais) et l'apprentissage en profondeur pour la classification non-supervisée (« Deep Clustering « en anglais). Nous développons des algorithmes DC (Difference of Convex functions) avancés pour ces problèmes, qui sont basés sur la programmation DC et DCA (DC Algorithm) -- des outils puissants pour les problèmes d'optimisation non-convexes non-différentiables. Dans la première partie, nous étudions le problème de la sélection de groupes de variables pour la régression logistique multi-classes. Nous résolvons ce problème en utilisant des DCAs avancés – Stochastic DCA et DCA-Like. Plus précisément, Stochastic DCA se spécialise dans le problème de la minimisation de la grande somme des fonctions DC, et ne nécessite qu'un sous-ensemble de fonctions DC à chaque itération. DCA-Like relaxe la condition de convexité de la deuxième composante DC en assurant la convergence. Accelerated DCA-Like intègre la technique d'accélération de Nesterov dans DCA-Like pour améliorer sa performance. Les expériences numériques sur plusieurs jeux de données benchmark de grande taille montrent l'efficacité de tous les algorithmes proposés en termes de temps d'exécution et de qualité de la solution. La deuxième partie concerne t-SNE, une technique efficace de réduction de dimension non linéaire. t-SNE est modélisé sous forme d'un problème d'optimisation non-convexe. Motivés par le caractère novateur de DCA-Like et Accelerated DCA-Like, nous développons ces deux algorithmes pour résoudre le problème t-SNE. La supériorité de nos algorithmes, appliqués à la visualisation de données, par rapport aux méthodes existantes est illustrée via des expériences numériques réalisées sur les jeux de données de très grande taille. La troisième partie est consacrée à la classification non-supervisée par l'apprentissage en profondeur. Dans la première application, nous proposons deux algorithmes basés sur DCA pour combiner t-SNE avec MSSC (Minimum Sum-of-Squares Clustering) par ces deux approches : « tandem analysis » et joint-clustering. La deuxième application considère le clustering en utilisant l'auto-encodeur. Nous avons proposé une extension d'une classe d'algorithmes de joint-clustering pour résoudre le problème de mise à l'échelle de données (« scaling problem » en anglais), et appliqué pour un cas spécifique de joint-clustering avec MSSC. Les résultats numériques sur plusieurs jeux de données benchmark montre l'efficacité de notre algorithme comparé aux méthodes existantes
Big Data has become gradually essential and ubiquitous in all aspects nowadays. Therefore, there is an urge to develop innovative and efficient techniques to deal with the rapid growth in the volume of data. This dissertation considers the following problems in Big Data: group variable selection in multi-class logistic regression, dimension reduction by t-SNE (t-distributed Stochastic Neighbor Embedding), and deep clustering. We develop advanced DCAs (Difference of Convex functions Algorithms) for these problems, which are based on DC Programming and DCA – the powerful tools for non-smooth non-convex optimization problems. Firstly, we consider the problem of group variable selection in multi-class logistic regression. We tackle this problem by using recently advanced DCAs -- Stochastic DCA and DCA-Like. Specifically, Stochastic DCA specializes in the large sum of DC functions minimization problem, which only requires a subset of DC functions at each iteration. DCA-Like relaxes the convexity condition of the second DC component while guaranteeing the convergence. Accelerated DCA-Like incorporates the Nesterov's acceleration technique into DCA-Like to improve its performance. The numerical experiments in benchmark high-dimensional datasets show the effectiveness of proposed algorithms in terms of running time and solution quality. The second part studies the t-SNE problem, an effective non-linear dimensional reduction technique. Motivated by the novelty of DCA-Like and Accelerated DCA-Like, we develop two algorithms for the t-SNE problem. The superiority of proposed algorithms in comparison with existing methods is illustrated through numerical experiments for visualization application. Finally, the third part considers the problem of deep clustering. In the first application, we propose two algorithms based on DCA to combine t-SNE with MSSC (Minimum Sum-of-Squares Clustering) by following two approaches: “tandem analysis” and joint-clustering. The second application considers clustering with auto-encoder (a well-known type of neural network). We propose an extension to a class of joint-clustering algorithms to overcome the scaling problem and applied for a specific case of joint-clustering with MSSC. Numerical experiments on several real-world datasets show the effectiveness of our methods in rapidity and clustering quality, compared to the state-of-the-art methods

Martel-Brisson, Nicolas. "Approche non supervisée de segmentation de bas niveau dans un cadre de surveillance vidéo d'environnements non contrôlés". Thesis, Université Laval, 2012. http://www.theses.ulaval.ca/2012/29093/29093.pdf.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Sîrbu, Adela-Maria. "Dynamic machine learning for supervised and unsupervised classification". Thesis, Rouen, INSA, 2016. http://www.theses.fr/2016ISAM0002/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

La direction de recherche que nous abordons dans la thèse est l'application des modèles dynamiques d'apprentissage automatique pour résoudre les problèmes de classification supervisée et non supervisée. Les problèmes particuliers que nous avons décidé d'aborder dans la thèse sont la reconnaissance des piétons (un problème de classification supervisée) et le groupement des données d'expression génétique (un problème de classification non supervisée). Les problèmes abordés sont représentatifs pour les deux principaux types de classification et sont très difficiles, ayant une grande importance dans la vie réelle. La première direction de recherche que nous abordons dans le domaine de la classification non supervisée dynamique est le problème de la classification dynamique des données d'expression génétique. L'expression génétique représente le processus par lequel l'information d'un gène est convertie en produits de gènes fonctionnels : des protéines ou des ARN ayant différents rôles dans la vie d'une cellule. La technologie des micro-réseaux moderne est aujourd'hui utilisée pour détecter expérimentalement les niveaux d'expression de milliers de gènes, dans des conditions différentes et au fil du temps. Une fois que les données d'expression génétique ont été recueillies, l'étape suivante consiste à analyser et à extraire des informations biologiques utiles. L'un des algorithmes les plus populaires traitant de l'analyse des données d'expression génétique est le groupement, qui consiste à diviser un certain ensemble en groupes, où les composants de chaque groupe sont semblables les uns aux autres données. Dans le cas des ensembles de données d'expression génique, chaque gène est représenté par ses valeurs d'expression (caractéristiques), à des points distincts dans le temps, dans les conditions contrôlées. Le processus de regroupement des gènes est à la base des études génomiques qui visent à analyser les fonctions des gènes car il est supposé que les gènes qui sont similaires dans leurs niveaux d'expression sont également relativement similaires en termes de fonction biologique. Le problème que nous abordons dans le sens de la recherche de classification non supervisée dynamique est le regroupement dynamique des données d'expression génique. Dans notre cas, la dynamique à long terme indique que l'ensemble de données ne sont pas statiques, mais elle est sujette à changement. Pourtant, par opposition aux approches progressives de la littérature, où l'ensemble de données est enrichie avec de nouveaux gènes (instances) au cours du processus de regroupement, nos approches abordent les cas lorsque de nouvelles fonctionnalités (niveaux d'expression pour de nouveaux points dans le temps) sont ajoutés à la gènes déjà existants dans l'ensemble de données. À notre connaissance, il n'y a pas d'approches dans la littérature qui traitent le problème de la classification dynamique des données d'expression génétique, définis comme ci-dessus. Dans ce contexte, nous avons introduit trois algorithmes de groupement dynamiques que sont capables de gérer de nouveaux niveaux d'expression génique collectés, en partant d'une partition obtenue précédente, sans la nécessité de ré-exécuter l'algorithme à partir de zéro. L'évaluation expérimentale montre que notre méthode est plus rapide et plus précis que l'application de l'algorithme de classification à partir de zéro sur la fonctionnalité étendue ensemble de données
The research direction we are focusing on in the thesis is applying dynamic machine learning models to salve supervised and unsupervised classification problems. We are living in a dynamic environment, where data is continuously changing and the need to obtain a fast and accurate solution to our problems has become a real necessity. The particular problems that we have decided te approach in the thesis are pedestrian recognition (a supervised classification problem) and clustering of gene expression data (an unsupervised classification. problem). The approached problems are representative for the two main types of classification and are very challenging, having a great importance in real life.The first research direction that we approach in the field of dynamic unsupervised classification is the problem of dynamic clustering of gene expression data. Gene expression represents the process by which the information from a gene is converted into functional gene products: proteins or RNA having different roles in the life of a cell. Modern microarray technology is nowadays used to experimentally detect the levels of expressions of thousand of genes, across different conditions and over time. Once the gene expression data has been gathered, the next step is to analyze it and extract useful biological information. One of the most popular algorithms dealing with the analysis of gene expression data is clustering, which involves partitioning a certain data set in groups, where the components of each group are similar to each other. In the case of gene expression data sets, each gene is represented by its expression values (features), at distinct points in time, under the monitored conditions. The process of gene clustering is at the foundation of genomic studies that aim to analyze the functions of genes because it is assumed that genes that are similar in their expression levels are also relatively similar in terms of biological function.The problem that we address within the dynamic unsupervised classification research direction is the dynamic clustering of gene expression data. In our case, the term dynamic indicates that the data set is not static, but it is subject to change. Still, as opposed to the incremental approaches from the literature, where the data set is enriched with new genes (instances) during the clustering process, our approaches tackle the cases when new features (expression levels for new points in time) are added to the genes already existing in the data set. To our best knowledge, there are no approaches in the literature that deal with the problem of dynamic clustering of gene expression data, defined as above. In this context we introduced three dynamic clustering algorithms which are able to handle new collected gene expression levels, by starting from a previous obtained partition, without the need to re-run the algorithm from scratch. Experimental evaluation shows that our method is faster and more accurate than applying the clustering algorithm from scratch on the feature extended data set

Più fonti

Capitoli di libri sul tema "Apprentissage automatique non supervisée":

OUVRARD ANDRIANTSOA, Louise. "Le glossaire de Moodle". In Dictionnaires et apprentissage des langues, 89–102. Editions des archives contemporaines, 2021. http://dx.doi.org/10.17184/eac.4505.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Selon la définition que Py donne de la décontextualisation, celle-ci « consiste, pour l’apprenant, à focaliser et extraire de son contexte le segment (le plus souvent un mot) qu’il souhaite apprendre. » (1996 : 16). Au cours des différentes phases de l’apprentissage, cette opération est régulièrement effectuée en classe à l’initiative de l’enseignant. Elle peut aussi l’être à l’initiative de l’apprenant et certaines activités peuvent l’y inciter. En présentiel ou en distanciel, les cours de langue sont amenés à utiliser des outils variés permettant un travail systématique sur la langue. Au nombre de ceux-ci figure le glossaire. Nous avons intégré cet outil proposé par Moodle dans nos cours de grammaire malgache des trois niveaux de la licence. Pour répondre au mieux aux objectifs que l’enseignant a établis, ce glossaire est paramétrable selon différents critères qui concernent par exemple l’affichage des articles (avec ou sans auteur), l’approbation (automatique ou non). Il peut également être construit par l’enseignant ou par les étudiants eux-mêmes. C’est donc notre démarche que nous présentons dans cet article, le travail effectué par nos étudiants, les postulats de départ et les contraintes liées à ce type d’outils Nous concluons sur les apports que ce glossaire a représenté pour nos cours, aussi bien en termes de savoirs que de savoir-faire.