Log in

Relevant bibliographies by topics / Apprentissage non-paramétrique / Dissertations / Theses

To see the other types of publications on this topic, follow the link: Apprentissage non-paramétrique.

Dissertations / Theses on the topic 'Apprentissage non-paramétrique'

Author: Grafiati

Published: 25 May 2024

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 36 dissertations / theses for your research on the topic 'Apprentissage non-paramétrique.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Knefati, Muhammad Anas. "Estimation non-paramétrique du quantile conditionnel et apprentissage semi-paramétrique : applications en assurance et actuariat." Thesis, Poitiers, 2015. http://www.theses.fr/2015POIT2280/document.

Full text

Abstract:

La thèse se compose de deux parties : une partie consacrée à l'estimation des quantiles conditionnels et une autre à l'apprentissage supervisé. La partie "Estimation des quantiles conditionnels" est organisée en 3 chapitres : Le chapitre 1 est consacré à une introduction sur la régression linéaire locale, présentant les méthodes les plus utilisées, pour estimer le paramètre de lissage. Le chapitre 2 traite des méthodes existantes d’estimation nonparamétriques du quantile conditionnel ; Ces méthodes sont comparées, au moyen d’expériences numériques sur des données simulées et des données réelles. Le chapitre 3 est consacré à un nouvel estimateur du quantile conditionnel et que nous proposons ; Cet estimateur repose sur l'utilisation d'un noyau asymétrique en x. Sous certaines hypothèses, notre estimateur s'avère plus performant que les estimateurs usuels. La partie "Apprentissage supervisé" est, elle aussi, composée de 3 chapitres : Le chapitre 4 est une introduction à l’apprentissage statistique et les notions de base utilisées, dans cette partie. Le chapitre 5 est une revue des méthodes conventionnelles de classification supervisée. Le chapitre 6 est consacré au transfert d'un modèle d'apprentissage semi-paramétrique. La performance de cette méthode est montrée par des expériences numériques sur des données morphométriques et des données de credit-scoring
The thesis consists of two parts: One part is about the estimation of conditional quantiles and the other is about supervised learning. The "conditional quantile estimate" part is organized into 3 chapters. Chapter 1 is devoted to an introduction to the local linear regression and then goes on to present the methods, the most used in the literature to estimate the smoothing parameter. Chapter 2 addresses the nonparametric estimation methods of conditional quantile and then gives numerical experiments on simulated data and real data. Chapter 3 is devoted to a new conditional quantile estimator, we propose. This estimator is based on the use of asymmetrical kernels w.r.t. x. We show, under some hypothesis, that this new estimator is more efficient than the other estimators already used. The "supervised learning" part is, too, with 3 chapters: Chapter 4 provides an introduction to statistical learning, remembering the basic concepts used in this part. Chapter 5 discusses the conventional methods of supervised classification. Chapter 6 is devoted to propose a method of transferring a semiparametric model. The performance of this method is shown by numerical experiments on morphometric data and credit-scoring data

APA, Harvard, Vancouver, ISO, and other styles

2

Lahbib, Dhafer. "Préparation non paramétrique des données pour la fouille de données multi-tables." Phd thesis, Université de Cergy Pontoise, 2012. http://tel.archives-ouvertes.fr/tel-00854142.

Full text

Abstract:

Dans la fouille de données multi-tables, les données sont représentées sous un format relationnel dans lequel les individus de la table cible sont potentiellement associés à plusieurs enregistrements dans des tables secondaires en relation un-à-plusieurs. Afin de prendre en compte les variables explicatives secondaires (appartenant aux tables secondaires), la plupart des approches existantes opèrent par mise à plat, obtenant ainsi une représentation attribut-valeur classique. Par conséquent, on perd la représentation initiale naturellement compacte mais également on risque d'introduire des biais statistiques. Dans cette thèse, nous nous intéressons à évaluer directement les variables secondaires vis-à-vis de la variable cible, dans un contexte de classification supervisée. Notre méthode consiste à proposer une famille de modèles non paramétriques pour l'estimation de la densité de probabilité conditionnelle des variables secondaires. Cette estimation permet de prendre en compte les variables secondaires dans un classifieur de type Bayésien Naïf. L'approche repose sur un prétraitement supervisé des variables secondaires, par discrétisation dans le cas numérique et par groupement de valeurs dans le cas catégoriel. Dans un premier temps, ce prétraitement est effectué de façon univariée, c'est-à-dire, en considérant une seule variable secondaire à la fois. Dans un second temps, nous proposons une approche de partitionnement multivarié basé sur des itemsets de variables secondaires, ce qui permet de prendre en compte les éventuelles corrélations qui peuvent exister entre variables secondaires. Des modèles en grilles de données sont utilisés pour obtenir des critères Bayésiens permettant d'évaluer les prétraitements considérés. Des algorithmes combinatoires sont proposés pour optimiser efficacement ces critères et obtenir les meilleurs modèles.Nous avons évalué notre approche sur des bases de données multi-tables synthétiques et réelles. Les résultats montrent que les critères d'évaluation ainsi que les algorithmes d'optimisation permettent de découvrir des variables secondaires pertinentes. De plus, le classifieur Bayésien Naïf exploitant les prétraitements effectués permet d'obtenir des taux de prédiction importants.

APA, Harvard, Vancouver, ISO, and other styles

3

Solnon, Matthieu. "Apprentissage statistique multi-tâches." Phd thesis, Université Pierre et Marie Curie - Paris VI, 2013. http://tel.archives-ouvertes.fr/tel-00911498.

Full text

Abstract:

Cette thèse a pour objet la construction, la calibration et l'étude d'estimateurs multi-tâches, dans un cadre fréquentiste non paramétrique et non asymptotique. Nous nous plaçons dans le cadre de la régression ridge à noyau et y étendons les méthodes existantes de régression multi-tâches. La question clef est la calibration d'un paramètre de régularisation matriciel, qui encode la similarité entre les tâches. Nous proposons une méthode de calibration de ce paramètre, fondée sur l'estimation de la matrice de covariance du bruit entre les tâches. Nous donnons ensuite pour l'estimateur obtenu des garanties d'optimalité, via une inégalité oracle, puis vérifions son comportement sur des exemples simulés. Nous obtenons par ailleurs un encadrement précis des risques des estimateurs oracles multi-tâches et mono-tâche dans certains cas. Cela nous permet de dégager plusieurs situations intéressantes, où l'oracle multi-tâches est plus efficace que l'oracle mono-tâche, ou vice versa. Cela nous permet aussi de nous assurer que l'inégalité oracle force l'estimateur multi-tâches à avoir un risque inférieur à l'estimateur mono-tâche dans les cas étudiés. Le comportement des oracles multi-tâches et mono-tâche est vérifié sur des exemples simulés.

APA, Harvard, Vancouver, ISO, and other styles

4

Scornet, Erwan. "Apprentissage et forêts aléatoires." Thesis, Paris 6, 2015. http://www.theses.fr/2015PA066533/document.

Full text

Abstract:

Cette thèse est consacrée aux forêts aléatoires, une méthode d'apprentissage non paramétrique introduite par Breiman en 2001. Très répandues dans le monde des applications, les forêts aléatoires possèdent de bonnes performances et permettent de traiter efficacement de grands volumes de données. Cependant, la théorie des forêts ne permet pas d'expliquer à ce jour l'ensemble des bonnes propriétés de l'algorithme. Après avoir dressé un état de l'art des résultats théoriques existants, nous nous intéressons en premier lieu au lien entre les forêts infinies (analysées en théorie) et les forêts finies (utilisées en pratique). Nous proposons en particulier une manière de choisir le nombre d'arbres pour que les erreurs des forêts finies et infinies soient proches. D'autre part, nous étudions les forêts quantiles, un type d'algorithme proche des forêts de Breiman. Dans ce cadre, nous démontrons l'intérêt d'agréger des arbres : même si chaque arbre de la forêt quantile est inconsistant, grâce à un sous-échantillonnage adapté, la forêt quantile est consistante. Dans un deuxième temps, nous prouvons que les forêts aléatoires sont naturellement liées à des estimateurs à noyau que nous explicitons. Des bornes sur la vitesse de convergence de ces estimateurs sont également établies. Nous démontrons, dans une troisième approche, deux théorèmes sur la consistance des forêts de Breiman élaguées et complètement développées. Dans ce dernier cas, nous soulignons, comme pour les forêts quantiles, l'importance du sous-échantillonnage dans la consistance de la forêt. Enfin, nous présentons un travail indépendant portant sur l'estimation de la toxicité de certains composés chimiques
This is devoted to a nonparametric estimation method called random forests, introduced by Breiman in 2001. Extensively used in a variety of areas, random forests exhibit good empirical performance and can handle massive data sets. However, the mathematical forces driving the algorithm remain largely unknown. After reviewing theoretical literature, we focus on the link between infinite forests (theoretically analyzed) and finite forests (used in practice) aiming at narrowing the gap between theory and practice. In particular, we propose a way to select the number of trees such that the errors of finite and infinite forests are similar. On the other hand, we study quantile forests, a type of algorithms close in spirit to Breiman's forests. In this context, we prove the benefit of trees aggregation: while each tree of quantile forest is not consistent, with a proper subsampling step, the forest is. Next, we show the connection between forests and some particular kernel estimates, which can be made explicit in some cases. We also establish upper bounds on the rate of convergence for these kernel estimates. Then we demonstrate two theorems on the consistency of both pruned and unpruned Breiman forests. We stress the importance of subsampling to demonstrate the consistency of the unpruned Breiman's forests. At last, we present the results of a Dreamchallenge whose goal was to predict the toxicity of several compounds for several patients based on their genetic profile

APA, Harvard, Vancouver, ISO, and other styles

5

Lasserre, Marvin. "Apprentissages dans les réseaux bayésiens à base de copules non-paramétriques." Electronic Thesis or Diss., Sorbonne université, 2022. http://www.theses.fr/2022SORUS029.

Full text

Abstract:

La modélisation de distributions continues multivariées est une tâche d'un intérêt central en statistiques et en apprentissage automatique avec de nombreuses applications en sciences et en ingénierie. Cependant, les distributions de grandes dimensions sont difficiles à manipuler et peuvent conduire à des calculs coûteux en temps et en ressources. Les réseaux bayésiens de copules (CBNs) tirent parti à la fois des réseaux bayésiens (BNs) et de la théorie des copules pour représenter de manière compacte de telles distributions multivariées. Les réseaux bayésiens s'appuient sur les indépendances conditionnelles afin de réduire la complexité du problème, tandis que les fonctions copules permettent de modéliser les relations de dépendance entre les variables aléatoires. L'objectif de cette thèse est de donner un cadre commun aux deux domaines et de proposer de nouveaux algorithmes d'apprentissage pour les réseaux bayésiens de copules. Pour ce faire, nous utilisons le fait que les CBNs possèdent le même langage graphique que les BNs ce qui nous permet d'adapter leurs méthodes d'apprentissage à ce modèle. De plus, en utilisant la copule empirique de Bernstein à la fois pour concevoir des tests d'indépendance conditionnelle et pour estimer les copules, nous évitons de faire des hypothèses paramétriques, ce qui donne une plus grande généralité à nos méthodes
Modeling multivariate continuous distributions is a task of central interest in statistics and machine learning with many applications in science and engineering. However, high-dimensional distributions are difficult to handle and can lead to intractable computations. The Copula Bayesian Networks (CBNs) take advantage of both Bayesian networks (BNs) and copula theory to compactly represent such multivariate distributions. Bayesian networks rely on conditional independences in order to reduce the complexity of the problem, while copula functions allow to model the dependence relation between random variables. The goal of this thesis is to give a common framework to both domains and to propose new learning algorithms for copula Bayesian networks. To do so, we use the fact that CBNs have the same graphical language as BNs which allows us to adapt their learning methods to this model. Moreover, using the empirical Bernstein copula both to design conditional independence tests and to estimate copulas from data, we avoid making parametric assumptions, which gives greater generality to our methods

APA, Harvard, Vancouver, ISO, and other styles

6

Genuer, Robin. "Forêts aléatoires : aspects théoriques, sélection de variables et applications." Phd thesis, Université Paris Sud - Paris XI, 2010. http://tel.archives-ouvertes.fr/tel-00550989.

Full text

Abstract:

Cette thèse s'inscrit dans le cadre de l'apprentissage statistique et est consacrée à l'étude de la méthode des forêts aléatoires, introduite par Breiman en 2001. Les forêts aléatoires sont une méthode statistique non paramétrique, qui s'avère être très performante dans de nombreuses applications, aussi bien pour des problèmes de régression que de classification supervisée. Elles présentent également un bon comportement sur des données de très grande dimension, pour lesquelles le nombre de variables dépasse largement le nombre d'observations. Dans une première partie, nous développons une procédure de sélection de variables, basée sur l'indice d'importance des variables calculée par les forêts aléatoires. Cet indice d'importance permet de distinguer les variables pertinentes des variables inutiles. La procédure consiste alors à sélectionner automatiquement un sous-ensemble de variables dans un but d'interprétation ou de prédiction. La deuxième partie illustre la capacité de cette procédure de sélection de variables à être performante pour des problèmes très différents. La première application est un problème de classification en très grande dimension sur des données de neuroimagerie, alors que la seconde traite des données génomiques qui constituent un problème de régression en plus petite dimension. Une dernière partie, théorique, établit des bornes de risque pour une version simplifiée des forêts aléatoires. Dans un contexte de régression, avec une seule variable explicative, nous montrons d'une part que les estimateurs associés à un arbre et à une forêt atteignent tous deux la vitesse minimax de convergence, et d'autre part que la forêt apporte une amélioration en réduisant la variance de l'estimateur d'un facteur de trois quarts.

APA, Harvard, Vancouver, ISO, and other styles

7

Patra, Benoît. "Apprentissage à "grande échelle" : contribution à l'étude d'algorithmes de clustering répartis asynchrones." Paris 6, 2012. http://www.theses.fr/2012PA066040.

Full text

Abstract:

Les thèmes abordés dans ce manuscrit de thèse sont inspirés de problématiques de recherche rencontrées par la société Lokad, qui sont résumées dans le premier chapitre. Le Chapitre 2 est consacré à l'étude d'une méthode non paramétrique de prévision des quantiles d'une série temporelle. Nous démontrons, en particulier, que la technique proposée converge sous des hypothèses minimales. La suite des travaux porte sur des algorithmes de clustering répartis et asynchrones (DALVQ). Ainsi, le Chapitre 3 propose tout d'abord une description mathématique de ces modèles précédent, et se poursuit ensuite par leur étude théorique. Notamment, nous démontrons l'existence d'un consensus asymptotique et la convergence presque sûre de la procédure vers des points critiques de la distortion. Le chapitre suivant propose des réflexions ainsi que des expériences sur les schémas de parallélisation à mettre en place pour une réalisation effective des algorithmes de type DALVQ. Enfin, le cinquième et dernier chapitre présente une implémentation de ces méthodes sur la plate-forme de Cloud Computing Microsoft Windows Azure. Nous y étudions, entre autres thèmes, l'accélération de la convergence de l'algorithme par l'augmentation de ressources parallèles. Nous le comparons ensuite avec la méthode dite de Lloyd, elle aussi répartie et déployée sur Windows Azure
The subjects addressed in this thesis manuscript are inspired from research problems encountered by the company Lokad, which are summarized in the first chapter. Chapter 2 deals with a nonparametric method for forecasting the quantiles of a real-valued time series. In particular, we establish a consistency result for this technique under minimal assumptions. The remainder of the dissertation is devoted to the analysis of distributed asynchronous clustering algorithms (DALVQ). Chapter 3 first proposes a mathematical description of the models and then offers a theoretical analysis, where the existence of an asymptotical consensus and the almost sure convergence towards critical points of the distortion are proved. In the next chapter, we propose a thorough discussion as well as some experiments on parallelization schemes to be implemented for a practical deployment of DALVQ algorithms. Finally, Chapter 5 contains an effective implementation of DALVQ on the Cloud Computing platform Microsoft Windows Azure. We study, among other topics, the speed ups brought by the algorithm with more parallel computing ressources, and we compare this algorithm with the so-called Lloyd's method, which is also distributed and deployed on Windows Azure

APA, Harvard, Vancouver, ISO, and other styles

8

Dallaire, Patrick. "Bayesian nonparametric latent variable models." Doctoral thesis, Université Laval, 2016. http://hdl.handle.net/20.500.11794/26848.

Full text

Abstract:

L’un des problèmes importants en apprentissage automatique est de déterminer la complexité du modèle à apprendre. Une trop grande complexité mène au surapprentissage, ce qui correspond à trouver des structures qui n’existent pas réellement dans les données, tandis qu’une trop faible complexité mène au sous-apprentissage, c’est-à-dire que l’expressivité du modèle est insuffisante pour capturer l’ensemble des structures présentes dans les données. Pour certains modèles probabilistes, la complexité du modèle se traduit par l’introduction d’une ou plusieurs variables cachées dont le rôle est d’expliquer le processus génératif des données. Il existe diverses approches permettant d’identifier le nombre approprié de variables cachées d’un modèle. Cette thèse s’intéresse aux méthodes Bayésiennes nonparamétriques permettant de déterminer le nombre de variables cachées à utiliser ainsi que leur dimensionnalité. La popularisation des statistiques Bayésiennes nonparamétriques au sein de la communauté de l’apprentissage automatique est assez récente. Leur principal attrait vient du fait qu’elles offrent des modèles hautement flexibles et dont la complexité s’ajuste proportionnellement à la quantité de données disponibles. Au cours des dernières années, la recherche sur les méthodes d’apprentissage Bayésiennes nonparamétriques a porté sur trois aspects principaux : la construction de nouveaux modèles, le développement d’algorithmes d’inférence et les applications. Cette thèse présente nos contributions à ces trois sujets de recherches dans le contexte d’apprentissage de modèles à variables cachées. Dans un premier temps, nous introduisons le Pitman-Yor process mixture of Gaussians, un modèle permettant l’apprentissage de mélanges infinis de Gaussiennes. Nous présentons aussi un algorithme d’inférence permettant de découvrir les composantes cachées du modèle que nous évaluons sur deux applications concrètes de robotique. Nos résultats démontrent que l’approche proposée surpasse en performance et en flexibilité les approches classiques d’apprentissage. Dans un deuxième temps, nous proposons l’extended cascading Indian buffet process, un modèle servant de distribution de probabilité a priori sur l’espace des graphes dirigés acycliques. Dans le contexte de réseaux Bayésien, ce prior permet d’identifier à la fois la présence de variables cachées et la structure du réseau parmi celles-ci. Un algorithme d’inférence Monte Carlo par chaîne de Markov est utilisé pour l’évaluation sur des problèmes d’identification de structures et d’estimation de densités. Dans un dernier temps, nous proposons le Indian chefs process, un modèle plus général que l’extended cascading Indian buffet process servant à l’apprentissage de graphes et d’ordres. L’avantage du nouveau modèle est qu’il admet les connections entres les variables observables et qu’il prend en compte l’ordre des variables. Nous présentons un algorithme d’inférence Monte Carlo par chaîne de Markov avec saut réversible permettant l’apprentissage conjoint de graphes et d’ordres. L’évaluation est faite sur des problèmes d’estimations de densité et de test d’indépendance. Ce modèle est le premier modèle Bayésien nonparamétrique permettant d’apprendre des réseaux Bayésiens disposant d’une structure complètement arbitraire.
One of the important problems in machine learning is determining the complexity of the model to learn. Too much complexity leads to overfitting, which finds structures that do not actually exist in the data, while too low complexity leads to underfitting, which means that the expressiveness of the model is insufficient to capture all the structures present in the data. For some probabilistic models, the complexity depends on the introduction of one or more latent variables whose role is to explain the generative process of the data. There are various approaches to identify the appropriate number of latent variables of a model. This thesis covers various Bayesian nonparametric methods capable of determining the number of latent variables to be used and their dimensionality. The popularization of Bayesian nonparametric statistics in the machine learning community is fairly recent. Their main attraction is the fact that they offer highly flexible models and their complexity scales appropriately with the amount of available data. In recent years, research on Bayesian nonparametric learning methods have focused on three main aspects: the construction of new models, the development of inference algorithms and new applications. This thesis presents our contributions to these three topics of research in the context of learning latent variables models. Firstly, we introduce the Pitman-Yor process mixture of Gaussians, a model for learning infinite mixtures of Gaussians. We also present an inference algorithm to discover the latent components of the model and we evaluate it on two practical robotics applications. Our results demonstrate that the proposed approach outperforms, both in performance and flexibility, the traditional learning approaches. Secondly, we propose the extended cascading Indian buffet process, a Bayesian nonparametric probability distribution on the space of directed acyclic graphs. In the context of Bayesian networks, this prior is used to identify the presence of latent variables and the network structure among them. A Markov Chain Monte Carlo inference algorithm is presented and evaluated on structure identification problems and as well as density estimation problems. Lastly, we propose the Indian chefs process, a model more general than the extended cascading Indian buffet process for learning graphs and orders. The advantage of the new model is that it accepts connections among observable variables and it takes into account the order of the variables. We also present a reversible jump Markov Chain Monte Carlo inference algorithm which jointly learns graphs and orders. Experiments are conducted on density estimation problems and testing independence hypotheses. This model is the first Bayesian nonparametric model capable of learning Bayesian learning networks with completely arbitrary graph structures.

APA, Harvard, Vancouver, ISO, and other styles

9

Arlot, Sylvain. "Rééchantillonnage et Sélection de modèles." Phd thesis, Université Paris Sud - Paris XI, 2007. http://tel.archives-ouvertes.fr/tel-00198803.

Full text

Abstract:

Cette thèse s'inscrit dans les domaines de la statistique non-paramétrique et de la théorie statistique de l'apprentissage. Son objet est la compréhension fine de certaines méthodes de rééchantillonnage ou de sélection de modèles, du point de vue non-asymptotique.

La majeure partie de ce travail de thèse consiste dans la calibration précise de méthodes de sélection de modèles optimales en pratique, pour le problème de la prédiction. Nous étudions la validation croisée V-fold (très couramment utilisée, mais mal comprise en théorie, notamment pour ce qui est de choisir V) et plusieurs méthodes de pénalisation. Nous proposons des méthodes de calibration précise de pénalités, aussi bien pour ce qui est de leur forme générale que des constantes multiplicatives. L'utilisation du rééchantillonnage permet de résoudre des problèmes difficiles, notamment celui de la régression avec un niveau de bruit variable. Nous validons théoriquement ces méthodes du point de vue non-asymptotique, en prouvant des inégalités oracle et des propriétés d'adaptation. Ces résultats reposent entre autres sur des inégalités de concentration.

Un second problème que nous abordons est celui des régions de confiance et des tests multiples, lorsque l'on dispose d'observations de grande dimension, présentant des corrélations générales et inconnues. L'utilisation de méthodes de rééchantillonnage permet de s'affranchir du fléau de la dimension, et d'"apprendre" ces corrélations. Nous proposons principalement deux méthodes, et prouvons pour chacune un contrôle non-asymptotique de leur niveau.

APA, Harvard, Vancouver, ISO, and other styles

10

Averyanov, Yaroslav. "Concevoir et analyser de nouvelles règles d’arrêt prématuré pour économiser les ressources de calcul." Thesis, Lille 1, 2020. http://www.theses.fr/2020LIL1I048.

Full text

Abstract:

Ce travail développe et analyse des stratégies pour construire des instances de ce que l’on appelle les règles d’arrêt prématurés appliquées à certains algorithmes d’apprentissage itératif pour estimer la fonction de régression. Ces quantités sont des règles "data-driven" indiquant quand arrêter le processus d’apprentissage itératif pour parvenir à un compromis entre les coûts de calcul et la précision statistique. Contrairement à une grande partie de la littérature existante sur l’arrêt prématuré, où ces règles ne dépendent que des données de manière "faible", nous fournissons des solutions data-driven pour le problème susmentionné sans utiliser les données de validation. L’idée cruciale exploitée ici est celle du principe d’écart minimal (MDP), qui montre où arrêter un algorithme d’apprentissage itératif. À notre connaissance, cette idée remonte aux travaux de Vladimir A. Morozov dans les années 1960-1970 qui a étudié des problèmes linéaires mal posés et leur régularisation, principalement inspirés par des problèmes de physique mathématique. Parmi les différentes applications de cette ligne de travail, les soi-disant estimateurs de filtre spectral tels que le "spectral cut-off", les itérations de Landweber, et la régularisation de Tikhonov (ridge) ont reçu beaucoup d’attention (par exemple, dans des problèmes statistiques inverses). Il est à noter que le principe d’écart minimal consiste à contrôler les résidus d’un estimateur (qui sont minimisés de manière itérative) et à leur fixer correctement un seuil tel que l’on puisse atteindre une certaine optimalité (minimax). La première partie de cette thèse est consacrée aux garanties théoriques des règles d’arrêt basées sur le principe d’écart minimal et appliquées à la descente de gradient, et à la régression de Tikhonov (ridge) dans le cadre de l’espace de Hilbert à noyau reproduisant (RKHS). Là, nous montrons que ce principe fournit un estimateur fonctionnel optimal minimax de la fonction de régression lorsque le rang du noyau est fini. Cependant, quand nous traitons des noyaux reproduisants de rang infini, l’estimateur résultant sera seulement sous-optimal. En recherchant une solution, nous avons trouvé l’existence de la stratégie dite de lissage polynomial des résidus. Cette stratégie (combinée avec le MDP) s’est avérée optimale pour l’estimateur "spectral cut-off" dans le modèle de séquence gaussienne linéaire. Nous empruntons cette stratégie, modifions la règle d’arrêt en conséquence, et prouvons que le principe d’écart minimal lissé produira un estimateur fonctionnel optimal minimax sur une gamme d’espaces de fonctions, qui comprend la classe de fonctions Sobolev bien connue. Notre deuxième contribution consiste à explorer des propriétés théoriques de la règle d’arrêt d’écart minimal appliquée à la famille plus générale des estimateurs linéaires. La principale difficulté de cette approche est que, contrairement aux estimateurs de filtre spectral considérés précédemment, les estimateurs linéaires ne conduisent plus à des quantités monotones (les biais et variance). Mentionnons que c’est également le cas des algorithmes célèbres tels que la descente de gradient stochastique. Motivés par d’autres applications pratiques, nous travaillons avec l’estimateur de régression des k plus proches voisins largement utilisé, comme premier exemple fiable. Nous montrons que la règle d’arrêt susmentionnée conduit à un estimateur fonctionnel optimal minimax, en particulier sur la classe des fonctions de Lipschitz sur un domaine borné. La troisième contribution consiste à illustrer au moyen de simulations empiriques que, pour le choix du paramètre dans un estimateur linéaire (la méthode des k plus proches voisins, la régression de Nadaraya-Watson, et l’estimateur de sélection de variables), la règle d’arrêt prématuré basée sur le MDP se comporte comparativement bien par rapport à d’autres critères de sélection de modèles, largement utilisés et connus
This work develops and analyzes strategies for constructing instances of the so-called early stopping rules applied to some iterative learning algorithms for estimating the regression function. Such quantities are data-driven rules indicating when to stop the iterative learning process to reach a trade-off between computational costs and the statistical precision. Unlike a large part of the existing literature on early stopping, where these rules only depend on the data in a "weak manner", we provide data-driven solutions for the aforementioned problem without utilizing validation data. The crucial idea exploited here is that of the minimum discrepancy principle (MDP), which shows when to stop an iterative learning algorithm. To the best of our knowledge, this idea dates back to the work of Vladimir A. Morozov in the 1960s-1970s who studied linear ill-posed problems and their regularization, mostly inspired by mathematical physics problems. Among different applications of this line of work, the so-called spectral filter estimators such as spectral cut-off, Landweber iterations, and Tikhonov (ridge) regularization have received quite a lot of attention (e.g., in statistical inverse problems). It is worth mentioning that the minimum discrepancy principle consists in controlling the residuals of an estimator (which are iteratively minimized) and properly setting a threshold for them such that one can achieve some (minimax) optimality. The first part of this thesis is dedicated to theoretical guarantees of stopping rules based on the minimum discrepancy principle and applied to gradient descent, and Tikhonov (ridge) regression in the framework of reproducing kernel Hilbert space (RKHS). There, we show that this principle provides a minimax optimal functional estimator of the regression function when the rank of the kernel is finite. However, when one deals with infinite-rank reproducing kernels, the resulting estimator will be only suboptimal. While looking for a solution, we found the existence of the so-called residuals polynomial smoothing strategy. This strategy (combined with MDP) has been proved to be optimal for the spectral cut-off estimator in the linear Gaussian sequence model. We borrow this strategy, modify the stopping rule accordingly, and prove that the smoothed minimum discrepancy principle yields a minimax optimal functional estimator over a range of function spaces, which includes the well-known Sobolev function class. Our second contribution consists in exploring the theoretical properties of the minimum discrepancy stopping rule applied to the more general family of linear estimators. The main difficulty of this approach is that, unlike the spectral filter estimators considered earlier, linear estimators do no longer lead to monotonic quantities (the bias and variance terms). Let us mention that this is also the case for famous algorithms such as Stochastic Gradient Descent. Motivated by further practical applications, we work with the widely used k-NN regression estimator as a reliable first example. We prove that the aforementioned stopping rule leads to a minimax optimal functional estimator, in particular, over the class of Lipschitz functions on a bounded domain.The third contribution consists in illustrating through empirical experiments that for choosing the tuning parameter in a linear estimator (the k-NN regression, Nadaraya-Watson, and variable selection estimators), the MDP-based early stopping rule performs comparably well with respect to other widely used and known model selection criteria

APA, Harvard, Vancouver, ISO, and other styles

11

Löser, Kevin. "Apprentissage non-supervisé de la morphologie des langues à l’aide de modèles bayésiens non-paramétriques." Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLS203/document.

Full text

Abstract:

Un problème central contribuant à la grande difficulté du traitement du langage naturel par des méthodes statistiques est celui de la parcimonie des données, à savoir le fait que dans un corpus d'apprentissage donné, la plupart des évènements linguistiques n'ont qu'un nombre d'occurrences assez faible, et que par ailleurs un nombre infini d'évènements permis par une langue n'apparaitront nulle part dans le corpus. Les modèles neuronaux ont déjà contribué à partiellement résoudre le problème de la parcimonie en inférant des représentations continues de mots. Ces représentations continues permettent de structurer le lexique en induisant une notion de similarité sémantique ou syntaxique entre les mots. Toutefois, les modèles neuronaux actuellement les plus répandus n'offrent qu'une solution partielle au problème de la parcimonie, notamment par le fait que ceux-ci nécessitent une représentation distribuée pour chaque mot du vocabulaire, mais sont incapables d'attribuer une représentation à des mots hors vocabulaire. Ce problème est particulièrement marqué dans des langues morphologiquement riches, ou des processus de formation de mots complexes mènent à une prolifération des formes de mots possibles, et à une faible coïncidence entre le lexique observé lors de l’entrainement d’un modèle, et le lexique observé lors de son déploiement. Aujourd'hui, l'anglais n'est plus la langue majoritairement utilisée sur le Web, et concevoir des systèmes de traduction automatique pouvant appréhender des langues dont la morphologie est très éloignée des langues ouest-européennes est un enjeu important. L’objectif de cette thèse est de développer de nouveaux modèles capables d’inférer de manière non-supervisée les processus de formation de mots sous-jacents au lexique observé, afin de pouvoir de pouvoir produire des analyses morphologiques de nouvelles formes de mots non observées lors de l’entraînement
A crucial issue in statistical natural language processing is the issue of sparsity, namely the fact that in a given learning corpus, most linguistic events have low occurrence frequencies, and that an infinite number of structures allowed by a language will not be observed in the corpus. Neural models have already contributed to solving this issue by inferring continuous word representations. These continuous representations allow to structure the lexicon by inducing semantic or syntactic similarity between words. However, current neural models only partially solve the sparsity issue, due to the fact that they require a vectorial representation for every word in the lexicon, but are unable to infer sensible representations for unseen words. This issue is especially present in morphologically rich languages, where word formation processes yield a proliferation of possible word forms, and little overlap between the lexicon observed during model training, and the lexicon encountered during its use. Today, several languages are used on the Web besides English, and engineering translation systems that can handle morphologies that are very different from western European languages has become a major stake. The goal of this thesis is to develop new statistical models that are able to infer in an unsupervised fashion the word formation processes underlying an observed lexicon, in order to produce morphological analyses of new unseen word forms

APA, Harvard, Vancouver, ISO, and other styles

12

Dang, Hong-Phuong. "Approches bayésiennes non paramétriques et apprentissage de dictionnaire pour les problèmes inverses en traitement d'image." Thesis, Ecole centrale de Lille, 2016. http://www.theses.fr/2016ECLI0019/document.

Full text

Abstract:

L'apprentissage de dictionnaire pour la représentation parcimonieuse est bien connu dans le cadre de la résolution de problèmes inverses. Les méthodes d'optimisation et les approches paramétriques ont été particulièrement explorées. Ces méthodes rencontrent certaines limitations, notamment liées au choix de paramètres. En général, la taille de dictionnaire doit être fixée à l'avance et une connaissance des niveaux de bruit et éventuellement de parcimonie sont aussi nécessaires. Les contributions méthodologies de cette thèse concernent l'apprentissage conjoint du dictionnaire et de ces paramètres, notamment pour les problèmes inverses en traitement d'image. Nous étudions et proposons la méthode IBP-DL (Indien Buffet Process for Dictionary Learning) en utilisant une approche bayésienne non paramétrique. Une introduction sur les approches bayésiennes non paramétriques est présentée. Le processus de Dirichlet et son dérivé, le processus du restaurant chinois, ainsi que le processus Bêta et son dérivé, le processus du buffet indien, sont décrits. Le modèle proposé pour l'apprentissage de dictionnaire s'appuie sur un a priori de type Buffet Indien qui permet d'apprendre un dictionnaire de taille adaptative. Nous détaillons la méthode de Monte-Carlo proposée pour l'inférence. Le niveau de bruit et celui de la parcimonie sont aussi échantillonnés, de sorte qu'aucun réglage de paramètres n'est nécessaire en pratique. Des expériences numériques illustrent les performances de l'approche pour les problèmes du débruitage, de l'inpainting et de l'acquisition compressée. Les résultats sont comparés avec l'état de l'art.Le code source en Matlab et en C est mis à disposition
Dictionary learning for sparse representation has been widely advocated for solving inverse problems. Optimization methods and parametric approaches towards dictionary learning have been particularly explored. These methods meet some limitations, particularly related to the choice of parameters. In general, the dictionary size is fixed in advance, and sparsity or noise level may also be needed. In this thesis, we show how to perform jointly dictionary and parameter learning, with an emphasis on image processing. We propose and study the Indian Buffet Process for Dictionary Learning (IBP-DL) method, using a bayesian nonparametric approach.A primer on bayesian nonparametrics is first presented. Dirichlet and Beta processes and their respective derivatives, the Chinese restaurant and Indian Buffet processes are described. The proposed model for dictionary learning relies on an Indian Buffet prior, which permits to learn an adaptive size dictionary. The Monte-Carlo method for inference is detailed. Noise and sparsity levels are also inferred, so that in practice no parameter tuning is required. Numerical experiments illustrate the performances of the approach in different settings: image denoising, inpainting and compressed sensing. Results are compared with state-of-the art methods is made. Matlab and C sources are available for sake of reproducibility

APA, Harvard, Vancouver, ISO, and other styles

13

Avalos, Marta. "Modèles additifs parcimonieux." Phd thesis, Université de Technologie de Compiègne, 2004. http://tel.archives-ouvertes.fr/tel-00008802.

Full text

Abstract:

De nombreux algorithmes d'estimation fonctionnelle existent pour l'apprentissage statistique supervisé. Cependant, ils ont pour la plupart été développés dans le but de fournir des estimateurs précis, sans considérer l'interprétabilité de la solution. Les modèles additifs permettent d'expliquer les prédictions simplement, en ne faisant intervenir qu'une variable explicative à la fois, mais ils sont difficiles à mettre en ouvre. Cette thèse est consacrée au développement d'un algorithme d'estimation des modèles additifs. D'une part, leur utilisation y est simplifiée, car le réglage de la complexité est en grande partie intégré dans la phase d'estimation des paramètres. D'autre part, l'interprétabilité est favorisée par une tendance à éliminer automatiquement les variables les moins pertinentes. Des stratégies d'accélération des calculs sont également proposées. Une approximation du nombre effectif de paramètres permet l'utilisation de critères analytiques de sélection de modèle. Sa validité est testée par des simulations et sur des données réelles.

APA, Harvard, Vancouver, ISO, and other styles

14

Bartcus, Marius. "Bayesian non-parametric parsimonious mixtures for model-based clustering." Thesis, Toulon, 2015. http://www.theses.fr/2015TOUL0010/document.

Full text

Abstract:

Cette thèse porte sur l’apprentissage statistique et l’analyse de données multi-dimensionnelles. Elle se focalise particulièrement sur l’apprentissage non supervisé de modèles génératifs pour la classiﬁcation automatique. Nous étudions les modèles de mélanges Gaussians, aussi bien dans le contexte d’estimation par maximum de vraisemblance via l’algorithme EM, que dans le contexte Bayésien d’estimation par Maximum A Posteriori via des techniques d’échantillonnage par Monte Carlo. Nous considérons principalement les modèles de mélange parcimonieux qui reposent sur une décomposition spectrale de la matrice de covariance et qui oﬀre un cadre ﬂexible notamment pour les problèmes de classiﬁcation en grande dimension. Ensuite, nous investiguons les mélanges Bayésiens non-paramétriques qui se basent sur des processus généraux ﬂexibles comme le processus de Dirichlet et le Processus du Restaurant Chinois. Cette formulation non-paramétrique des modèles est pertinente aussi bien pour l’apprentissage du modèle, que pour la question diﬃcile du choix de modèle. Nous proposons de nouveaux modèles de mélanges Bayésiens non-paramétriques parcimonieux et dérivons une technique d’échantillonnage par Monte Carlo dans laquelle le modèle de mélange et son nombre de composantes sont appris simultanément à partir des données. La sélection de la structure du modèle est eﬀectuée en utilisant le facteur de Bayes. Ces modèles, par leur formulation non-paramétrique et parcimonieuse, sont utiles pour les problèmes d’analyse de masses de données lorsque le nombre de classe est indéterminé et augmente avec les données, et lorsque la dimension est grande. Les modèles proposés validés sur des données simulées et des jeux de données réelles standard. Ensuite, ils sont appliqués sur un problème réel diﬃcile de structuration automatique de données bioacoustiques complexes issues de signaux de chant de baleine. Enﬁn, nous ouvrons des perspectives Markoviennes via les processus de Dirichlet hiérarchiques pour les modèles Markov cachés
This thesis focuses on statistical learning and multi-dimensional data analysis. It particularly focuses on unsupervised learning of generative models for model-based clustering. We study the Gaussians mixture models, in the context of maximum likelihood estimation via the EM algorithm, as well as in the Bayesian estimation context by maximum a posteriori via Markov Chain Monte Carlo (MCMC) sampling techniques. We mainly consider the parsimonious mixture models which are based on a spectral decomposition of the covariance matrix and provide a ﬂexible framework particularly for the analysis of high-dimensional data. Then, we investigate non-parametric Bayesian mixtures which are based on general ﬂexible processes such as the Dirichlet process and the Chinese Restaurant Process. This non-parametric model formulation is relevant for both learning the model, as well for dealing with the issue of model selection. We propose new Bayesian non-parametric parsimonious mixtures and derive a MCMC sampling technique where the mixture model and the number of mixture components are simultaneously learned from the data. The selection of the model structure is performed by using Bayes Factors. These models, by their non-parametric and sparse formulation, are useful for the analysis of large data sets when the number of classes is undetermined and increases with the data, and when the dimension is high. The models are validated on simulated data and standard real data sets. Then, they are applied to a real diﬃcult problem of automatic structuring of complex bioacoustic data issued from whale song signals. Finally, we open Markovian perspectives via hierarchical Dirichlet processes hidden Markov models

APA, Harvard, Vancouver, ISO, and other styles

15

Sibony, Eric. "Analyse mustirésolution de données de classements." Electronic Thesis or Diss., Paris, ENST, 2016. http://www.theses.fr/2016ENST0036.

Full text

Abstract:

Cette thèse introduit un cadre d’analyse multirésolution pour les données de classements. Initiée au 18e siècle dans le contexte d’élections, l’analyse des données de classements a attiré un intérêt majeur dans de nombreux domaines de la littérature scientifique : psychométrie, statistiques, économie, recherche opérationnelle, apprentissage automatique ou choix social computationel entre autres. Elle a de plus été revitalisée par des applications modernes comme les systèmes de recommandation, où le but est d’inférer les préférences des utilisateurs pour leur proposer les meilleures suggestions personnalisées. Dans ces contextes, les utilisateurs expriment leurs préférences seulement sur des petits sous-ensembles d’objets variant au sein d’un large catalogue. L’analyse de tels classements incomplets pose cependant un défi important, tant du point de vue statistique que computationnel, poussant les acteurs industriels à utiliser des méthodes qui n’exploitent qu’une partie de l’information disponible. Cette thèse introduit une nouvelle représentation pour les données, qui surmonte par construction ce double défi. Bien qu’elle repose sur des résultats de combinatoire et de topologie algébrique, ses nombreuses analogies avec l’analyse multirésolution en font un cadre naturel et efficace pour l’analyse des classements incomplets. Ne faisant aucune hypothèse sur les données, elle mène déjà à des estimateurs au-delà de l’état-de-l’art pour des petits catalogues d’objets et peut être combinée avec de nombreuses procédures de régularisation pour des larges catalogues. Pour toutes ces raisons, nous croyons que cette représentation multirésolution ouvre la voie à de nombreux développements et applications futurs
This thesis introduces a multiresolution analysis framework for ranking data. Initiated in the 18th century in the context of elections, the analysis of ranking data has attracted a major interest in many fields of the scientific literature : psychometry, statistics, economics, operations research, machine learning or computational social choice among others. It has been even more revitalized by modern applications such as recommender systems, where the goal is to infer users preferences in order to make them the best personalized suggestions. In these settings, users express their preferences only on small and varying subsets of a large catalog of items. The analysis of such incomplete rankings poses however both a great statistical and computational challenge, leading industrial actors to use methods that only exploit a fraction of available information. This thesis introduces a new representation for the data, which by construction overcomes the two aforementioned challenges. Though it relies on results from combinatorics and algebraic topology, it shares several analogies with multiresolution analysis, offering a natural and efficient framework for the analysis of incomplete rankings. As it does not involve any assumption on the data, it already leads to overperforming estimators in small-scale settings and can be combined with many regularization procedures for large-scale settings. For all those reasons, we believe that this multiresolution representation paves the way for a wide range of future developments and applications

APA, Harvard, Vancouver, ISO, and other styles

16

Mahler, Nicolas. "Machine learning methods for discrete multi-scale fows : application to finance." Phd thesis, École normale supérieure de Cachan - ENS Cachan, 2012. http://tel.archives-ouvertes.fr/tel-00749717.

Full text

Abstract:

This research work studies the problem of identifying and predicting the trends of a single financial target variable in a multivariate setting. The machine learning point of view on this problem is presented in chapter I. The efficient market hypothesis, which stands in contradiction with the objective of trend prediction, is first recalled. The different schools of thought in market analysis, which disagree to some extent with the efficient market hypothesis, are reviewed as well. The tenets of the fundamental analysis, the technical analysis and the quantitative analysis are made explicit. We particularly focus on the use of machine learning techniques for computing predictions on time-series. The challenges of dealing with dependent and/or non-stationary features while avoiding the usual traps of overfitting and data snooping are emphasized. Extensions of the classical statistical learning framework, particularly transfer learning, are presented. The main contribution of this chapter is the introduction of a research methodology for developing trend predictive numerical models. It is based on an experimentation protocol, which is made of four interdependent modules. The first module, entitled Data Observation and Modeling Choices, is a preliminary module devoted to the statement of very general modeling choices, hypotheses and objectives. The second module, Database Construction, turns the target and explanatory variables into features and labels in order to train trend predictive numerical models. The purpose of the third module, entitled Model Construction, is the construction of trend predictive numerical models. The fourth and last module, entitled Backtesting and Numerical Results, evaluates the accuracy of the trend predictive numerical models over a "significant" test set via two generic backtesting plans. The first plan computes recognition rates of upward and downward trends. The second plan designs trading rules using predictions made over the test set. Each trading rule yields a profit and loss account (P&L), which is the cumulated earned money over time. These backtesting plans are additionally completed by interpretation functionalities, which help to analyze the decision mechanism of the numerical models. These functionalities can be measures of feature prediction ability and measures of model and prediction reliability. They decisively contribute to formulating better data hypotheses and enhancing the time-series representation, database and model construction procedures. This is made explicit in chapter IV. Numerical models, aiming at predicting the trends of the target variables introduced in chapter II, are indeed computed for the model construction methods described in chapter III and thoroughly backtested. The switch from one model construction approach to another is particularly motivated. The dramatic influence of the choice of parameters - at each step of the experimentation protocol - on the formulation of conclusion statements is also highlighted. The RNN procedure, which does not require any parameter tuning, has thus been used to reliably study the efficient market hypothesis. New research directions for designing trend predictive models are finally discussed.

APA, Harvard, Vancouver, ISO, and other styles

17

Rouvière, Laurent. "Estimation de densité en dimension élevée et classification de courbes." Phd thesis, Université Montpellier II - Sciences et Techniques du Languedoc, 2005. http://tel.archives-ouvertes.fr/tel-00011624.

Full text

Abstract:

L'objectif de cette thèse consiste étudier et approfondir des techniques d'estimation de la densité et de classification dans des espaces de dimension élevée. Nous avons choisi de structurer notre travail en trois parties.

La première partie, intitulée compléments sur les histogrammes modifiés, est composée de deux chapitres consacrés l'étude d'une famille d'estimateurs non paramétriques de la densité, les histogrammes modifiés, connus pour posséder de bonnes propriétés de convergence au sens des critères de la théorie de l'information. Dans le premier chapitre, ces estimateurs sont envisagés comme des systèmes dynamiques espace d'états de dimension infinie. Le second chapitre est consacré l'étude de ces estimateurs pour des dimensions suprieures un.

La deuxième partie de la thèse, intituleé méthodes combinatoires en estimation de la densité, se divise en deux chapitres. Nous nous intéressons dans cette partie aux performances distance finie d'estimateurs de la densité sélectionnés à l'intérieur d'une famille d'estimateurs candidats, dont le cardinal n'est pas nécessairement fini. Dans le premier chapitre, nous étudions les performances de ces méthodes dans le cadre de la sélection des différents paramètres des histogrammes modifiés. Nous poursuivons, dans le deuxième chapitre, par la sélection d'estimateurs à noyau dont le paramètre de lissage s'adapte localement au point d'estimation et aux données.

Enfin, la troisième et dernière partie, plus appliquée et indépendante des précédentes, présente une nouvelle méthode permettant de classer des courbes partir d'une décomposition des observations dans des bases d'ondelettes.

APA, Harvard, Vancouver, ISO, and other styles

18

Wira, Patrice. "Approches neuromimétiques pour l'identification et la commande." Habilitation à diriger des recherches, Université de Haute Alsace - Mulhouse, 2009. http://tel.archives-ouvertes.fr/tel-00605218.

Full text

Abstract:

Les travaux présentés dans cette Habilitation à Diriger des Recherches visent le développement de nouvelles stratégies neuromimétiques destinées à l'identification et à la commande de systèmes physiques complexes, non linéaires et non stationnaires. Les réseaux de neurones artificiels, également appelés modèles connexionnistes, sont abordés d'un point de vue du traitement du signal et du contrôle. Insérés dans des schémas d'identification et de commande, leurs capacités d'apprentissage rendent ces tâches plus robustes et plus autonomes. Nos études cherchent à développer de nouvelles approches neuromimétiques en prenant en compte de manière explicite des connaissances a priori afin de les rendre plus fidèles au système considéré et d'en améliorer l'identification ou la commande. De nombreux développements sont présentés, ils touchent le neurone formel, l'architecture des réseaux de neurones et la stratégie neuromimétique. Un neurone formel est optimisé. Différentes approches neuronales modulaires basées sur plusieurs réseaux de neurones sont proposées. Des schémas neuronaux issus d'une formalisation théorique d'un système sont étudiés. Cette formalisation repose sur l'expression des signaux internes du système et utilise des signaux synthétisés représentatifs de son évolution. Des associations entre des réseaux neuromimétiques et des techniques telles que la logique floue, des modèles statistiques, ou des modèles paramétriques sont développées. Les techniques neuronales proposées ont été validées expérimentalement. Nous avons montré que les modèles connexionnistes permettent incontestablement de développer des commandes avancées et efficaces à travers une démarche réfléchie.

APA, Harvard, Vancouver, ISO, and other styles

19

Tran, Gia-Lac. "Advances in Deep Gaussian Processes : calibration and sparsification." Electronic Thesis or Diss., Sorbonne université, 2020. https://accesdistant.sorbonne-universite.fr/login?url=https://theses-intra.sorbonne-universite.fr/2020SORUS410.pdf.

Full text

Abstract:

L'intégration des Convolutional Neural Networks (CNNs) et des GPs est une solution prometteuse pour améliorer le pouvoir de représentation des méthodes contemporaines. Dans notre première étude, nous utilisons des diagrammes de fiabilité pour montrer que les combinaisons actuelles de cnns et GPs sont mal calibrées, ce qui donne lieu à des prédictions trop confiantes. En utilisant des Random Feature et la technique d'inférence variationnelle, nous proposons une nouvelle solution correctement calibrée pour combinaisons des CNNs et des GPs. Nous proposons également une extension intuitive de cette solution, utilisant des Structured Random Features afin d'améliorer la précision du modèle et réduire la complexité des calculs. En termes de coût de calcul, la complexité du GPs exact est cubique en la taille de l'ensemble d'entrainement, ce qui le rend inutilisable lorsque celle-ci dépasse quelques milliers d'éléments. Afin de faciliter l'extension des GPs à des quantités massives de données, nous sélectionnons un petit ensemble de points actifs ou points d'induction par une distillation globale à partir de toutes les observations. Nous utilisons ensuite ces points actifs pour faire des prédictions. Plusieurs travaux similaires se basent sur l'étude Titsias et al en 2009 [5] and Hensman et al en 2015 [6]. Cependant, il est encore difficile de traiter le cas général, et il est toujours possible que le nombre de points actifs requis dépasse un budget de calcul donné. Dans notre deuxième étude, nous proposons Sparse-within-Sparse Gaussian Processes (SWSGP) qui permet l'approximation avec un grand nombre de points inducteurs sans cout de calcul prohibitif
Gaussian Processes (GPs) are an attractive specific way of doing non-parametric Bayesian modeling in a supervised learning problem. It is well-known that GPs are able to make inferences as well as predictive uncertainties with a firm mathematical background. However, GPs are often unfavorable by the practitioners due to their kernel's expressiveness and the computational requirements. Integration of (convolutional) neural networks and GPs are a promising solution to enhance the representational power. As our first contribution, we empirically show that these combinations are miscalibrated, which leads to over-confident predictions. We also propose a novel well-calibrated solution to merge neural structures and GPs by using random features and variational inference techniques. In addition, these frameworks can be intuitively extended to reduce the computational cost by using structural random features. In terms of computational cost, the exact Gaussian Processes require the cubic complexity to training size. Inducing point-based Gaussian Processes are a common choice to mitigate the bottleneck by selecting a small set of active points through a global distillation from available observations. However, the general case remains elusive and it is still possible that the required number of active points may exceed a certain computational budget. In our second study, we propose Sparse-within-Sparse Gaussian Processes which enable the approximation with a large number of inducing points without suffering a prohibitive computational cost

APA, Harvard, Vancouver, ISO, and other styles

20

Khaleghi, Azadeh. "Sur quelques problèmes non-supervisés impliquant des séries temporelles hautement dépendantes." Phd thesis, Université des Sciences et Technologie de Lille - Lille I, 2013. http://tel.archives-ouvertes.fr/tel-00920333.

Full text

Abstract:

Cette thèse est consacrée à l'analyse théorique de problèmes non supervisés impliquant des séries temporelles hautement dépendantes. Plus particulièrement, nous abordons les deux problèmes fondamentaux que sont le problème d'estimation des points de rupture et le partitionnement de séries temporelles. Ces problèmes sont abordés dans un cadre extrêmement général où les données sont générées par des processus stochastiques ergodiques stationnaires. Il s'agit de l'une des hypothèses les plus faibles en statistiques, comprenant non seulement, les hypothèses de modèles et les hypothèses paramétriques habituelles dans la littérature scientifique, mais aussi des hypothèses classiques d'indépendance, de contraintes sur l'espace mémoire ou encore des hypothèses de mélange. En particulier, aucune restriction n'est faite sur la forme ou la nature des dépendances, de telles sortes que les échantillons peuvent être arbitrairement dépendants. Pour chaque problème abordé, nous proposons de nouvelles méthodes non paramétriques et nous prouvons de plus qu'elles sont, dans ce cadre, asymptotique- ment consistantes. Pour l'estimation de points de rupture, la consistance asymptotique se rapporte à la capacité de l'algorithme à produire des estimations des points de rupture qui sont asymptotiquement arbitrairement proches des vrais points de rupture. D'autre part, un algorithme de partitionnement est asymptotiquement consistant si le partitionnement qu'il produit, restreint à chaque lot de séquences, coïncides, à partir d'un certain temps et de manière consistante, avec le partitionnement cible. Nous montrons que les algorithmes proposés sont implémentables efficacement, et nous accompagnons nos résultats théoriques par des évaluations expérimentales. L'analyse statistique dans le cadre stationnaire ergodique est extrêmement difficile. De manière générale, il est prouvé que les vitesses de convergence sont impossibles à obtenir. Dès lors, pour deux échantillons générés indépendamment par des processus ergodiques stationnaires, il est prouvé qu'il est impossible de distinguer le cas où les échantillons sont générés par le même processus de celui où ils sont générés par des processus différents. Ceci implique que des problèmes tels le partitionnement de séries temporelles sans la connaissance du nombre de partitions ou du nombre de points de rupture ne peut admettre de solutions consistantes. En conséquence, une tâche difficile est de découvrir les formulations du problème qui en permettent une résolution dans ce cadre général. La principale contribution de cette thèse est de démontrer (par construction) que malgré ces résultats d'impossibilités théoriques, des formulations naturelles des problèmes considérés existent et admettent des solutions consistantes dans ce cadre général. Ceci inclut la démonstration du fait que le nombre de points de rupture corrects peut être trouvé, sans recourir à des hypothèses plus fortes sur les processus stochastiques. Il en résulte que, dans cette formulation, le problème des points de rupture peut être réduit à du partitionnement de séries temporelles. Les résultats présentés dans ce travail formulent les fondations théoriques pour l'analyse des données séquentielles dans un espace d'applications bien plus large.

APA, Harvard, Vancouver, ISO, and other styles

21

Baelde, Maxime. "Modèles génératifs pour la classification et la séparation de sources sonores en temps-réel." Thesis, Lille 1, 2019. http://www.theses.fr/2019LIL1I058/document.

Full text

Abstract:

Cette thèse s'inscrit dans le cadre de l'entreprise A-Volute, éditrice de logiciels d'amélioration d'expérience audio. Elle propose un radar qui transpose l'information sonore multi-canale en information visuelle en temps-réel. Ce radar, bien que pertinent, manque d'intelligence car il analyse uniquement le flux audio en terme d'énergie et non en termes de sources sonores distinctes. Le but de cette thèse est de développer des algorithmes de classification et de séparation de sources sonores en temps-réel. D'une part, la classification de sources sonores a pour but d'attribuer un label (par exemple voix) à un son monophonique (un label) ou polyphonique (plusieurs labels). La méthode développée utilise un attribut spécifique, le spectre de puissance normalisé, utile à la fois dans le cas monophonique et polyphonique de part sa propriété d'additivité des sources sonores. Cette méthode utilise un modèle génératif qui permet de dériver une règle de décision basée sur une estimation non paramétrique. Le passage en temps-réel est réalisé grâce à un pré-traitement des prototypes avec une classification hiérarchique ascendante. Les résultats sont encourageants sur différentes bases de données (propriétaire et de comparaison), que ce soit en terme de précision ou de temps de calcul, notamment dans le cas polyphonique. D'autre part, la séparation de sources consiste à estimer les sources en terme de signal dans un mélange. Deux approches de séparation ont été considérées dans la thèse. La première considère les signaux à retrouver comme des données manquantes et à les estimer via un schéma génératif et une modélisation probabiliste. L'autre approche consiste, à partir d'exemples sonores présent dans une base de données, à calculer des transformations optimales de plusieurs exemples dont la combinaison tends vers le mélange observé. Les deux propositions sont complémentaires, avec chacune des avantages et inconvénients (rapidité de calcul pour la première, interprétabilité du résultat pour la deuxième). Les résultats expérimentaux semblent prometteurs et nous permettent d'envisager des perspectives de recherches intéressantes pour chacune des propositions
This thesis is part of the A-Volute company, an audio enhancement softwares editor. It offers a radar that translates multi-channel audio information into visual information in real-time. This radar, although relevant, lacks intelligence because it only analyses the audio stream in terms of energy and not in terms of separate sound sources. The purpose of this thesis is to develop algorithms for classifying and separating sound sources in real time. On the one hand, audio source classification aims to assign a label (e.g. voice) to a monophonic (one label) or polyphonic (several labels) sound. The developed method uses a specific feature, the normalized power spectrum, which is useful in both monophonic and polyphonic cases due to its additive properties of the sound sources. This method uses a generative model that allows to derive a decision rule based on a non-parametric estimation. The real-time constraint is achieved by pre-processing the prototypes with a hierarchical clustering. The results are encouraging on different databases (owned and benchmark), both in terms of accuracy and computation time, especially in the polyphonic case. On the other hand, source separation consists in estimating the sources in terms of signal in a mixture. Two approaches to this purpose were considered in this thesis. The first considers the signals to be found as missing data and estimates them through a generative process and probabilistic modelling. The other approach consists, from sound examples present in a database, in computing optimal transformations of several examples whose combination tends towards the observed mixture. The two proposals are complementary, each having advantages and drawbacks (computation time for the first, interpretability of the result for the second). The experimental results seem promising and allow us to consider interesting research perspectives for each of the proposals

APA, Harvard, Vancouver, ISO, and other styles

22

Sibony, Eric. "Analyse mustirésolution de données de classements." Thesis, Paris, ENST, 2016. http://www.theses.fr/2016ENST0036/document.

Full text

Abstract:

Cette thèse introduit un cadre d’analyse multirésolution pour les données de classements. Initiée au 18e siècle dans le contexte d’élections, l’analyse des données de classements a attiré un intérêt majeur dans de nombreux domaines de la littérature scientifique : psychométrie, statistiques, économie, recherche opérationnelle, apprentissage automatique ou choix social computationel entre autres. Elle a de plus été revitalisée par des applications modernes comme les systèmes de recommandation, où le but est d’inférer les préférences des utilisateurs pour leur proposer les meilleures suggestions personnalisées. Dans ces contextes, les utilisateurs expriment leurs préférences seulement sur des petits sous-ensembles d’objets variant au sein d’un large catalogue. L’analyse de tels classements incomplets pose cependant un défi important, tant du point de vue statistique que computationnel, poussant les acteurs industriels à utiliser des méthodes qui n’exploitent qu’une partie de l’information disponible. Cette thèse introduit une nouvelle représentation pour les données, qui surmonte par construction ce double défi. Bien qu’elle repose sur des résultats de combinatoire et de topologie algébrique, ses nombreuses analogies avec l’analyse multirésolution en font un cadre naturel et efficace pour l’analyse des classements incomplets. Ne faisant aucune hypothèse sur les données, elle mène déjà à des estimateurs au-delà de l’état-de-l’art pour des petits catalogues d’objets et peut être combinée avec de nombreuses procédures de régularisation pour des larges catalogues. Pour toutes ces raisons, nous croyons que cette représentation multirésolution ouvre la voie à de nombreux développements et applications futurs
This thesis introduces a multiresolution analysis framework for ranking data. Initiated in the 18th century in the context of elections, the analysis of ranking data has attracted a major interest in many fields of the scientific literature : psychometry, statistics, economics, operations research, machine learning or computational social choice among others. It has been even more revitalized by modern applications such as recommender systems, where the goal is to infer users preferences in order to make them the best personalized suggestions. In these settings, users express their preferences only on small and varying subsets of a large catalog of items. The analysis of such incomplete rankings poses however both a great statistical and computational challenge, leading industrial actors to use methods that only exploit a fraction of available information. This thesis introduces a new representation for the data, which by construction overcomes the two aforementioned challenges. Though it relies on results from combinatorics and algebraic topology, it shares several analogies with multiresolution analysis, offering a natural and efficient framework for the analysis of incomplete rankings. As it does not involve any assumption on the data, it already leads to overperforming estimators in small-scale settings and can be combined with many regularization procedures for large-scale settings. For all those reasons, we believe that this multiresolution representation paves the way for a wide range of future developments and applications

APA, Harvard, Vancouver, ISO, and other styles

23

Calandriello, Daniele. "Efficient sequential learning in structured and constrained environments." Thesis, Lille 1, 2017. http://www.theses.fr/2017LIL10216/document.

Full text

Abstract:

L'avantage principal des méthodes d'apprentissage non-paramétriques réside dans le fait que la nombre de degrés de libertés du modèle appris s'adapte automatiquement au nombre d'échantillons. Ces méthodes sont cependant limitées par le "fléau de la kernelisation": apprendre le modèle requière dans un premier temps de construire une matrice de similitude entre tous les échantillons. La complexité est alors quadratique en temps et espace, ce qui s'avère rapidement trop coûteux pour les jeux de données de grande dimension. Cependant, la dimension "effective" d'un jeu de donnée est bien souvent beaucoup plus petite que le nombre d'échantillons lui-même. Il est alors possible de substituer le jeu de donnée réel par un jeu de données de taille réduite (appelé "dictionnaire") composé exclusivement d'échantillons informatifs. Malheureusement, les méthodes avec garanties théoriques utilisant des dictionnaires comme "Ridge Leverage Score" (RLS) ont aussi une complexité quadratique. Dans cette thèse nous présentons une nouvelle méthode d'échantillonage RLS qui met à jour le dictionnaire séquentiellement en ne comparant chaque nouvel échantillon qu'avec le dictionnaire actuel, et non avec l'ensemble des échantillons passés. Nous montrons que la taille de tous les dictionnaires ainsi construits est de l'ordre de la dimension effective du jeu de données final, garantissant ainsi une complexité en temps et espace à chaque étape indépendante du nombre total d'échantillons. Cette méthode présente l’avantage de pouvoir être parallélisée. Enfin, nous montrons que de nombreux problèmes d'apprentissage non-paramétriques peuvent être résolus de manière approchée grâce à notre méthode
The main advantage of non-parametric models is that the accuracy of the model (degrees of freedom) adapts to the number of samples. The main drawback is the so-called "curse of kernelization": to learn the model we must first compute a similarity matrix among all samples, which requires quadratic space and time and is unfeasible for large datasets. Nonetheless the underlying effective dimension (effective d.o.f.) of the dataset is often much smaller than its size, and we can replace the dataset with a subset (dictionary) of highly informative samples. Unfortunately, fast data-oblivious selection methods (e.g., uniform sampling) almost always discard useful information, while data-adaptive methods that provably construct an accurate dictionary, such as ridge leverage score (RLS) sampling, have a quadratic time/space cost. In this thesis we introduce a new single-pass streaming RLS sampling approach that sequentially construct the dictionary, where each step compares a new sample only with the current intermediate dictionary and not all past samples. We prove that the size of all intermediate dictionaries scales only with the effective dimension of the dataset, and therefore guarantee a per-step time and space complexity independent from the number of samples. This reduces the overall time required to construct provably accurate dictionaries from quadratic to near-linear, or even logarithmic when parallelized. Finally, for many non-parametric learning problems (e.g., K-PCA, graph SSL, online kernel learning) we we show that we can can use the generated dictionaries to compute approximate solutions in near-linear that are both provably accurate and empirically competitive

APA, Harvard, Vancouver, ISO, and other styles

24

Dieuleveut, Aymeric. "Stochastic approximation in Hilbert spaces." Thesis, Paris Sciences et Lettres (ComUE), 2017. http://www.theses.fr/2017PSLEE059/document.

Full text

Abstract:

Le but de l’apprentissage supervisé est d’inférer des relations entre un phénomène que l’on souhaite prédire et des variables « explicatives ». À cette fin, on dispose d’observations de multiples réalisations du phénomène, à partir desquelles on propose une règle de prédiction. L’émergence récente de sources de données à très grande échelle, tant par le nombre d’observations effectuées (en analyse d’image, par exemple) que par le grand nombre de variables explicatives (en génétique), a fait émerger deux difficultés : d’une part, il devient difficile d’éviter l’écueil du sur-apprentissage lorsque le nombre de variables explicatives est très supérieur au nombre d’observations; d’autre part, l’aspect algorithmique devient déterminant, car la seule résolution d’un système linéaire dans les espaces en jeupeut devenir une difficulté majeure. Des algorithmes issus des méthodes d’approximation stochastique proposent uneréponse simultanée à ces deux difficultés : l’utilisation d’une méthode stochastique réduit drastiquement le coût algorithmique, sans dégrader la qualité de la règle de prédiction proposée, en évitant naturellement le sur-apprentissage. En particulier, le cœur de cette thèse portera sur les méthodes de gradient stochastique. Les très populaires méthodes paramétriques proposent comme prédictions des fonctions linéaires d’un ensemble choisi de variables explicatives. Cependant, ces méthodes aboutissent souvent à une approximation imprécise de la structure statistique sous-jacente. Dans le cadre non-paramétrique, qui est un des thèmes centraux de cette thèse, la restriction aux prédicteurs linéaires est levée. La classe de fonctions dans laquelle le prédicteur est construit dépend elle-même des observations. En pratique, les méthodes non-paramétriques sont cruciales pour diverses applications, en particulier pour l’analyse de données non vectorielles, qui peuvent être associées à un vecteur dans un espace fonctionnel via l’utilisation d’un noyau défini positif. Cela autorise l’utilisation d’algorithmes associés à des données vectorielles, mais exige une compréhension de ces algorithmes dans l’espace non-paramétrique associé : l’espace à noyau reproduisant. Par ailleurs, l’analyse de l’estimation non-paramétrique fournit également un éclairage révélateur sur le cadre paramétrique, lorsque le nombre de prédicteurs surpasse largement le nombre d’observations. La première contribution de cette thèse consiste en une analyse détaillée de l’approximation stochastique dans le cadre non-paramétrique, en particulier dans le cadre des espaces à noyaux reproduisants. Cette analyse permet d’obtenir des taux de convergence optimaux pour l’algorithme de descente de gradient stochastique moyennée. L’analyse proposée s’applique à de nombreux cadres, et une attention particulière est portée à l’utilisation d’hypothèses minimales, ainsi qu’à l’étude des cadres où le nombre d’observations est connu à l’avance, ou peut évoluer. La seconde contribution est de proposer un algorithme, basé sur un principe d’accélération, qui converge à une vitesse optimale, tant du point de vue de l’optimisation que du point de vue statistique. Cela permet, dans le cadre non-paramétrique, d’améliorer la convergence jusqu’au taux optimal, dans certains régimes pour lesquels le premier algorithme analysé restait sous-optimal. Enfin, la troisième contribution de la thèse consiste en l’extension du cadre étudié au delà de la perte des moindres carrés : l’algorithme de descente de gradient stochastiqueest analysé comme une chaine de Markov. Cette approche résulte en une interprétation intuitive, et souligne les différences entre le cadre quadratique et le cadre général. Une méthode simple permettant d’améliorer substantiellement la convergence est également proposée
The goal of supervised machine learning is to infer relationships between a phenomenon one seeks to predict and “explanatory” variables. To that end, multiple occurrences of the phenomenon are observed, from which a prediction rule is constructed. The last two decades have witnessed the apparition of very large data-sets, both in terms of the number of observations (e.g., in image analysis) and in terms of the number of explanatory variables (e.g., in genetics). This has raised two challenges: first, avoiding the pitfall of over-fitting, especially when the number of explanatory variables is much higher than the number of observations; and second, dealing with the computational constraints, such as when the mere resolution of a linear system becomes a difficulty of its own. Algorithms that take their roots in stochastic approximation methods tackle both of these difficulties simultaneously: these stochastic methods dramatically reduce the computational cost, without degrading the quality of the proposed prediction rule, and they can naturally avoid over-fitting. As a consequence, the core of this thesis will be the study of stochastic gradient methods. The popular parametric methods give predictors which are linear functions of a set ofexplanatory variables. However, they often result in an imprecise approximation of the underlying statistical structure. In the non-parametric setting, which is paramount in this thesis, this restriction is lifted. The class of functions from which the predictor is proposed depends on the observations. In practice, these methods have multiple purposes, and are essential for learning with non-vectorial data, which can be mapped onto a vector in a functional space using a positive definite kernel. This allows to use algorithms designed for vectorial data, but requires the analysis to be made in the non-parametric associated space: the reproducing kernel Hilbert space. Moreover, the analysis of non-parametric regression also sheds some light on the parametric setting when the number of predictors is much larger than the number of observations. The first contribution of this thesis is to provide a detailed analysis of stochastic approximation in the non-parametric setting, precisely in reproducing kernel Hilbert spaces. This analysis proves optimal convergence rates for the averaged stochastic gradient descent algorithm. As we take special care in using minimal assumptions, it applies to numerous situations, and covers both the settings in which the number of observations is known a priori, and situations in which the learning algorithm works in an on-line fashion. The second contribution is an algorithm based on acceleration, which converges at optimal speed, both from the optimization point of view and from the statistical one. In the non-parametric setting, this can improve the convergence rate up to optimality, even inparticular regimes for which the first algorithm remains sub-optimal. Finally, the third contribution of the thesis consists in an extension of the framework beyond the least-square loss. The stochastic gradient descent algorithm is analyzed as a Markov chain. This point of view leads to an intuitive and insightful interpretation, that outlines the differences between the quadratic setting and the more general setting. A simple method resulting in provable improvements in the convergence is then proposed

APA, Harvard, Vancouver, ISO, and other styles

25

Carriere, Mathieu. "On Metric and Statistical Properties of Topological Descriptors for geometric Data." Thesis, Université Paris-Saclay (ComUE), 2017. http://www.theses.fr/2017SACLS433/document.

Full text

Abstract:

Dans le cadre de l'apprentissage automatique, l'utilisation de représentations alternatives, ou descripteurs, pour les données est un problème fondamental permettant d'améliorer sensiblement les résultats des algorithmes. Parmi eux, les descripteurs topologiques calculent et encodent l'information de nature topologique contenue dans les données géométriques. Ils ont pour avantage de bénéficier de nombreuses bonnes propriétés issues de la topologie, et désirables en pratique, comme par exemple leur invariance aux déformations continues des données. En revanche, la structure et les opérations nécessaires à de nombreuses méthodes d'apprentissage, comme les moyennes ou les produits scalaires, sont souvent absents de l'espace de ces descripteurs. Dans cette thèse, nous étudions en détail les propriétés métriques et statistiques des descripteurs topologiques les plus fréquents, à savoir les diagrammes de persistance et Mapper. En particulier, nous montrons que le Mapper, qui est empiriquement un descripteur instable, peut être stabilisé avec une métrique appropriée, que l'on utilise ensuite pour calculer des régions de confiance et pour régler automatiquement ses paramètres. En ce qui concerne les diagrammes de persistance, nous montrons que des produits scalaires peuvent être utilisés via des méthodes à noyaux, en définissant deux noyaux, ou plongements, dans des espaces de Hilbert en dimension finie et infinie
In the context of supervised Machine Learning, finding alternate representations, or descriptors, for data is of primary interest since it can greatly enhance the performance of algorithms. Among them, topological descriptors focus on and encode the topological information contained in geometric data. One advantage of using these descriptors is that they enjoy many good and desireable properties, due to their topological nature. For instance, they are invariant to continuous deformations of data. However, the main drawback of these descriptors is that they often lack the structure and operations required by most Machine Learning algorithms, such as a means or scalar products. In this thesis, we study the metric and statistical properties of the most common topological descriptors, the persistence diagrams and the Mappers. In particular, we show that the Mapper, which is empirically instable, can be stabilized with an appropriate metric, that we use later on to conpute confidence regions and automatic tuning of its parameters. Concerning persistence diagrams, we show that scalar products can be defined with kernel methods by defining two kernels, or embeddings, into finite and infinite dimensional Hilbert spaces

APA, Harvard, Vancouver, ISO, and other styles

26

Godard, Pierre. "Unsupervised word discovery for computational language documentation." Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLS062/document.

Full text

Abstract:

La diversité linguistique est actuellement menacée : la moitié des langues connues dans le monde pourraient disparaître d'ici la fin du siècle. Cette prise de conscience a inspiré de nombreuses initiatives dans le domaine de la linguistique documentaire au cours des deux dernières décennies, et 2019 a été proclamée Année internationale des langues autochtones par les Nations Unies, pour sensibiliser le public à cette question et encourager les initiatives de documentation et de préservation. Néanmoins, ce travail est coûteux en temps, et le nombre de linguistes de terrain, limité. Par conséquent, le domaine émergent de la documentation linguistique computationnelle (CLD) vise à favoriser le travail des linguistes à l'aide d'outils de traitement automatique. Le projet Breaking the Unwritten Language Barrier (BULB), par exemple, constitue l'un des efforts qui définissent ce nouveau domaine, et réunit des linguistes et des informaticiens. Cette thèse examine le problème particulier de la découverte de mots dans un flot non segmenté de caractères, ou de phonèmes, transcrits à partir du signal de parole dans un contexte de langues très peu dotées. Il s'agit principalement d'une procédure de segmentation, qui peut également être couplée à une procédure d'alignement lorsqu'une traduction est disponible. En utilisant deux corpus en langues bantoues correspondant à un scénario réaliste pour la linguistique documentaire, l'un en Mboshi (République du Congo) et l'autre en Myene (Gabon), nous comparons diverses méthodes monolingues et bilingues de découverte de mots sans supervision. Nous montrons ensuite que l'utilisation de connaissances linguistiques expertes au sein du formalisme des Adaptor Grammars peut grandement améliorer les résultats de la segmentation, et nous indiquons également des façons d'utiliser ce formalisme comme outil de décision pour le linguiste. Nous proposons aussi une variante tonale pour un algorithme de segmentation bayésien non-paramétrique, qui utilise un schéma de repli modifié pour capturer la structure tonale. Pour tirer parti de la supervision faible d'une traduction, nous proposons et étendons, enfin, une méthode de segmentation neuronale basée sur l'attention, et améliorons significativement la performance d'une méthode bilingue existante
Language diversity is under considerable pressure: half of the world’s languages could disappear by the end of this century. This realization has sparked many initiatives in documentary linguistics in the past two decades, and 2019 has been proclaimed the International Year of Indigenous Languages by the United Nations, to raise public awareness of the issue and foster initiatives for language documentation and preservation. Yet documentation and preservation are time-consuming processes, and the supply of field linguists is limited. Consequently, the emerging field of computational language documentation (CLD) seeks to assist linguists in providing them with automatic processing tools. The Breaking the Unwritten Language Barrier (BULB) project, for instance, constitutes one of the efforts defining this new field, bringing together linguists and computer scientists. This thesis examines the particular problem of discovering words in an unsegmented stream of characters, or phonemes, transcribed from speech in a very-low-resource setting. This primarily involves a segmentation procedure, which can also be paired with an alignment procedure when a translation is available. Using two realistic Bantu corpora for language documentation, one in Mboshi (Republic of the Congo) and the other in Myene (Gabon), we benchmark various monolingual and bilingual unsupervised word discovery methods. We then show that using expert knowledge in the Adaptor Grammar framework can vastly improve segmentation results, and we indicate ways to use this framework as a decision tool for the linguist. We also propose a tonal variant for a strong nonparametric Bayesian segmentation algorithm, making use of a modified backoff scheme designed to capture tonal structure. To leverage the weak supervision given by a translation, we finally propose and extend an attention-based neural segmentation method, improving significantly the segmentation performance of an existing bilingual method

APA, Harvard, Vancouver, ISO, and other styles

27

Dulac, Adrien. "Etude des modèles à composition mixée pour l'analyse de réseaux complexes." Thesis, Université Grenoble Alpes (ComUE), 2018. http://www.theses.fr/2018GREAM080/document.

Full text

Abstract:

Les données relationnelles sont omniprésentes dans la nature et leur accessibilité ne cesse d'augmenter depuis ces dernières années. Ces données, vues comme un tout, forment un réseau qui peut être représenté par une structure de données appelée graphe où chaque nœud du graphe est une entité et chaque arête représente une relation ou connexion entre ces entités. Les réseaux complexes en général, tels que le Web, les réseaux de communications ou les réseaux sociaux sont connus pour exhiber des propriétés structurelles communes qui émergent aux travers de leurs graphes. Dans cette thèse, nous mettons l'accent sur deux importantes propriétés appelées *homophilie* et *attachement préférentiel* qui se produisent dans un grand nombre de réseaux réels. Dans une première phase, nous étudions une classe de modèles de graphes aléatoires dans un contexte Bayésien non-paramétrique, appelé *modèle de composition mixée*, et nous nous concentrons à montrer si ces modèles satisfont ou non les propriétés mentionnées, après avoir proposé des définitions formelles pour ces dernières. Nous conduisons ensuite une évaluation empirique pour mettre à l'épreuve nos résultats sur des jeux de données de réseaux synthétiques et réels. Dans une seconde phase, nous proposons un nouveau modèle, qui généralise un précédent modèle à composition mixée stochastique, adapté pour les réseaux pondérés et nous développons un algorithme d'inférence efficace capable de s'adapter à des réseaux de grande échelle
Relational data are ubiquitous in the nature and their accessibility has not ceased to increase in recent years. Those data, see as a whole, form a network, which can be represented by a data structure called a graph, where each vertex of the graph is an entity and each edge a connection between pair of vertices. Complex networks in general, such as the Web, communication networks or social network, are known to exhibit common structural properties that emerge through their graphs. In this work we emphasize two important properties called *homophilly* and *preferential attachment* that arise on most of the real-world networks. We firstly study a class of powerful *random graph models* in a Bayesian nonparametric setting, called *mixed-membership model* and we focus on showing whether the models in this class comply with the mentioned properties, after giving formal definitions in a probabilistic context of the latter. Furthermore, we empirically evaluate our findings on synthetic and real-world network datasets. Secondly, we propose a new model, which extends the former Stochastic Mixed-Membership Model, for weighted networks and we develop an efficient inference algorithm able to scale to large-scale networks

APA, Harvard, Vancouver, ISO, and other styles

28

Prendes, Jorge. "New statistical modeling of multi-sensor images with application to change detection." Thesis, Université Paris-Saclay (ComUE), 2015. http://www.theses.fr/2015SACLC006/document.

Full text

Abstract:

Les images de télédétection sont des images de la surface de la Terre acquises par des satellites ou des avions. Ces images sont de plus en plus disponibles et leur technologies évoluent rapidement. On peut observer une amélioration des capteurs existants, mais de nouveaux types de capteurs ont également vu le jour et ont montré des propriétés intéressantes pour le traitement d'images. Ainsi, les images multispectrales et radar sont devenues très classiques.La disponibilité de différents capteurs est très intéressante car elle permet de capturer une grande variété de propriétés des objets. Ces propriétés peuvent être exploitées pour extraire des informations plus riches sur les objets. Une des applications majeures de la télédétection est la détection de changements entre des images multi-temporelles (images de la même scène acquise à des instants différents). Détecter des changements entre des images acquises par des capteurs homogènes est un problème classique. Mais le problème de la détection de changements entre images acquises par des capteurs hétérogènes est un problème beaucoup plus difficile.Avoir des méthodes de détection de changements adaptées aux images issues de capteurs hétérogènes est nécessaire pour le traitement de catastrophes naturelles. Des bases de données constituées d'images optiques sont disponible, mais il est nécessaire d'avoir de bonnes conditions climatiques pour les acquérir. En revanche, les images radar sont accessibles rapidement quelles que soient les conditions climatiques et peuvent même être acquises de nuit. Ainsi, détecter des changements entre des images optiques et radar est un problème d'un grand intérêt en télédétection.L'intérêt de cette thèse est d'étudier des méthodes statistiques de détention de changements adaptés aux images issues de capteurs hétérogènes.Chapitre 1 rappelle ce qu'on entend par une image de télédétection et résume rapidement quelques méthodes de détection de changements disponibles dans la littérature. Les motivations à développer des méthodes de détection de changements adaptées aux images hétérogènes et les difficultés associiées sont présentés.Chapitre 2 étudie les propriétés statistiques des images en l'absence de changements. Un modèle de mélange de lois adapté aux ces images est introduit. La performance des méthodes classiques de détection de changements est également étudiée. Dans plusieurs cas, ce modèle permet d'expliquer certains défauts de certaines méthodes de la literature.Chapitre 3 étudie les propriétés des paramètres du modèle introduit au chapitre 2 en faisant l'hypothèse qu'ils appartiennent à une variété en l'absence de changements. Cette hypothèse est utilisée pour définir une mesure de similarité qui permet d'éviter les défauts des approches statistiques classiques. Une méthode permettant d'estimer cette mesure de similarité est présentée. Enfin, la stratégie de détection de changements basée sur cette mesure est validée à l'aide d'images synthétiques.Chapitre 4 étudie un algorithme Bayésien non-paramétrique (BNP) qui permet d'améliorer l'estimation de la variété introduite au chapitre 3, qui est basé sur un processus de restaurant Chinois (CRP) et un champs de Markov qui exploite la corrélation spatiale entre des pixels voisins de l'image. Une nouvelle loi a priori de Jeffrey pour le paramètre de concentration de ce CRP est définit. L'estimation des paramètres de ce nouveau modèle est effectuée à l'aide d'un échantillonneur de Gibbs de type "collapsed Gibbs sampler". La stratégie de détection de changement issue de ce modèle non-paramétrique est validée à l'aide d'images synthétiques.Le dernier chapitre est destiné à la validation des algorithmes de détection de changements développés sur des jeux d'images réelles montrant des résultats encourageant pour tous les cas d'étude. Le modèle BNP permet d'obtenir de meilleurs performances que le modèle paramétrique, mais ceci se fait au prix d'une complexité calculatoire plus importante
Remote sensing images are images of the Earth surface acquired from satellites or air-borne equipment. These images are becoming widely available nowadays and its sensor technology is evolving fast. Classical sensors are improving in terms of resolution and noise level, while new kinds of sensors are proving to be useful. Multispectral image sensors are standard nowadays and synthetic aperture radar (SAR) images are very popular.The availability of different kind of sensors is very advantageous since it allows us to capture a wide variety of properties of the objects contained in a scene. These properties can be exploited to extract richer information about these objects. One of the main applications of remote sensing images is the detection of changes in multitemporal datasets (images of the same area acquired at different times). Change detection for images acquired by homogeneous sensors has been of interest for a long time. However the wide range of different sensors found in remote sensing makes the detection of changes in images acquired by heterogeneous sensors an interesting challenge.Accurate change detectors adapted to heterogeneous sensors are needed for the management of natural disasters. Databases of optical images are readily available for an extensive catalog of locations, but, good climate conditions and daylight are required to capture them. On the other hand, SAR images can be quickly captured, regardless of the weather conditions or the daytime. For these reasons, optical and SAR images are of specific interest for tracking natural disasters, by detecting the changes before and after the event.The main interest of this thesis is to study statistical approaches to detect changes in images acquired by heterogeneous sensors. Chapter 1 presents an introduction to remote sensing images. It also briefly reviews the different change detection methods proposed in the literature. Additionally, this chapter presents the motivation to detect changes between heterogeneous sensors and its difficulties.Chapter 2 studies the statistical properties of co-registered images in the absence of change, in particular for optical and SAR images. In this chapter a finite mixture model is proposed to describe the statistics of these images. The performance of classical statistical change detection methods is also studied by taking into account the proposed statistical model. In several situations it is found that these classical methods fail for change detection.Chapter 3 studies the properties of the parameters associated with the proposed statistical mixture model. We assume that the model parameters belong to a manifold in the absence of change, which is then used to construct a new similarity measure overcoming the limitations of classic statistical approaches. Furthermore, an approach to estimate the proposed similarity measure is described. Finally, the proposed change detection strategy is validated on synthetic images and compared with previous strategies.Chapter 4 studies Bayesian non parametric algorithm to improve the estimation of the proposed similarity measure. This algorithm is based on a Chinese restaurant process and a Markov random field taking advantage of the spatial correlations between adjacent pixels of the image. This chapter also defines a new Jeffreys prior for the concentration parameter of this Chinese restaurant process. The estimation of the different model parameters is conducted using a collapsed Gibbs sampler. The proposed strategy is validated on synthetic images and compared with the previously proposed strategy. Finally, Chapter 5 is dedicated to the validation of the proposed change detection framework on real datasets, where encouraging results are obtained in all cases. Including the Bayesian non parametric model into the change detection strategy improves change detection performance at the expenses of an increased computational cost

APA, Harvard, Vancouver, ISO, and other styles

29

Kamari, Halaleh. "Qualité prédictive des méta-modèles construits sur des espaces de Hilbert à noyau auto-reproduisant et analyse de sensibilité des modèles complexes." Thesis, université Paris-Saclay, 2020. http://www.theses.fr/2020UPASE010.

Full text

Abstract:

Ce travail porte sur le problème de l'estimation d'un méta-modèle d'un modèle complexe, noté m. Le modèle m dépend de d variables d'entrées X1,...,Xd qui sont indépendantes et ont une loi connue. Le méta-modèle, noté f∗, approche la décomposition de Hoeffding de m et permet d'estimer ses indices de Sobol. Il appartient à un espace de Hilbert à noyau auto-reproduisant (RKHS), noté H, qui est construit comme une somme directe d'espaces de Hilbert (Durrande et al. (2013)). L'estimateur du méta-modèle, noté f^, est calculé en minimisant un critère des moindres carrés pénalisé par la somme de la norme de Hilbert et de la norme empirique L2 (Huet and Taupin (2017)). Cette procédure, appelée RKHS ridge groupe sparse, permet à la fois de sélectionner et d'estimer les termes de la décomposition de Hoeffding, et donc de sélectionner les indices de Sobol non-nuls et de les estimer. Il permet d'estimer les indices de Sobol même d'ordre élevé, un point connu pour être difficile à mettre en pratique.Ce travail se compose d'une partie théorique et d'une partie pratique. Dans la partie théorique, j'ai établi les majorations du risque empirique L2 et du risque quadratique de l'estimateur f^ d'un modèle de régression où l'erreur est non-gaussienne et non-bornée. Il s'agit des bornes supérieures par rapport à la norme empirique L2 et à la norme L2 pour la distance entre le modèle m et son estimation f^ dans le RKHS H. Dans la partie pratique, j'ai développé un package R appelé RKHSMetaMod, pour la mise en œuvre des méthodes d'estimation du méta-modèle f∗ de m. Ce package s'applique indifféremment dans le cas où le modèle m est calculable et le cas du modèle de régression. Afin d'optimiser le temps de calcul et la mémoire de stockage, toutes les fonctions de ce package ont été écrites en utilisant les bibliothèques GSL et Eigen de C++ à l'exception d'une fonction qui est écrite en R. Elles sont ensuite interfacées avec l'environnement R afin de proposer un package facilement exploitable aux utilisateurs. La performance des fonctions du package en termes de qualité prédictive de l'estimateur et de l'estimation des indices de Sobol, est validée par une étude de simulation
In this work, the problem of estimating a meta-model of a complex model, denoted m, is considered. The model m depends on d input variables X1 , ..., Xd that are independent and have a known law. The meta-model, denoted f ∗ , approximates the Hoeffding decomposition of m, and allows to estimate its Sobol indices. It belongs to a reproducing kernel Hilbert space (RKHS), denoted H, which is constructed as a direct sum of Hilbert spaces (Durrande et al. (2013)). The estimator of the meta-model, denoted f^, is calculated by minimizing a least-squares criterion penalized by the sum of the Hilbert norm and the empirical L2-norm (Huet and Taupin (2017)). This procedure, called RKHS ridge group sparse, allows both to select and estimate the terms in the Hoeffding decomposition, and therefore, to select the Sobol indices that are non-zero and estimate them. It makes possible to estimate the Sobol indices even of high order, a point known to be difficult in practice.This work consists of a theoretical part and a practical part. In the theoretical part, I established upper bounds of the empirical L2 risk and the L2 risk of the estimator f^. That is, upper bounds with respect to the L2-norm and the empirical L2-norm for the f^ distance between the model m and its estimation f into the RKHS H. In the practical part, I developed an R package, called RKHSMetaMod, that implements the RKHS ridge group sparse procedure and a spacial case of it called the RKHS group lasso procedure. This package can be applied to a known model that is calculable in all points or an unknown regression model. In order to optimize the execution time and the storage memory, except for a function that is written in R, all of the functions of the RKHSMetaMod package are written using C++ libraries GSL and Eigen. These functions are then interfaced with the R environment in order to propose an user friendly package. The performance of the package functions in terms of the predictive quality of the estimator and the estimation of the Sobol indices, is validated by a simulation study

APA, Harvard, Vancouver, ISO, and other styles

30

Depecker, Marine. "Méthodes d'apprentissage statistique pour le scoring." Phd thesis, Télécom ParisTech, 2010. http://pastel.archives-ouvertes.fr/pastel-00572421.

Full text

Abstract:

Cette thèse porte sur le développement d'une méthode non-paramétrique pour l'apprentissage supervisé de règles d'ordonnancement à partir de données étiquetées de façon binaire. Cette méthode repose sur le partitionnement récursif de l'espace des observations et généralise la notion d'arbre de décision au problème de l'ordonnancement, les règles de score produites pouvant être représentées graphiquement par des arbres binaires et orientés. Afin de proposer une méthode d'apprentissage flexible, nous introduisons une procédure permettant, à chaque itération de l'algorithme, de scinder l'espace des observations selon diverses règles, adaptatives et complexes, choisies en fonction du problème considéré. De plus, pour lutter contre le phénomène de sur-apprentissage, nous proposons deux procédures de sélection de modèle, fondées sur la maximisation de l'ASC empirique pénalisée par une mesure de la complexité du modèle. Enfin, dans le but de réduire l'instabilité des arbres d'ordonnancement, inhérente à leur mode de construction, nous adaptons deux procédures d'agrégation de règles de prédiction ré-échantillonnées : le bagging (Breiman, 1996) et les forêts aléatoires (Random Forests, Breiman, 2001). Une étude empirique comparative entre différentes configurations de l'algorithme et quelques méthodes de l'état de l'art est présentée, ainsi que l'application à la problématique industrielle de l'objectivation des prestations d'un véhicule automobile. De plus, nous exploitons cette méthode de scoring pour introduire une heuristique de test d'homogénéité entre deux populations, permettant de généraliser les tests de rangs au cas multi-dimensionnel.

APA, Harvard, Vancouver, ISO, and other styles

31

Depecker, Marine. "Méthodes d'apprentissage statistique pour le scoring." Phd thesis, Paris, Télécom ParisTech, 2010. https://pastel.hal.science/pastel-00572421.

Full text

Abstract:

Cette thèse porte sur le développement d'une méthode non-paramétrique pour l'apprentissage supervisé de règles d'ordonnancement à partir de données étiquetées de façon binaire. Cette méthode repose sur le partitionnement récursif de l'espace des observations et généralise la notion d'arbre de décision au problème de l'ordonnancement, les règles de score produites pouvant être représentées graphiquement par des arbres binaires et orientés. Afin de proposer une méthode d'apprentissage flexible, nous introduisons une procédure permettant, à chaque itération de l'algorithme, de scinder l'espace des observations selon diverses règles, adaptatives et complexes, choisies en fonction du problème considéré. De plus, pour lutter contre le phénomène de sur-apprentissage, nous proposons deux procédures de sélection de modèle, fondées sur la maximisation de l'ASC empirique pénalisée par une mesure de la complexité du modèle. Enfin, dans le but de réduire l'instabilité des arbres d'ordonnancement, inhérente à leur mode de construction, nous adaptons deux procédures d'agrégation de règles de prédiction ré-échantillonnées : le bagging (Breiman, 1996) et les forêts aléatoires (Random Forests, Breiman, 2001). Une étude empirique comparative entre différentes configurations de l'algorithme et quelques méthodes de l'état de l'art est présentée, ainsi que l'application à la problématique industrielle de l'objectivation des prestations d'un véhicule automobile. De plus, nous exploitons cette méthode de scoring pour introduire une heuristique de test d'homogénéité entre deux populations, permettant de généraliser les tests de rangs au cas multi-dimensionnel
Bipartite ranking is a statistical issue consisting in sorting objects lying in a multidimensional feature space, randomly associated with binary labels, so that positive instances appear on top of the list with highest probability. This research work aims at developing a tree-induction ranking method based on a top-down recursive partitioning strategy and leading to a scoring function summarized by a rooted, binary, left-right oriented tree graph. In order to improve the flexibility of this learning method, we introduce a partition-based procedure involving complex and adaptive splitting rules. We then tackle the classical issue of model selection and propose two penalization-based procedures providing the best ranking tree for prediction. Finally, in order to reduce the instability of ranking trees and increase their accuracy, we propose to adapt two re-sampling and aggregating procedures introduced by Breiman in the classification and regression contexts: bagging (1996) and random forests (2001). An empirical comparison between several versions of this ranking algorithm and state-of-the-art scoring methods is provided. We also present the results output on industrial objectivization data. Last but not least, we introduce a two-stage testing procedure aiming at solving the two-sample problem in a multidimensional setting, based on the proposed ranking algorithm and on one-dimensional rank tests

APA, Harvard, Vancouver, ISO, and other styles

32

Duchemin, Quentin. "Growth dynamics of large networks using hidden Markov chains." Thesis, Université Gustave Eiffel, 2022. https://tel.archives-ouvertes.fr/tel-03749513.

Full text

Abstract:

La première partie de cette thèse vise à introduire de nouveaux modèles de graphes aléatoires rendant compte de l'évolution temporelle des réseaux. Plus précisément, nous nous concentrons sur des modèles de croissance où à chaque instant un nouveau noeud s'ajoute au graphe existant. Nous attribuons à ce nouvel entrant des propriétés qui caractérisent son pouvoir de connectivité au reste du réseau et celles-ci dépendent uniquement du noeud précédemment introduit. Nos modèles de graphes aléatoires sont donc régis par une dynamique markovienne latente caractérisant la séquence de noeuds du graphe. Nous nous intéresserons particulièrement au Stochastic Block Model et aux Graphes Aléatoires Géométriques pour lesquels nous proposons des algorithmes permettant d'estimer les paramètres du modèle. Nous montrons ensuite comment ce travail d'estimation nous permet de résoudre des problèmes de prédiction de lien ou de filtrage collaboratif dans les graphes.L'étude théorique des algorithmes précédemment décrits mobilisent des résultats probabilistes poussés. Nous avons notamment dû recourir à une inégalité de concentration pour les U-statistiques dans un cadre dépendant. Peu nombreux sont les travaux ayant abordé cette épineuse question et l'existant considère des jeux d'hypothèses ne répondant pas à nos besoins. Aussi, la deuxième partie de ce manuscrit sera consacrée à la preuve d'une inégalité de concentration pour les U-statistiques d'ordre deux pour des chaînes de Markov uniformément ergodique. Dans le Chapitre 5, nous exploitons notre résultat de concentration pour les U-statistiques pour apporter de nouvelles contributions à trois domaines très actifs des Statistiques et du Machine Learning.Toujours motivés par des problèmes de prédictions liens dans les graphes, nous nous intéressons dans un dernier chapitre aux procédures d'inférence post-sélection dans le cadre de la régression logistique avec pénalité $L^1$. Nous prouvons un théorème central limite sous la distribution conditionnelle à l'événement de sélection et nous en déduisons des procédures de test et des intervalles de confiance asymptotiquement valides
The first part of this thesis aims at introducing new models of random graphs that account for the temporal evolution of networks. More precisely, we focus on growth models where at each instant a new node is added to the existing graph. We attribute to this new entrant properties that characterize its connectivity to the rest of the network and these properties depend only on the previously introduced node. Our random graph models are thus governed by a latent Markovian dynamic characterizing the sequence of nodes in the graph. We are particularly interested in the Stochastic Block Model and in Random Geometric Graphs for which we propose algorithms to estimate the unknown parameters or functions defining the model. We then show how these estimates allow us to solve link prediction or collaborative filtering problems in networks.The theoretical analysis of the above-mentioned algorithms requires advanced probabilistic tools. In particular, one of our proof is relying on a concentration inequality for U-statistics in a dependent framework. Few papers have addressed this thorny question and existing works consider sets of assumptions that do not meet our needs. Therefore, the second part of this manuscript will be devoted to the proof of a concentration inequality for U-statistics of order two for uniformly ergodic Markov chains. In Chapter 5, we exploit this concentration result for U-statistics to make new contributions to three very active areas of Statistics and Machine Learning.Still motivated by link prediction problems in graphs, we study post-selection inference procedures in the framework of logistic regression with $L^1$ penalty. We prove a central limit theorem under the distribution conditional on the selection event and derive asymptotically valid testing procedures and confidence intervals

APA, Harvard, Vancouver, ISO, and other styles

33

Hebbal, Ali. "Deep gaussian processes for the analysis and optimization of complex systems : application to aerospace system design." Thesis, Lille, 2021. http://www.theses.fr/2021LILUI016.

Full text

Abstract:

En ingénierie, la conception de systèmes complexes, tels que les lanceurs aérospatiaux, implique l'analyse et l'optimisation de problèmes présentant diverses problématiques. En effet, le concepteur doit prendre en compte différents aspects dans la conception de systèmes complexes, tels que la présence de fonctions coûteuses en temps de calcul et en boîte noire , la non-stationnarité des performances optimisées, les multiples objectifs et contraintes impliqués, le traitement de multiples sources d’information dans le cadre de la multi-fidélité, et les incertitudes épistémiques et aléatoires affectant les modèles physiques. Un large éventail de méthodes d'apprentissage automatique est utilisé pour relever ces différents défis. Dans le cadre de ces approches, les processus Gaussiens, bénéficiant de leur formulation Bayésienne et non paramétrique, sont populaires dans la littérature et divers algorithmes d'état de l'art pour la conception de systèmes complexes sont basés sur ces modèles.Les processus Gaussiens, bien qu'ils soient largement utilisés pour l'analyse et l'optimisation de systèmes complexes, présentent encore certaines limites. Pour l'optimisation de fonctions coûteuses en temps de calcul et en boite noire, les processus Gaussiens sont utilisés dans le cadre de l'optimisation Bayésienne comme modèles de régression. Cependant, pour l'optimisation de problèmes non stationnaires, les processus Gaussiens ne sont pas adaptés en raison de l'utilisation d'une fonction de covariance stationnaire. En outre, dans l'optimisation Bayésienne multi-objectif, un processus Gaussien est utilisé pour chaque objectif indépendamment des autres objectifs, ce qui empêche de prendre en considération une corrélation potentielle entre les objectifs. Une autre limitation existe dans l'analyse multi-fidélité où des modèles basés sur les processus Gaussiens sont utilisés pour améliorer les modèles haute fidélité en utilisant l'information basse fidélité, cependant, ces modèles supposent généralement que les différents espaces d'entrée de fidélité sont définis de manière identique, ce qui n'est pas le cas dans certains problèmes de conception.Dans cette thèse, des approches sont développées pour dépasser les limites des processus Gaussiens dans l'analyse et l'optimisation de systèmes complexes. Ces approches sont basées sur les processus Gaussiens profonds, la généralisation hiérarchique des processus Gaussiens.Pour gérer la non-stationnarité dans l'optimisation bayésienne, un algorithme est développé qui couple l'optimisation bayésienne avec les processus Gaussiens profonds. Les couches internes permettent une projection Bayésienne non paramétrique de l'espace d'entrée pour mieux représenter les fonctions non stationnaires. Pour l'optimisation Bayésienne multiobjectif, un modèle de processus Gaussien profond multiobjectif est développé. Chaque couche de ce modèle correspond à un objectif et les différentes couches sont reliées par des arrêtes non orientés pour coder la corrélation potentielle entre objectifs. De plus, une approche de calcul de l'expected hyper-volume improvement est proposée pour prendre également en compte cette corrélation au niveau du critère d'ajout de point. Enfin, pour aborder l'analyse multi-fidélité pour différentes définitions d'espace d'entrée, un modèle de processus gaussien profond à deux niveaux est développé. Ce modèle permet une optimisation conjointe du modèle multi-fidélité et du mapping entre les espaces d'entrée des différentes fidélités.Les différentes approches développées sont évaluées sur des problèmes analytiques ainsi que sur des problèmes de conception de véhicules aérospatiaux et comparées aux approches de l'état de l'art
In engineering, the design of complex systems, such as aerospace launch vehicles, involves the analysis and optimization of problems presenting diverse challenges. Actually, the designer has to take into account different aspects in the design of complex systems, such as the presence of black-box computationally expensive functions, the complex behavior of the optimized performance (e.g., abrupt change of a physical property here referred as non-stationarity), the multiple objectives and constraints involved, the multi-source information handling in a multi-fidelity framework, and the epistemic and aleatory uncertainties affecting the physical models. A wide range of machine learning methods are used to address these various challenges. Among these approaches, Gaussian Processes (GPs), benefiting from their Bayesian and non-parametric formulation, are popular in the literature and diverse state-of-the-art algorithms for the design of complex systems are based on these models.Despite being widely used for the analysis and optimization of complex systems, GPs, still present some limitations. For the optimization of computationally expensive functions, GPs are used within the Bayesian optimization framework as regression models. However, for the optimization of non-stationary problems, they are not suitable due to the use of a prior stationary covariance function. Furthermore, in Bayesian optimization of multiple objectives, a GP is used for each involved objective independently, which prevents the exhibition of a potential correlation between the objectives. Another limitation occurs in multi-fidelity analysis where GP-based models are used to improve high-fidelity models using low-fidelity information. However, these models usually assume that the different fidelity input spaces are identically defined, which is not the case in some design problems.In this thesis, approaches are developed to overcome the limits of GPs in the analysis and optimization of complex systems. These approaches are based on Deep Gaussian Processes (DGPs), the hierarchical generalization of Gaussian processes.To handle non-stationarity in Bayesian optimization, a framework is developed that couples Bayesian optimization with DGPs. The inner layers allow a non-parametric Bayesian mapping of the input space to better represent non-stationary functions. For multi-objective Bayesian optimization, a multi-objective DGP model is developed. Each layer of this model corresponds to an objective and the different layers are connected with undirected edges to encode the potential correlation between objectives. Moreover, a computational approach for the expected hyper-volume improvement is proposed to take into account this correlation at the infill criterion level as well. Finally, to address multi-fidelity analysis for different input space definitions, a two-level DGP model is developed. This model allows a joint optimization of the multi-fidelity model and the input space mapping between fidelities.The different approaches developed are assessed on analytical problems as well as on representative aerospace vehicle design problems with respect to state-of-the-art approaches

APA, Harvard, Vancouver, ISO, and other styles

34

Laouti, Nassim. "Diagnostic de défauts par les Machines à Vecteurs Supports : application à différents systèmes mutivariables nonlinéaires." Phd thesis, Université Claude Bernard - Lyon I, 2012. http://tel.archives-ouvertes.fr/tel-00985437.

Full text

Abstract:

Les systèmes réels sont généralement de nature non-linéaire, et leurs modélisations etsurveillance restent une tâche difficile à accomplir. Néanmoins, avec les progrès technologiqueson dispose maintenant d'un atout de taille sur ces systèmes qui est les données.Ce travail présente une technique de diagnostic de défaut et de modélisation basée en grandepartie sur la méthode d'apprentissage automatique " Les Machines à Vecteurs de Support,SVM " qui est basée sur les données. La méthodologie proposée est appliquée à différentessystèmes multivariables et non linéaires, à savoir : un procédé de traitement des eaux usées, unsystème éolien et un réacteur chimique parfaitement agité.L'objectif de cette thèse de doctorat est d'examiner la possibilité d'extraire le maximumd'information à partir de données afin de surveiller efficacement le comportement de systèmesréels et de détecter rapidement tout défaut qui peut compromettre leur bon fonctionnement. Lamême méthode est utilisée pour la modélisation des différents systèmes. Plusieurs défis ont étérelevés tels que la complexité du comportement des systèmes, le grand nombre de mesuresvariant à différentes échelles de temps, la présence de bruit et les perturbations. Une méthodegénérique de diagnostic de défauts est proposée par la génération des caractéristiques de chaquedéfaut suivie d'une étape d'évaluation de ces caractéristiques avec une amélioration du transfertde connaissances en modélisation.Dans cette thèse ont a démontré l'utilité de l'outil Machines à Vecteurs de Support, enclassification par la construction de modèles de décision SVM dédiés à l'évaluation descaractéristiques de défaut, et aussi en tant qu'estimateur non linéaire/ou pour la modélisation parl'utilisation des machines à vecteurs de support dédiés pour la régression (SVR).La combinaison de SVM et d'une méthode basée sur le modèle "observateur" a été aussi étudiéeet a été nécessaire dans certains cas pour garantir un bon diagnostic de défauts.

APA, Harvard, Vancouver, ISO, and other styles

35

Loth, Manuel. "Algorithmes d'Ensemble Actif pour le LASSO." Phd thesis, Université des Sciences et Technologie de Lille - Lille I, 2011. http://tel.archives-ouvertes.fr/tel-00845441.

Full text

Abstract:

Cette thèse aborde le calcul de l'opérateur LASSO (Least Absolute Shrinkage and Selection Operator), ainsi que des problématiques qui lui sont associées, dans le domaine de la régression. Cet opérateur a suscité une attention croissante depuis son introduction par Robert Tibshirani en 1996, par sa capacité à produire ou identi fier des modèles linéaires parcimonieux à partir d'observations bruitées, la parcimonie signi fiant que seules quelques unes parmi de nombreuses variables explicatives apparaissent dans le modèle proposé. Cette sélection est produite par l'ajout à la méthode des moindres-carrés d'une contrainte ou pénalisation sur la somme des valeurs absolues des coe fficients linéaires, également appelée norme l1 du vecteur de coeffi cients. Après un rappel des motivations, principes et problématiques de la régression, des estimateurs linéaires, de la méthode des moindres-carrés, de la sélection de modèle et de la régularisation, les deux formulations équivalentes du LASSO contrainte ou régularisée sont présentées; elles dé finissent toutes deux un problème de calcul non trivial pour associer un estimateur à un ensemble d'observations et un paramètre de sélection. Un bref historique des algorithmes résolvant ce problème est dressé, et les deux approches permettant de gérer la non-di fferentiabilité de la norme l1 sont présentées, ainsi que l'équivalence de ces problèmes avec un programme quadratique. La seconde partie se concentre sur l'aspect pratique des algorithmes de résolution du LASSO. L'un d'eux, proposé par Michael Osborne en 2000, est reformulé. Cette reformulation consiste à donner une défi nition et explication générales de la méthode d'ensemble actif, qui généralise l'algorithme du simplex à la programmation convexe, puis à la spéci fier progressivement pour la programmation LASSO, et à adresser les questions d'optimisation des calculs algébriques. Bien que décrivant essentiellement le même algorithme que celui de Michael Osborne, la présentation qui en est faite ici a l'ambition d'en exposer clairement les mécanismes, et utilise des variables di fférentes. Outre le fait d'aider à mieux comprendre cet algorithme visiblement sous-estimé, l'angle par lequel il est présenté éclaire le fait nouveau que la même méthode s'applique naturellement à la formulation régularisée du LASSO, et non uniquement à la formulation contrainte. La populaire méthode par homotopie (ou LAR-LASSO, ou LARS) est ensuite présentée comme une dérivation de la méthode d'ensemble actif, amenant une formulation alternative et quelque peu simpli fiée de cet algorithme qui fournit les solutions du LASSO pour chaque valeur de son paramètre. Il est montré que, contrairement aux résultats d'une étude récente de Jerome H. Friedman, des implémentations de ces algorithmes suivant ces reformulations sont plus effi caces en terme de temps de calcul qu'une méthode de descente par coordonnées. La troisième partie étudie dans quelles mesures ces trois algorithmes (ensemble actif, homotopie, et descente par coordonnées) peuvent gérer certains cas particuliers, et peuvent être appliqués à des extensions du LASSO ou d'autres problèmes similaires. Les cas particuliers incluent les dégénérescences, comme la présence de variables lineairement dépendantes, ou la sélection/désélection simultanée de variables. Cette dernière problématique, qui était délaissée dans les travaux précédents, est ici expliquée plus largement et une solution simple et efficace y est apportée. Une autre cas particulier est la sélection LASSO à partir d'un nombre très large, voire infi ni de variables, cas pour lequel la méthode d'ensemble actif présente un avantage majeur. Une des extensions du LASSO est sa transposition dans un cadre d'apprentissage en ligne, où il est désirable ou nécessaire de résoudre le problème sur un ensemble d'observations qui évolue dans le temps. A nouveau, la flexibilité limitée de la méthode par homotopie la disquali fie au pro fit des deux autres. Une autre extension est l'utilisation de la pénalisation l1 sur d'autres fonction coûts que la norme l2 du résidu, ou en association avec d'autres pénalisations, et il est rappelé ou établi dans quelles mesures et de quelle façon chaque algorithme peut être transposé à ces problèmes.

APA, Harvard, Vancouver, ISO, and other styles

36

Senécal, Jean-Sébastien. "Accélérer l'entraînement d'un modèle non-paramétrique de densité non normalisée par échantillonnage aléatoire." Thèse, 2003. http://hdl.handle.net/1866/14518.

Full text

APA, Harvard, Vancouver, ISO, and other styles

We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!