Dissertationen zum Thema „Sélection de variables bayésienne“

Um die anderen Arten von Veröffentlichungen zu diesem Thema anzuzeigen, folgen Sie diesem Link: Sélection de variables bayésienne.

Geben Sie eine Quelle nach APA, MLA, Chicago, Harvard und anderen Zitierweisen an

Wählen Sie eine Art der Quelle aus:

Machen Sie sich mit Top-50 Dissertationen für die Forschung zum Thema "Sélection de variables bayésienne" bekannt.

Neben jedem Werk im Literaturverzeichnis ist die Option "Zur Bibliographie hinzufügen" verfügbar. Nutzen Sie sie, wird Ihre bibliographische Angabe des gewählten Werkes nach der nötigen Zitierweise (APA, MLA, Harvard, Chicago, Vancouver usw.) automatisch gestaltet.

Sie können auch den vollen Text der wissenschaftlichen Publikation im PDF-Format herunterladen und eine Online-Annotation der Arbeit lesen, wenn die relevanten Parameter in den Metadaten verfügbar sind.

Sehen Sie die Dissertationen für verschiedene Spezialgebieten durch und erstellen Sie Ihre Bibliographie auf korrekte Weise.

1

Baragatti, Meïli. „Sélection bayésienne de variables et méthodes de type Parallel Tempering avec et sans vraisemblance“. Thesis, Aix-Marseille 2, 2011. http://www.theses.fr/2011AIX22100/document.

Der volle Inhalt der Quelle
Annotation:
Cette thèse se décompose en deux parties. Dans un premier temps nous nous intéressons à la sélection bayésienne de variables dans un modèle probit mixte.L'objectif est de développer une méthode pour sélectionner quelques variables pertinentes parmi plusieurs dizaines de milliers tout en prenant en compte le design d'une étude, et en particulier le fait que plusieurs jeux de données soient fusionnés. Le modèle de régression probit mixte utilisé fait partie d'un modèle bayésien hiérarchique plus large et le jeu de données est considéré comme un effet aléatoire. Cette méthode est une extension de la méthode de Lee et al. (2003). La première étape consiste à spécifier le modèle ainsi que les distributions a priori, avec notamment l'utilisation de l'a priori conventionnel de Zellner (g-prior) pour le vecteur des coefficients associé aux effets fixes (Zellner, 1986). Dans une seconde étape, nous utilisons un algorithme Metropolis-within-Gibbs couplé à la grouping (ou blocking) technique de Liu (1994) afin de surmonter certaines difficultés d'échantillonnage. Ce choix a des avantages théoriques et computationnels. La méthode développée est appliquée à des jeux de données microarray sur le cancer du sein. Cependant elle a une limite : la matrice de covariance utilisée dans le g-prior doit nécessairement être inversible. Or il y a deux cas pour lesquels cette matrice est singulière : lorsque le nombre de variables sélectionnées dépasse le nombre d'observations, ou lorsque des variables sont combinaisons linéaires d'autres variables. Nous proposons donc une modification de l'a priori de Zellner en y introduisant un paramètre de type ridge, ainsi qu'une manière de choisir les hyper-paramètres associés. L'a priori obtenu est un compromis entre le g-prior classique et l'a priori supposant l'indépendance des coefficients de régression, et se rapproche d'un a priori précédemment proposé par Gupta et Ibrahim (2007).Dans une seconde partie nous développons deux nouvelles méthodes MCMC basées sur des populations de chaînes. Dans le cas de modèles complexes ayant de nombreux paramètres, mais où la vraisemblance des données peut se calculer, l'algorithme Equi-Energy Sampler (EES) introduit par Kou et al. (2006) est apparemment plus efficace que l'algorithme classique du Parallel Tempering (PT) introduit par Geyer (1991). Cependant, il est difficile d'utilisation lorsqu'il est couplé avec un échantillonneur de Gibbs, et nécessite un stockage important de valeurs. Nous proposons un algorithme combinant le PT avec le principe d'échanges entre chaînes ayant des niveaux d'énergie similaires dans le même esprit que l'EES. Cette adaptation appelée Parallel Tempering with Equi-Energy Moves (PTEEM) conserve l'idée originale qui fait la force de l'algorithme EES tout en assurant de bonnes propriétés théoriques et une utilisation facile avec un échantillonneur de Gibbs.Enfin, dans certains cas complexes l'inférence peut être difficile car le calcul de la vraisemblance des données s'avère trop coûteux, voire impossible. De nombreuses méthodes sans vraisemblance ont été développées. Par analogie avec le Parallel Tempering, nous proposons une méthode appelée ABC-Parallel Tempering, basée sur la théorie des MCMC, utilisant une population de chaînes et permettant des échanges entre elles
This thesis is divided into two main parts. In the first part, we propose a Bayesian variable selection method for probit mixed models. The objective is to select few relevant variables among tens of thousands while taking into account the design of a study, and in particular the fact that several datasets are merged together. The probit mixed model used is considered as part of a larger hierarchical Bayesian model, and the dataset is introduced as a random effect. The proposed method extends a work of Lee et al. (2003). The first step is to specify the model and prior distributions. In particular, we use the g-prior of Zellner (1986) for the fixed regression coefficients. In a second step, we use a Metropolis-within-Gibbs algorithm combined with the grouping (or blocking) technique of Liu (1994). This choice has both theoritical and practical advantages. The method developed is applied to merged microarray datasets of patients with breast cancer. However, this method has a limit: the covariance matrix involved in the g-prior should not be singular. But there are two standard cases in which it is singular: if the number of observations is lower than the number of variables, or if some variables are linear combinations of others. In such situations we propose to modify the g-prior by introducing a ridge parameter, and a simple way to choose the associated hyper-parameters. The prior obtained is a compromise between the conditional independent case of the coefficient regressors and the automatic scaling advantage offered by the g-prior, and can be linked to the work of Gupta and Ibrahim (2007).In the second part, we develop two new population-based MCMC methods. In cases of complex models with several parameters, but whose likelihood can be computed, the Equi-Energy Sampler (EES) of Kou et al. (2006) seems to be more efficient than the Parallel Tempering (PT) algorithm introduced by Geyer (1991). However it is difficult to use in combination with a Gibbs sampler, and it necessitates increased storage. We propose an algorithm combining the PT with the principle of exchange moves between chains with same levels of energy, in the spirit of the EES. This adaptation which we are calling Parallel Tempering with Equi-Energy Move (PTEEM) keeps the original idea of the EES method while ensuring good theoretical properties and a practical use in combination with a Gibbs sampler.Then, in some complex models whose likelihood is analytically or computationally intractable, the inference can be difficult. Several likelihood-free methods (or Approximate Bayesian Computational Methods) have been developed. We propose a new algorithm, the Likelihood Free-Parallel Tempering, based on the MCMC theory and on a population of chains, by using an analogy with the Parallel Tempering algorithm
APA, Harvard, Vancouver, ISO und andere Zitierweisen
2

Viallefont, Valérie. „Analyses bayesiennes du choix de modèles en épidémiologie : sélection de variables et modélisation de l'hétérogénéité pour des évènements“. Paris 11, 2000. http://www.theses.fr/2000PA11T023.

Der volle Inhalt der Quelle
Annotation:
Cette thèse se décompose en deux parties qui traitent la question du choix modèles dans deux problématiques différentes. Dans la première partie, on s'intéresse, pour les modèles de régression logis multivariée, à différentes stratégies de sélection de variables associées à l'apparition d'une maladie. Les méthodes les plus fréquemment mises en œuvre à l'heure actuelle consistent à sélectionner certaines variables dans un modèle final unique, modèle dans lequel sont ensuite estimés les paramètres et leur variance. Différents critères de sélection existent et la plupart d'entre eux reposent sur une comparaison du degré de signification de tests à une valeur seuil. On s'intéresse aux performances auc performances de ces approches par rapport à celles d'une méthode bayésienne dans laquelle on considère tout un ensemble de modèles. A chaque modèle est associé sa probabilité a posteriori. Cette approche permet d'estimer la probabilité de l'existence d'une association entre chaque variable et l'apparition de la maladie, et de calculer des estimations globale des paramètres. Deux schémas de simulations sont envisagés pour cette comparaison : l'un évoque un cas d'école où l'on s'intéresse à un facteur de risque en présence d'un unique facteur de confusion potentiel, l'autre caractérise une enquête épidémiologique avec un grand nombre de facteurs de risque possibles. Les critères de comparaison portent sur le biais moyen dans l'estimation des coefficients, les pourcentages d’erreurs de première et seconde espèces ou leur équivalent bayésien, et l'expression du degré d'incertitude. La méthode bayésienne fournit notamment une appréciation plus explicite de l'incertitude sur les conclusions. Dans la deuxième partie, on s'intéresse au cas où des données relatives à des événements rares présentent une trop forte hétérogénéité pour être modélisées par une seule distribution de Poisson. On fait alors l'hypothèse qu'elles sont issues de mélange de distributions de Poisson. On propose d'estimer conjointement, dans un modèle hiérarchique bayésien, le nombre de composantes du mélange et les proportions et paramètres de chacune, par les méthodes de Monte Carlo par Chaîne de Markov (MCMC). L'estimation du nombre de composantes nécessite que la dimension de l'espace des paramètres puisse varier : pour ceci on utilise le principe du "Saut Reversible". On illustre la difficulté de trouver une loi a priori faiblement informative pour les paramètres de Poisson en étudiant la sensibilité des résultats au choix de cette loi a priori et de ses paramètres. On propose différentes transformations lors du changement de dimension de l'espace des paramètres et on s'intéresse à leur influence sur les performances de l'algorithme, notamment son caractère mélangeant. Enfin on écrit deux modèles, de prise en compte de covariables, dont l'effet est soit homogène soit hétérogène sur les composantes du mélange. Les comparaisons sont menées sur des jeux de données simulés, et le modèle est finalement illustré sur des données réelles de nature épidémiologique concernant des cas de cancers digestifs en France, puis des données d'accidents de la route
This dissertation has two separated parts. In the first part, we compare different strategies for variable selection in a multi­variate logistic regression model. Covariate and confounder selection in case-control studies is often carried out using either a two-step method or a stepwise variable selection method. Inference is then carried out conditionally on the selected model, but this ignores the madel uncertainty implicit in the variable selection process, and so underestimates uncertainty about relative risks. It is well known, and showed again in our study, that the ρ-values computed after variable selection can greatly overstate the strength of conclusions. We propose Bayesian Model Averaging as a formal way of taking account of madel uncertainty in a logistic regression context. The BMA methods, that allows to take into account several models, each being associated with its posterior probability, yields an easily interpreted summary, the posterior probability that a variable is a risk factor, and its estimate averaged over the set of models. We conduct two comparative simulations studies : the first one has a simple design including only one risk factor and one confounder, the second one mimics a epidemiological cohort study dataset, with a large number of potential risk factors. Our criteria are the mean bias, the rate of type I and type II errors, and the assessment of uncertainty in the results, which is bath more accurate and explicit under the BMA analysis. The methods are applied and compared in the context of a previously published case-control study of cervical cancer. The choice of the prior distributions are discussed. In the second part, we focus on the modelling of rare events via a Poisson distribution, that sometimes reveals substantial over-dispersion, indicating that sorme un­ explained discontinuity arises in the data. We suggest to madel this over-dispersion by a Poisson mixture. In a hierarchical Bayesian model, the posterior distributions of he unknown quantities in the mixture (number of components, weights, and Poisson parameters) can be estimated by MCMC algorithms, including reversible jump algothms which allows to vary the dimension of the mixture. We focus on the difficulty of finding a weakly informative prior for the Poisson parameters : different priors are detailed and compared. Then, the performances of different maves created for changing dimension are investigated. The model is extended by the introduction of covariates, with homogeneous or heterogeneous effect. Simulated data sets are designed for the different comparisons, and the model is finally illustrated in two different contexts : an ecological analysis of digestive cancer mortality along the coasts of France, and a dataset concerning counts of accidents in road-junctions
APA, Harvard, Vancouver, ISO und andere Zitierweisen
3

Bouhamed, Heni. „L'Apprentissage automatique : de la sélection de variables à l'apprentissage de structure d'un classifieur bayésien“. Rouen, 2013. http://www.theses.fr/2013ROUES037.

Der volle Inhalt der Quelle
Annotation:
Les travaux développés dans le cadre de cette thèse portent sur le problème du traitement des grandes masses de données lors de l’apprentissage automatique d’un modèle à partir d’une base d’exemples. Ainsi, le modèle construit servira comme un outil de classification de nouveaux cas. Nous étudions plus particulièrement dans un premier temps, le concept de la sélection de variables en présentant ses principales stratégies et en propulsant leurs insuffisances, en effet, une nouvelle méthode Filtre (Filter) sera développée au cours de ce travail afin de remédier aux insuffisances signalées. Nous étudions dans un deuxième temps, le problème de l’augmentation super-exponentielle de la complexité algorithmique de l’apprentissage de structure d’un classifieur Bayésien dans le cas d’utilisation d’algorithmes généraux et sans restrictions particulières. En effet, en se référant à la formule de Robinson (Robinson, 1977), il est certain que le nombre de graphes acycliques dirigés (DAG) augmente d’une façon super exponentielle selon l’augmentation du nombre de variables. Alors, on se propose lors de cette partie de développer une nouvelle approche permettant de réduire le nombre de DAG possibles lors de l’apprentissage automatique de structure sans pour autant perdre de l’information. Evidemment, la réduction du nombre de DAG possible va permettre de réduire la complexité algorithmique du processus et en conséquence la réduction du temps d’exécution, ce qui va nous permettre de pouvoir modéliser des systèmes d’informations plus grands avec la même qualité d’exploitation
The work developed in the framework of this thesis deals with the problem of processing large amounts of data in machine learning model from an examples’ database. Thus, the model constructed will serve as a tool for classifying new cases. We will particularly focus firstly, to the concept of variable selection by presenting its major strategies and propelling their shortcomings, in fact, a new filter method will be developed in this work in the aim to remedy to the identified shortcomings. Secondly, we will study the super exponential increase problem of the computational complexity of learning Bayesian classifier structure in the case of using general algorithms with no special restrictions. Indeed, referring to the formula of Robinson (Robinson, 1977), it is certain that the number of the directed acyclic graph (DAG) increases with a super exponential manner according to the increase of variables numbers. So, it is proposed in this work to develop a new approach in the aim to reduce the number of possible DAG in learning structure, without losing information. Obviously, reducing the number of DAG as possible will reduce the computational complexity of the process and therefore reducing the execution time, which will allow us to model grater information systems with the same quality of exploitation
APA, Harvard, Vancouver, ISO und andere Zitierweisen
4

Guin, Ophélie. „Méthodes bayésiennes semi-paramétriques d'extraction et de sélection de variables dans le cadre de la dendroclimatologie“. Phd thesis, Université Paris Sud - Paris XI, 2011. http://tel.archives-ouvertes.fr/tel-00636704.

Der volle Inhalt der Quelle
Annotation:
Selon le Groupe Intergouvernemental d'experts sur l'Évolution du Climat (GIEC), il est important de connaitre le climat passé afin de replacer le changement climatique actuel dans son contexte. Ainsi, de nombreux chercheurs ont travaillé à l'établissement de procédures permettant de reconstituer les températures ou les précipitations passées à l'aide d'indicateurs climatiques indirects. Ces procédures sont généralement basées sur des méthodes statistiques mais l'estimation des incertitudes associées à ces reconstructions reste une difficulté majeure. L'objectif principal de cette thèse est donc de proposer de nouvelles méthodes statistiques permettant une estimation précise des erreurs commises, en particulier dans le cadre de reconstructions à partir de données sur les cernes d'arbres.De manière générale, les reconstructions climatiques à partir de mesures de cernes d'arbres se déroulent en deux étapes : l'estimation d'une variable cachée, commune à un ensemble de séries de mesures de cernes, et supposée climatique puis l'estimation de la relation existante entre cette variable cachée et certaines variables climatiques. Dans les deux cas, nous avons développé une nouvelle procédure basée sur des modèles bayésiens semi- paramétriques. Tout d'abord, concernant l'extraction du signal commun, nous proposons un modèle hiérarchique semi-paramétrique qui offre la possibilité de capturer les hautes et les basses fréquences contenues dans les cernes d'arbres, ce qui était difficile dans les études dendroclimatologiques passées. Ensuite, nous avons développé un modèle additif généralisé afin de modéliser le lien entre le signal extrait et certaines variables climatiques, permettant ainsi l'existence de relations non-linéaires contrairement aux méthodes classiques de la dendrochronologie. Ces nouvelles méthodes sont à chaque fois comparées aux méthodes utilisées traditionnellement par les dendrochronologues afin de comprendre ce qu'elles peuvent apporter à ces derniers.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
5

Mattei, Pierre-Alexandre. „Sélection de modèles parcimonieux pour l’apprentissage statistique en grande dimension“. Thesis, Sorbonne Paris Cité, 2017. http://www.theses.fr/2017USPCB051/document.

Der volle Inhalt der Quelle
Annotation:
Le déferlement numérique qui caractérise l’ère scientifique moderne a entraîné l’apparition de nouveaux types de données partageant une démesure commune : l’acquisition simultanée et rapide d’un très grand nombre de quantités observables. Qu’elles proviennent de puces ADN, de spectromètres de masse ou d’imagerie par résonance nucléaire, ces bases de données, qualifiées de données de grande dimension, sont désormais omniprésentes, tant dans le monde scientifique que technologique. Le traitement de ces données de grande dimension nécessite un renouvellement profond de l’arsenal statistique traditionnel, qui se trouve inadapté à ce nouveau cadre, notamment en raison du très grand nombre de variables impliquées. En effet, confrontée aux cas impliquant un plus grand nombre de variables que d’observations, une grande partie des techniques statistiques classiques est incapable de donner des résultats satisfaisants. Dans un premier temps, nous introduisons les problèmes statistiques inhérents aux modelés de données de grande dimension. Plusieurs solutions classiques sont détaillées et nous motivons le choix de l’approche empruntée au cours de cette thèse : le paradigme bayésien de sélection de modèles. Ce dernier fait ensuite l’objet d’une revue de littérature détaillée, en insistant sur plusieurs développements récents. Viennent ensuite trois chapitres de contributions nouvelles à la sélection de modèles en grande dimension. En premier lieu, nous présentons un nouvel algorithme pour la régression linéaire bayésienne parcimonieuse en grande dimension, dont les performances sont très bonnes, tant sur données réelles que simulées. Une nouvelle base de données de régression linéaire est également introduite : il s’agit de prédire la fréquentation du musée d’Orsay à l’aide de données vélibs. Ensuite, nous nous penchons sur le problème de la sélection de modelés pour l’analyse en composantes principales (ACP). En nous basant sur un résultat théorique nouveau, nous effectuons les premiers calculs exacts de vraisemblance marginale pour ce modelé. Cela nous permet de proposer deux nouveaux algorithmes pour l’ACP parcimonieuse, un premier, appelé GSPPCA, permettant d’effectuer de la sélection de variables, et un second, appelé NGPPCA, permettant d’estimer la dimension intrinsèque de données de grande dimension. Les performances empiriques de ces deux techniques sont extrêmement compétitives. Dans le cadre de données d’expression ADN notamment, l’approche de sélection de variables proposée permet de déceler sans supervision des ensembles de gènes particulièrement pertinents
The numerical surge that characterizes the modern scientific era led to the rise of new kinds of data united in one common immoderation: the simultaneous acquisition of a large number of measurable quantities. Whether coming from DNA microarrays, mass spectrometers, or nuclear magnetic resonance, these data, usually called high-dimensional, are now ubiquitous in scientific and technological worlds. Processing these data calls for an important renewal of the traditional statistical toolset, unfit for such frameworks that involve a large number of variables. Indeed, when the number of variables exceeds the number of observations, most traditional statistics becomes inefficient. First, we give a brief overview of the statistical issues that arise with high-dimensional data. Several popular solutions are presented, and we present some arguments in favor of the method utilized and advocated in this thesis: Bayesian model uncertainty. This chosen framework is the subject of a detailed review that insists on several recent developments. After these surveys come three original contributions to high-dimensional model selection. A new algorithm for high-dimensional sparse regression called SpinyReg is presented. It compares favorably to state-of-the-art methods on both real and synthetic data sets. A new data set for high-dimensional regression is also described: it involves predicting the number of visitors in the Orsay museum in Paris using bike-sharing data. We focus next on model selection for high-dimensional principal component analysis (PCA). Using a new theoretical result, we derive the first closed-form expression of the marginal likelihood of a PCA model. This allows us to propose two algorithms for model selection in PCA. A first one called globally sparse probabilistic PCA (GSPPCA) that allows to perform scalable variable selection, and a second one called normal-gamma probabilistic PCA (NGPPCA) that estimates the intrinsic dimensionality of a high-dimensional data set. Both methods are competitive with other popular approaches. In particular, using unlabeled DNA microarray data, GSPPCA is able to select genes that are more biologically relevant than several popular approaches
APA, Harvard, Vancouver, ISO und andere Zitierweisen
6

Naveau, Marion. „Procédures de sélection de variables en grande dimension dans les modèles non-linéaires à effets mixtes. Application en amélioration des plantes“. Electronic Thesis or Diss., université Paris-Saclay, 2024. http://www.theses.fr/2024UPASM031.

Der volle Inhalt der Quelle
Annotation:
Les modèles à effets mixtes analysent des observations collectées de façon répétée sur plusieurs individus, attribuant la variabilité à différentes sources (intra-individuelle, inter-individuelle, résiduelle). Prendre en compte cette variabilité est essentiel pour caractériser sans biais les mécanismes biologiques sous-jacents. Ces modèles utilisent des covariables et des effets aléatoires pour décrire la variabilité entre individus : les covariables décrivent les différences dues à des caractéristiques observées, tandis que les effets aléatoires représentent la variabilité non attribuable aux covariables mesurées. Dans un contexte de grande dimension, où le nombre de covariables dépasse celui des individus, identifier les covariables influentes est difficile, car la sélection porte sur des variables latentes du modèle. De nombreuses procédures ont été mises au point pour les modèles linéaires à effets mixtes, mais les contributions pour les modèles non-linéaires sont rares et manquent de fondements théoriques. Cette thèse vise à développer une procédure de sélection de covariables en grande dimension pour les modèles non-linéaires à effets mixtes, en étudiant leurs implémentations pratiques et leurs propriétés théoriques. Cette procédure est basée sur l'utilisation d'un prior spike-and-slab gaussien et de l'algorithme SAEM (Stochastic Approximation of Expectation Maximisation Algorithm). Des taux de contraction a posteriori autour des vraies valeurs des paramètres dans un modèle non-linéaire à effets mixtes sous prior spike-and-slab discret ont été obtenus, comparables à ceux observés dans des modèles linéaires. Les travaux conduits dans cette thèse sont motivés par des questions appliquées en amélioration des plantes, où ces modèles décrivent le développement des plantes en fonction de leurs génotypes et des conditions environnementales. Les covariables considérées sont généralement nombreuses puisque les variétés sont caractérisées par des milliers de marqueurs génétiques, dont la plupart n'ont aucun effet sur certains traits phénotypiques. La méthode statistique développée dans la thèse est appliquée à un jeu de données réel relatif à cette application
Mixed-effects models analyze observations collected repeatedly from several individuals, attributing variability to different sources (intra-individual, inter-individual, residual). Accounting for this variability is essential to characterize the underlying biological mechanisms without biais. These models use covariates and random effects to describe variability among individuals: covariates explain differences due to observed characteristics, while random effects represent the variability not attributable to measured covariates. In high-dimensional context, where the number of covariates exceeds the number of individuals, identifying influential covariates is challenging, as selection focuses on latent variables in the model. Many procedures have been developed for linear mixed-effects models, but contributions for non-linear models are rare and lack theoretical foundations. This thesis aims to develop a high-dimensional covariate selection procedure for non-linear mixed-effects models by studying their practical implementations and theoretical properties. This procedure is based on the use of a gaussian spike-and-slab prior and the SAEM algorithm (Stochastic Approximation of Expectation Maximisation Algorithm). Posterior contraction rates around true parameter values in a non-linear mixed-effects model under a discrete spike-and-slab prior have been obtained, comparable to those observed in linear models. The work in this thesis is motivated by practical questions in plant breeding, where these models describe plant development as a function of their genotypes and environmental conditions. The considered covariates are generally numerous since varieties are characterized by thousands of genetic markers, most of which have no effect on certain phenotypic traits. The statistical method developed in the thesis is applied to a real dataset related to this application
APA, Harvard, Vancouver, ISO und andere Zitierweisen
7

Prestat, Emmanuel. „Les réseaux bayésiens : classification et recherche de réseaux locaux en cancérologie“. Phd thesis, Université Claude Bernard - Lyon I, 2010. http://tel.archives-ouvertes.fr/tel-00707732.

Der volle Inhalt der Quelle
Annotation:
En cancérologie, les puces à ADN mesurant le transcriptome sont devenues un outil commun pour chercher à caractériser plus finement les pathologies, dans l'espoir de trouver au travers des expressions géniques : des mécanismes,des classes, des associations entre molécules, des réseaux d'interactions cellulaires. Ces réseaux d'interactions sont très intéressants d'un point de vue biologique car ils concentrent un grand nombre de connaissances sur le fonctionnement cellulaire. Ce travail de thèse a pour but, à partir de ces mêmes données d'expression, d'extraire des structures pouvant s'apparenter à des réseaux d'interactions génétiques. Le cadre méthodologique choisi pour appréhender cette problématique est les " Réseaux Bayésiens ", c'est-à-dire une méthode à la fois graphique et probabiliste permettant de modéliser des systèmes pourtant statiques (ici le réseau d'expression génétique) à l'aide d'indépendances conditionnelles sous forme d'un réseau. L'adaptation de cette méthode à des données dont la dimension des variables (ici l'expression des gènes, dont l'ordre de grandeur est 105) est très supérieure à la dimension des échantillons (ordre102 en cancérologie) pose des problèmes statistiques (de faux positifs et négatifs) et combinatoires (avec seulement 10gènes on a 4×1018 graphes orientés sans circuit possibles). A partir de plusieurs problématiques de cancers (leucémies et cancers du sein), ce projet propose une stratégie d'accélération de recherche de réseaux d'expression à l'aide de Réseaux Bayésiens, ainsi que des mises en œuvre de cette méthode pour classer des tumeurs, sélectionner un ensemble de gènes d'intérêt reliés à une condition biologique particulière, rechercher des réseaux locaux autour d'un gène d'intérêt.On propose parallèlement de modéliser un Réseau Bayésien à partir d'un réseau biologique connu, utile pour simuler des échantillons et tester des méthodes de reconstruction de graphes à partir de données contrôlées.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
8

Jebreen, Kamel. „Modèles graphiques pour la classification et les séries temporelles“. Thesis, Aix-Marseille, 2017. http://www.theses.fr/2017AIXM0248/document.

Der volle Inhalt der Quelle
Annotation:
Dans cette thèse nous nous intéressons aux méthodes de classifications supervisées utilisant les réseaux bayésiens. L'avantage majeur de ces méthodes est qu'elles peuvent prendre en compte les interactions entre les variables explicatives. Dans une première partie nous proposons une procédure de discrétisation spécifique et une procédure de sélection de variables qui permettent d'améliorer considérablement les classifieurs basés sur des réseaux bayésiens. Cette procédure a montré de très bonnes performances empiriques sur un grand choix de jeux de données connus de l’entrepôt d'apprentissage automatique (UCI Machine Learning repository). Une application pour la prévision de type d’épilepsie à partir de de caractéristiques des patients extraites des images de Tomographie par émission de positrons (TEP) confirme l’efficacité de notre approche comparé à des approches communes de classifications supervisées. Dans la deuxième partie de cette thèse nous nous intéressons à la modélisation des interactions entre des variables dans le contexte de séries chronologiques en grande dimension. Nous avons proposé deux nouvelles approches. La première, similaire à la technique "neighborhood Lasso" remplace la technique Lasso par des machines à vecteurs de supports. La deuxième approche est un réseau bayésien restreint: les variables observées à chaque instant et à l’instant précédent sont utilisées dans un réseau dont la structure est restreinte. Nous montrons l’efficacité de ces approches par des simulations utilisant des donnés simulées issues de modèles linéaires, non-linéaires et un mélange des deux
First, in this dissertation, we will show that Bayesian networks classifiers are very accurate models when compared to other classical machine learning methods. Discretising input variables often increase the performance of Bayesian networks classifiers, as does a feature selection procedure. Different types of Bayesian networks may be used for supervised classification. We combine such approaches together with feature selection and discretisation to show that such a combination gives rise to powerful classifiers. A large choice of data sets from the UCI machine learning repository are used in our experiments, and the application to Epilepsy type prediction based on PET scan data confirms the efficiency of our approach. Second, in this dissertation we also consider modelling interaction between a set of variables in the context of time series and high dimension. We suggest two approaches; the first is similar to the neighbourhood lasso where the lasso model is replaced by Support Vector Machines (SVMs); the second is a restricted Bayesian network for time series. We demonstrate the efficiency of our approaches simulations using linear and nonlinear data set and a mixture of both
APA, Harvard, Vancouver, ISO und andere Zitierweisen
9

Dangauthier, Pierre-Charles. „Fondations, méthode et applications de l'apprentissage bayésien“. Phd thesis, Grenoble INPG, 2007. http://tel.archives-ouvertes.fr/tel-00267643.

Der volle Inhalt der Quelle
Annotation:
Le domaine de l'apprentissage automatique a pour but la création d'agents synthétiques améliorant leurs performances avec l'expérience. Pour pouvoir se perfectionner, ces agents extraient des régularités statistiques de données incertaines et mettent à jour leur modèle du monde. Les probabilités bayésiennes sont un outil rationnel pour répondre à la problématique de l'apprentissage. Cependant, comme ce problème est souvent difficile, des solutions proposant un compromis entre précision et rapidité doivent être mises en oeuvre. Ce travail présente la méthode d'apprentissage bayésien, ses fondations philosophiques et plusieurs applications innovantes. Nous nous intéressons d'abord à des questions d'apprentissage de paramètres. Dans ce cadre nous étudions deux problèmes d'analyse de données à variables cachées. Nous proposons d'abord une méthode bayésienne pour classer les joueurs d'échecs qui améliore sensiblement le système Elo. Le classement produit permet de répondre à des questions intéressantes comme celle de savoir qui fut le meilleur joueur d'échecs de tous les temps. Nous étudions aussi un système de filtrage collaboratif dont le but est de prévoir les goûts cinématographiques d'utilisateurs en fonction de leurs préférences passées. La deuxième partie de notre travail concerne l'apprentissage de modèles. D'abord nous nous intéressons à la sélection de variables pertinentes dans le cadre d'une application robotique. D'un point de vue cognitif, cette sélection permet au robot de transférer ses connaissances d'un domaine sensorimoteur vers un autre. Finalement, nous proposons une méthode permettant de découvrir automatiquement une nouvelle variable cachée afin de mieux modéliser l'environnement d'un robot.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
10

Bedenel, Anne-Lise. „Appariement de descripteurs évoluant dans le temps : application à la comparaison d'assurance“. Thesis, Lille 1, 2019. http://www.theses.fr/2019LIL1I011/document.

Der volle Inhalt der Quelle
Annotation:
La plupart des méthodes d'apprentissage standards nécessitent des descripteurs de données identiques pour les échantillons d'apprentissage et de test. Or, dans le domaine de la comparaison d'assurances en ligne, les formulaires et variables d'où proviennent les données sont régulièrement modifiés, amenant à travailler avec une faible quantité de données. L'objectif est donc d'utiliser les données obtenues avant la modification de la variable pour augmenter la taille des échantillons observés après la modification. Nous proposons d'effectuer un transfert de connaissances entre les données observées avant et après la modification. Une modélisation de la loi jointe de la variable avant et après la modification est proposée. Le problème revient donc à un problème d’estimation dans un graphe où l’identifiabilité du modèle est assurée par des contraintes métiers et techniques, amenant à travailler avec un ensemble réduit de modèles très parcimonieux. Les liens entre les descripteurs avant et après la modification sont totalement inconnus, impliquant des données manquantes. Deux méthodes d’estimation des paramètres, reposant sur des algorithmes EM sont proposées. Une étape de sélection de modèle est ensuite effectuée par un critère asymptotique et un critère non asymptotique reposant sur l’analyse bayésienne, incluant une stratégie d’échantillonnage préférentiel combinée à un algorithme de Gibbs. Une recherche exhaustive et une recherche non-exhaustive, basée sur un algorithme génétique et combinant l’estimation et la sélection de modèles, sont comparés pour obtenir le meilleur compromis "résultats-temps de calcul". Une application sur des données réelles termine la thèse
Most of the classical learning methods require data descriptors equal to both learning and test samples. But, in the online insurance comparison field, forms and features where data come from are often changed. These constant modifications of data descriptors lead us to work with the small amount of data and make analysis more complex. So, the goal is to use data generated before the feature descriptors modification. By doing so, we increase the size of the observed sample after the descriptors modification. We intend to perform a learning transfer between observed data before and after features modification. The links between data descriptors of the feature before and after the modification are totally unknown which bring a problem of missing data. A modelling of the joint distribution of the feature before and after the modification of the data descriptors has been suggested. The problem becomes an estimation problem in a graph where some business and technical constraints ensure the identifiability of the model and we have to work with a reduced set of very parsimonious models. Two methods of estimation rely on EM algorithms have been intended. The constraints set lead us to work with a set of models. A model selection step is required. For this step, two criterium are proposed: an asymptotic and a non-asymptotic criterium rely on Bayesian analysis which includes an importance sampling combined with Gibbs algorithm. An exhaustive search and a non-exhaustive search based on genetic algorithm, combining both estimation and selection, are suggested to have an optimal method for both results and execution time. This thesis finishes with an application on real data
APA, Harvard, Vancouver, ISO und andere Zitierweisen
11

Schäfer, Christian. „Monte Carlo methods for sampling high-dimensional binary vectors“. Phd thesis, Université Paris Dauphine - Paris IX, 2012. http://tel.archives-ouvertes.fr/tel-00767163.

Der volle Inhalt der Quelle
Annotation:
This thesis is concerned with Monte Carlo methods for sampling high-dimensional binary vectors from complex distributions of interest. If the state space is too large for exhaustive enumeration, these methods provide a mean of estimating the expected value with respect to some function of interest. Standard approaches are mostly based on random walk type Markov chain Monte Carlo, where the equilibrium distribution of the chain is the distribution of interest and its ergodic mean converges to the expected value. We propose a novel sampling algorithm based on sequential Monte Carlo methodology which copes well with multi-modal problems by virtue of an annealing schedule. The performance of the proposed sequential Monte Carlo sampler depends on the ability to sample proposals from auxiliary distributions which are, in a certain sense, close to the current distribution of interest. The core work of this thesis discusses strategies to construct parametric families for sampling binary vectors with dependencies. The usefulness of this approach is demonstrated in the context of Bayesian variable selection and combinatorial optimization of pseudo-Boolean objective functions.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
12

Bontemps, Dominique. „Statistiques discrètes et Statistiques bayésiennes en grande dimension“. Phd thesis, Université Paris Sud - Paris XI, 2010. http://tel.archives-ouvertes.fr/tel-00561749.

Der volle Inhalt der Quelle
Annotation:
Dans cette thèse de doctorat, nous présentons les travaux que nous avons effectués dans trois directions reliées : la compression de données en alphabet infini, les statistiques bayésiennes en dimension infinie, et les mélanges de distributions discrètes multivariées. Dans le cadre de la compression de données sans perte, nous nous sommes intéressé à des classes de sources stationnaires sans mémoire sur un alphabet infini, définies par une condition d'enveloppe à décroissance exponentielle sur les distributions marginales. Un équivalent de la redondance minimax de ces classes a été obtenue. Un algorithme approximativement minimax ainsi que des a-priori approximativement les moins favorables, basés sur l'a-priori de Jeffreys en alphabet fini, ont en outre été proposés. Le deuxième type de travaux porte sur la normalité asymptotique des distributions a-posteriori (théorèmes de Bernstein-von Mises) dans différents cadres non-paramétriques et semi-paramétriques. Tout d'abord, dans un cadre de régression gaussienne lorsque le nombre de régresseurs augmente avec la taille de l'échantillon. Les théorèmes non-paramétriques portent sur les coefficients de régression, tandis que les théorèmes semi-paramétriques portent sur des fonctionnelles de la fonction de régression. Dans nos applications au modèle de suites gaussiennes et à la régression de fonctions appartenant à des classe de Sobolev ou de régularité hölderiennes, nous obtenons simultanément le théorème de Bernstein-von Mises et la vitesse d'estimation fréquentiste minimax. L'adaptativité est atteinte pour l'estimation de fonctionnelles dans ces applications. Par ailleurs nous présentons également un théorème de Bernstein-von Mises non-paramétrique pour des modèles exponentiels de dimension croissante. Enfin, le dernier volet de ce travail porte sur l'estimation du nombre de composantes et des variables pertinentes dans des modèles de mélange de lois multinomiales multivariées, dans une optique de classification non supervisée. Ce type de modèles est utilisé par exemple pour traiter des données génotypiques. Un critère du maximum de vraisemblance pénalisé est proposé, et une inégalité oracle non-asymptotique est obtenue. Le critère retenu en pratique comporte une calibration grâce à l'heuristique de pente. Ses performances sont meilleurs que celles des critères classiques BIC et AIC sur des données simulées. L'ensemble des procédures est implémenté dans un logiciel librement accessible.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
13

Tayeb, Arafat. „Estimation bayésienne des modèles à variables latentes“. Paris 9, 2006. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=2006PA090061.

Der volle Inhalt der Quelle
Annotation:
Cette thèse est consacrée à l'étude de quelques modèles à variables latentes. Ces modèles peuvent être modélisés comme suit: on observe des données et on suppose qu'il y a une variable non observée de telle sorte que la loi de conditionnellement à est de forme connue et dépend généralement d'un paramètre (multidimensionnel) qui dépend lui aussi de l'état de la variable latente. Le paramètre peut ne pas dépendre de , on écrit dans ce cas. Ainsi, nous avons. La variable représente suivant le cas, l'allocation de l'observation, la composante d'origine, l'état de l'observation ou encore son régime. Elle est généralement à espace d'état fini mais peut être également continue. Le but de ce travail est d'estimer le paramètre et la variable d'état. L'inférence bayésienne sur le paramètre est résumée dans sa loi a posteriori, notée. Notre objectif est soit de produire un échantillon (approximativement) suivant cette distribution, soit de trouver (une de) ses caractéristiques comme moyenne, médiane, modes. Différentes méthodes d'échantillonnage et/ou de recherche des caractéristiques a posteriori sont utilisées dans ce travail. Principalement, cinq types de modèles sont étudiés. Pour chaque modèle, des techniques spécifiques sont utilisées
In this thesis, we study some models with latent variables. Given a set of data , we suppose that there is a hidden variable such that the distribution of conditional on is of known class and is often depending on a (multidimensional) parameter. This parameter can depend on time and on the latent variable. When does not depend on , we simply write. Depending on the model, the variable represents the observation allocation, the observation component, the observation state or its regime. The aim of this work is to estimate the parameter and the hidden variable. Bayesian inference about the parameter is given by its posterior distribution. Precisely, we wish either to produce an efficient sample (approximately) following this distribution or to approximate some of its properties like mean, median or modes. Different methods of sampling and/or deriving of such posterior properties are used in this thesis. Mostly, five models are studied and for each situation, specific techniques are used
APA, Harvard, Vancouver, ISO und andere Zitierweisen
14

El, anbari Mohammed. „Regularisation and variable selection using penalized likelihood“. Phd thesis, Université Paris Sud - Paris XI, 2011. http://tel.archives-ouvertes.fr/tel-00661689.

Der volle Inhalt der Quelle
Annotation:
We are interested in variable sélection in linear régression models. This research is motivated by recent development in microarrays, proteomics, brain images, among others. We study this problem in both frequentist and bayesian viewpoints.In a frequentist framework, we propose methods to deal with the problem of variable sélection, when the number of variables is much larger than the sample size with a possibly présence of additional structure in the predictor variables, such as high corrélations or order between successive variables. The performance of the proposed methods is theoretically investigated ; we prove that, under regularity conditions, the proposed estimators possess statistical good properties, such as Sparsity Oracle Inequalities, variable sélection consistency and asymptotic normality.In a Bayesian Framework, we propose a global noninformative approach for Bayesian variable sélection. In this thesis, we pay spécial attention to two calibration-free hierarchical Zellner's g-priors. The first one is the Jeffreys prior which is not location invariant. A second one avoids this problem by only considering models with at least one variable in the model. The practical performance of the proposed methods is illustrated through numerical experiments on simulated and real world datasets, with a comparison betwenn Bayesian and frequentist approaches under a low informative constraint when the number of variables is almost equal to the number of observations.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
15

Caron, François. „Inférence bayésienne pour la détermination et la sélection de modèles stochastiques“. Ecole Centrale de Lille, 2006. http://www.theses.fr/2006ECLI0012.

Der volle Inhalt der Quelle
Annotation:
On s'intéresse à l'ajout d'incertitudes supplémentaires dans les modèles de Markov cachés. L'inférence est réalisée dans un cadre bayésien à l'aide des méthodes de Monte Carlo. Dans un cadre multicapteur, on suppose que chaque capteur peut commuter entre plusieurs états de fonctionnement. Un modèle à saut original est développé et des algorithmes de Monte Carlo efficaces sont présentés pour différents types de situations, prenant en compte des données synchrones/asynchrones et le cas binaire capteur valide/défaillant. Le modèle/algorithme développé est appliqué à la localisation d'un véhicule terrestre équipé de trois capteurs, dont un récepteur GPS, potentiellement défaillant à cause de phénomènes de trajets multiples. On s'intéresse ensuite à l'estimation de la densité de probabilité des bruits d'évolution et de mesure dans les modèles de Markov cachés, à l'aide des mélanges de processus de Dirichlet. Le cas de modèles linéaires est tout d'abord étudié, et des algorithmes MCMC et de filtrage particulaire sont développés. Ces algorithmes sont testés sur trois applications différentes. Puis le cas de l'estimation des densités de probabilité des bruits dans les modèles non linéaires est étudié. On définit pour cela des processus de Dirichlet variant temporellement, permettant l'estimation en ligne d'une densité de probabilité non stationnaire
We are interested in the addition of uncertainty in hidden Markov models. The inference is made in a Bayesian framework based on Monte Carlo methods. We consider multiple sensors that may switch between several states of work. An original jump model is developed for different kind of situations, including synchronous/asynchronous data and the binary valid/invalid case. The model/algorithm is applied to the positioning of a land vehicle equipped with three sensors. One of them is a GPS receiver, whose data are potentially corrupted due to multipaths phenomena. We consider the estimation of the probability density function of the evolution and observation noises in hidden Markov models. First, the case of linear models is addressed and MCMC and particle filter algorithms are developed and applied on three different applications. Then the case of the estimation of probability density functions in nonlinear models is addressed. For that purpose, time-varying Dirichlet processes are defined for the online estimation of time-varying probability density functions
APA, Harvard, Vancouver, ISO und andere Zitierweisen
16

Choiruddin, Achmad. „Sélection de variables pour des processus ponctuels spatiaux“. Thesis, Université Grenoble Alpes (ComUE), 2017. http://www.theses.fr/2017GREAM045/document.

Der volle Inhalt der Quelle
Annotation:
Les applications récentes telles que les bases de données forestières impliquent des observations de données spatiales associées à l'observation de nombreuses covariables spatiales. Nous considérons dans cette thèse le problème de l'estimation d'une forme paramétrique de la fonction d'intensité dans un tel contexte. Cette thèse développe les procédures de sélection des variables et donne des garanties quant à leur validité. En particulier, nous proposons deux approches différentes pour la sélection de variables : les méthodes de type lasso et les procédures de type Sélecteur de Dantzig. Pour les méthodes envisageant les techniques de type lasso, nous dérivons les propriétés asymptotiques des estimations obtenues par les fontions d'estimation dérivées par les vraisemblances de la Poisson et de la régression logistique pénalisées par une grande classe de pénalités. Nous prouvons que les estimations obtenues par de ces procédures satisfont la consistance, sparsité et la normalité asymptotique. Pour la partie sélecteur de Dantzig, nous développons une version modifiée du sélecteur de Dantzig, que nous appelons le sélecteur Dantzig linéaire adaptatif (ALDS), pour obtenir les estimations d'intensité. Plus précisément, les estimations ALDS sont définies comme la solution à un problème d'optimisation qui minimise la somme des coefficients des estimations soumises à une approximation linéaire du vecteur score comme une contrainte. Nous constatons que les estimations obtenues par de ces méthodes ont des propriétés asymptotiques semblables à celles proposées précédemment à l'aide de méthode régularisation du lasso adaptatif. Nous étudions les aspects computationnels des méthodes développées en utilisant les procédures de type lasso et de type Sélector Dantzig. Nous établissons des liens entre l'estimation de l'intensité des processus ponctuels spatiaux et les modèles linéaires généralisés (GLM), donc nous n'avons qu'à traiter les procédures de la sélection des variables pour les GLM. Ainsi, des procédures de calcul plus faciles sont implémentées et un algorithme informatique rapide est proposé. Des études de simulation sont menées pour évaluer les performances des échantillons finis des estimations de chacune des deux approches proposées. Enfin, nos méthodes sont appliquées pour modéliser les emplacements spatiaux, une espèce d'arbre dans la forêt observée avec un grand nombre de facteurs environnementaux
Recent applications such as forestry datasets involve the observations of spatial point pattern data combined with the observation of many spatial covariates. We consider in this thesis the problem of estimating a parametric form of the intensity function in such a context. This thesis develops feature selection procedures and gives some guarantees on their validity. In particular, we propose two different feature selection approaches: the lasso-type methods and the Dantzig selector-type procedures. For the methods considering lasso-type techniques, we derive asymptotic properties of the estimates obtained from estimating functions derived from Poisson and logistic regression likelihoods penalized by a large class of penalties. We prove that the estimates obtained from such procedures satisfy consistency, sparsity, and asymptotic normality. For the Dantzig selector part, we develop a modified version of the Dantzig selector, which we call the adaptive linearized Dantzig selector (ALDS), to obtain the intensity estimates. More precisely, the ALDS estimates are defined as the solution to an optimization problem which minimizes the sum of coefficients of the estimates subject to linear approximation of the score vector as a constraint. We find that the estimates obtained from such methods have asymptotic properties similar to the ones proposed previously using an adaptive lasso regularization term. We investigate the computational aspects of the methods developped using either lasso-type procedures or the Dantzig selector-type approaches. We make links between spatial point processes intensity estimation and generalized linear models (GLMs), so we only have to deal with feature selection procedures for GLMs. Thus, easier computational procedures are implemented and computationally fast algorithm are proposed. Simulation experiments are conducted to highlight the finite sample performances of the estimates from each of two proposed approaches. Finally, our methods are applied to model the spatial locations a species of tree in the forest observed with a large number of environmental factors
APA, Harvard, Vancouver, ISO und andere Zitierweisen
17

Sidi, Zakari Ibrahim. „Sélection de variables et régression sur les quantiles“. Thesis, Lille 1, 2013. http://www.theses.fr/2013LIL10081/document.

Der volle Inhalt der Quelle
Annotation:
Ce travail est une contribution à la sélection de modèles statistiques et plus précisément à la sélection de variables dans le cadre de régression linéaire sur les quantiles pénalisée lorsque la dimension est grande. On se focalise sur deux points lors de la procédure de sélection : la stabilité de sélection et la prise en compte de variables présentant un effet de groupe. Dans une première contribution, on propose une transition des moindres carrés pénalisés vers la régression sur les quantiles (QR). Une approche de type bootstrap fondée sur la fréquence de sélection de chaque variable est proposée pour la construction de modèles linéaires (LM). Dans la majorité des cas, l’approche QR fournit plus de coefficients significatifs. Une deuxième contribution consiste à adapter certains algorithmes de la famille « Random » LASSO (Least Absolute Solution and Shrinkage Operator) au cadre de la QR et à proposer des méthodes de stabilité de sélection. Des exemples provenant de la sécurité alimentaire illustrent les résultats obtenus. Dans le cadre de la QR pénalisée en grande dimension, on établit la propriété d’effet groupement sous des conditions plus faibles ainsi que les propriétés oracles. Deux exemples de données réelles et simulées illustrent les chemins de régularisation des algorithmes proposés. La dernière contribution traite la sélection de variables pour les modèles linéaires généralisés (GLM) via la vraisemblance nonconcave pénalisée. On propose un algorithme pour maximiser la vraisemblance pénalisée pour une large classe de fonctions de pénalité non convexes. La propriété de convergence de l’algorithme ainsi que la propriété oracle de l’estimateur obtenu après une itération ont été établies. Des simulations ainsi qu’une application sur données réelles sont également présentées
This work is a contribution to the selection of statistical models and more specifically in the selection of variables in penalized linear quantile regression when the dimension is high. It focuses on two points in the selection process: the stability of selection and the inclusion of variables by grouping effect. As a first contribution, we propose a transition from the penalized least squares regression to quantiles regression (QR). A bootstrap approach based on frequency of selection of each variable is proposed for the construction of linear models (LM). In most cases, the QR approach provides more significant coefficients. A second contribution is to adapt some algorithms of "Random" LASSO (Least Absolute Shrinkage and Solution Operator) family in connection with the QR and to propose methods of selection stability. Examples from food security illustrate the obtained results. As part of the penalized QR in high dimension, the grouping effect property is established under weak conditions and the oracle ones. Two examples of real and simulated data illustrate the regularization paths of the proposed algorithms. The last contribution deals with variable selection for generalized linear models (GLM) using the nonconcave penalized likelihood. We propose an algorithm to maximize the penalized likelihood for a broad class of non-convex penalty functions. The convergence property of the algorithm and the oracle one of the estimator obtained after an iteration have been established. Simulations and an application to real data are also presented
APA, Harvard, Vancouver, ISO und andere Zitierweisen
18

Harroue, Benjamin. „Approche bayésienne pour la sélection de modèles : application à la restauration d’image“. Thesis, Bordeaux, 2020. http://www.theses.fr/2020BORD0127.

Der volle Inhalt der Quelle
Annotation:
L’inversion consiste à reconstruire des objets d’intérêt à partir de données acquises au travers d’un système d’observation. Dans ces travaux, nous nous penchons sur la déconvolution d’image. Les données observées constituent une version dégradée de l’objet, altéré par le système (flou et bruit). A cause de la perte d’informations engendrée, le problème devient alors mal conditionné. Une solution est de régulariser dans un cadre bayésien : en se basant sur des modèles, on introduit de l’information a priori sur les inconnues. Se posent alors les questions suivantes : comment comparer les modèles candidats et choisir le meilleur ? Sur quel critère faut-il s’appuyer ? A quelles caractéristiques ou quantités doit-on se fier ? Ces travaux présentent une méthode de comparaison et de sélection automatique de modèles, fondée sur la théorie de la décision bayésienne. La démarche consiste à sélectionner le modèle qui maximise la probabilité a posteriori. Pour calculer ces dernières, on a besoin de connaître une quantité primordiale : l’évidence. Elle s’obtient en marginalisant la loi jointe par rapport aux inconnus : l’image et les hyperparamètres. Les dépendances complexes entre les variables et la grande dimension de l’image rendent le calcul analytique de l’intégrale impossible. On a donc recours à des méthodes numériques. Dans cette première étude, on s’intéresse au cas gaussien circulant. Cela permet, d’une part, d’avoir une expression analytique de l’intégrale sur l’image, et d’autre part, de faciliter la manipulation des matrices de covariances. Plusieurs méthodes sont mises en œuvre comme l’algorithme du Chib couplé à une chaîne de Gibbs, les power posteriors, ou encore la moyenne harmonique. Les méthodes sont ensuite comparées pour déterminer lesquelles sont les plus adéquates au problème dela restauration d’image
Inversing main goal is about reconstructing objects from data. Here, we focus on the special case of image restauration in convolution problems. The data are acquired through a altering observation system and additionnaly distorted by errors. The problem becomes ill-posed due to the loss of information. One way to tackle it is to exploit Bayesian approach in order to regularize the problem. Introducing prior information about the unknown quantities osset the loss, and it relies on stochastic models. We have to test all the candidate models, in order to select the best one. But some questions remain : how do you choose the best model? Which features or quantities should we rely on ? In this work, we propose a method to automatically compare and choose the model, based on Bayesion decision theory : objectively compare the models based on their posterior probabilities. These probabilities directly depend on the marginal likelihood or “evidence” of the models. The evidence comes from the marginalization of the jointe law according to the unknow image and the unknow hyperparameters. This a difficult integral calculation because of the complex dependancies between the quantities and the high dimension of the image. That way, we have to work with computationnal methods and approximations. There are several methods on the test stand as Harmonic Mean, Laplace method, discrete integration, Chib from Gibbs approximation or the power posteriors. Comparing is those methods is significative step to determine which ones are the most competent in image restauration. As a first lead of research, we focus on the family of Gaussian models with circulant covariance matrices to lower some difficulties
APA, Harvard, Vancouver, ISO und andere Zitierweisen
19

Genuer, Robin. „Forêts aléatoires : aspects théoriques, sélection de variables et applications“. Phd thesis, Université Paris Sud - Paris XI, 2010. http://tel.archives-ouvertes.fr/tel-00550989.

Der volle Inhalt der Quelle
Annotation:
Cette thèse s'inscrit dans le cadre de l'apprentissage statistique et est consacrée à l'étude de la méthode des forêts aléatoires, introduite par Breiman en 2001. Les forêts aléatoires sont une méthode statistique non paramétrique, qui s'avère être très performante dans de nombreuses applications, aussi bien pour des problèmes de régression que de classification supervisée. Elles présentent également un bon comportement sur des données de très grande dimension, pour lesquelles le nombre de variables dépasse largement le nombre d'observations. Dans une première partie, nous développons une procédure de sélection de variables, basée sur l'indice d'importance des variables calculée par les forêts aléatoires. Cet indice d'importance permet de distinguer les variables pertinentes des variables inutiles. La procédure consiste alors à sélectionner automatiquement un sous-ensemble de variables dans un but d'interprétation ou de prédiction. La deuxième partie illustre la capacité de cette procédure de sélection de variables à être performante pour des problèmes très différents. La première application est un problème de classification en très grande dimension sur des données de neuroimagerie, alors que la seconde traite des données génomiques qui constituent un problème de régression en plus petite dimension. Une dernière partie, théorique, établit des bornes de risque pour une version simplifiée des forêts aléatoires. Dans un contexte de régression, avec une seule variable explicative, nous montrons d'une part que les estimateurs associés à un arbre et à une forêt atteignent tous deux la vitesse minimax de convergence, et d'autre part que la forêt apporte une amélioration en réduisant la variance de l'estimateur d'un facteur de trois quarts.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
20

Grimonprez, Quentin. „Sélection de groupes de variables corrélées en grande dimension“. Thesis, Lille 1, 2016. http://www.theses.fr/2016LIL10165/document.

Der volle Inhalt der Quelle
Annotation:
Le contexte de cette thèse est la sélection de variables en grande dimension à l'aide de procédures de régression régularisée en présence de redondance entre variables explicatives. Parmi les variables candidates, on suppose que seul un petit nombre est réellement pertinent pour expliquer la réponse. Dans ce cadre de grande dimension, les approches classiques de type Lasso voient leurs performances se dégrader lorsque la redondance croît, puisqu'elles ne tiennent pas compte de cette dernière. Regrouper au préalable ces variables peut pallier ce défaut, mais nécessite usuellement la calibration de paramètres supplémentaires. L'approche proposée combine regroupement et sélection de variables dans un souci d'interprétabilité et d'amélioration des performances. D'abord une Classification Ascendante Hiérarchique (CAH) fournit à chaque niveau une partition des variables en groupes. Puis le Group-lasso est utilisé à partir de l'ensemble des groupes de variables des différents niveaux de la CAH à paramètre de régularisation fixé. Choisir ce dernier fournit alors une liste de groupe candidats issus potentiellement de différents niveaux. Le choix final des groupes est obtenu via une procédure de tests multiples. La procédure proposée exploite la structure hiérarchique de la CAH et des pondérations dans le Group-lasso. Cela permet de réduire considérablement la complexité algorithmique induite par la flexibilité
This thesis takes place in the context of variable selection in the high dimensional setting using penalizedregression in presence of redundancy between explanatory variables. Among all variables, we supposethat only a few number is relevant for predicting the response variable. In this high dimensional setting,performance of classical lasso-based approaches decreases when redundancy increases as they do not takeit into account. Firstly aggregating variables can overcome this problem but generally requires calibrationof additional parameters. The proposed approach combines variables aggregation and selection in order to improve interpretabilityand performance. First, a hierarchical clustering procedure provides at each level a partition of the variablesinto groups. Then the Group-lasso is used with the set of groups of variables from the different levels ofthe hierarchical clustering and a fixed regularization parameter. Choosing this parameter provides a list ofcandidates groups potentially coming from different levels. The final choice of groups is done by a multipletesting procedure. The proposed procedure exploits the hierarchical structure from hierarchical clustering and some weightsin Group-lasso. This allows to greatly reduce the algorithm complexity induced by the possibility to choosegroups coming from different levels of the hierarchical clustering
APA, Harvard, Vancouver, ISO und andere Zitierweisen
21

Ros, Mathieu. „Sélection canalisante et modélisation bayésienne de variances hétérogènes : application à Helix Aspersa Müller“. Rennes, Agrocampus, 2005. http://www.theses.fr/2005NSARB164.

Der volle Inhalt der Quelle
Annotation:
Dans les élevages d'escargot Helix Aspersa Müller, la variabilité de l'âge adulte et du poids à cet âge impliquent des tris réguliers qui entrainent un coût de main d'œuvre pouvant atteindre jusqu'à 50 % du prix de revient. L'obtention de lots d'animaux homogènes serait donc un réel progrès pour les éleveurs. Des expériences de sélection canalisante, technique qui vise à réduire la sensibilité aux variations de l'environnement du cractère d'intérêt tout enconservant sa moyenne proche d'un optimum, ont déjà été menées en laboratoire, c'est-à-dire en milieu controlé, ce qui est assez éloigné des conditions d'élevage où l'on observe des variations du milieu aléatoires. L'application d'une telle sélection à des animaux d'élevage n'a été envisagée que récemment par manque d'outils statistiques appropriés. Les objectifs de ce travail étaient les suivants : développer un modèle original permettant la description de la variance du caractère d'intérêt par des effets aléatoires génétiques et d'environnement permanent, l'adapter au cas particulier de l'escargot et améliorer les méthodes d'inférence pour la mise en place de la sélection canalisante. Ce nouveau modèle prenant en compte les facteurs de sensibilité à l'environnement permet notamment d'estimer les paramètres génétiques indispensables pour l'optimisation des schémas de sélection et du choix des producteurs.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
22

Hebiri, Mohamed. „Quelques questions de sélection de variables autour de l'estimateur LASSO“. Phd thesis, Université Paris-Diderot - Paris VII, 2009. http://tel.archives-ouvertes.fr/tel-00408737.

Der volle Inhalt der Quelle
Annotation:
Le problème général étudié dans cette thèse est celui de la régression linéaire en grande dimension. On s'intéresse particulièrement aux méthodes d'estimation qui capturent la sparsité du paramètre cible, même dans le cas où la dimension est supérieure au nombre d'observations. Une méthode populaire pour estimer le paramètre inconnu de la régression dans ce contexte est l'estimateur des moindres carrés pénalisés par la norme ℓ1 des coefficients, connu sous le nom de LASSO. Les contributions de la thèse portent sur l'étude de variantes de l'estimateur LASSO pour prendre en compte soit des informations supplémentaires sur les variables d'entrée, soit des modes semi-supervisés d'acquisition des données. Plus précisément, les questions abordées dans ce travail sont : i) l'estimation du paramètre inconnu lorsque l'espace des variables explicatives a une structure bien déterminée (présence de corrélations, structure d'ordre sur les variables ou regroupements entre variables) ; ii) la construction d'estimateurs adaptés au cadre transductif, pour lequel les nouvelles observations non étiquetées sont prises en considération. Ces adaptations sont en partie déduites par une modification de la pénalité dans la définition de l'estimateur LASSO. Les procédures introduites sont essentiellement analysées d'un point de vue non-asymptotique ; nous prouvons notamment que les estimateurs construits vérifient des Inégalités de Sparsité Oracles. Ces inégalités ont pour particularité de dépendre du nombre de composantes non-nulles du paramètre cible. Un contrôle sur la probabilité d'erreur d'estimation du support du paramètre de régression est également établi. Les performances pratiques des méthodes étudiées sont par ailleurs illustrées à travers des résultats de simulation.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
23

Casarin, Roberto. „Méthodes de simulation pour l'estimation bayésienne des modèles à variables latentes“. Paris 9, 2007. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=2007PA090056.

Der volle Inhalt der Quelle
Annotation:
Les modèles à variables latentes sont très utilisées en économétrie et statistique. Cette thèse se concentre sur l'utilisation des variables latentes dans la modélisation des mélanges des lois, dans l'analyse des séries temporelles et dans les modèles à temps continue. On suit une approche bayésienne de l'inférence fondée sur simulation. La partie recherche a été développée dans quatre chapitres. Le Chapitre 3 propose un modèle de mélange des lois alpha-stables qui prennent en compte, l'asymétrie, les queues épaisses et la multimodalité qui caractérisent les données financières. Le Chapitre 4 propose un modèle à volatilité stochastique à changements de régime avec des innovations du type queues épaisses pour le processus observable. Nous utiliserons une méthode bayésienne de filtrage par simulation, pour filtrer les processus latents et pour estimer les paramètres inconnus. Le Chapitre 5 traite l'estimation de paramètres et l'extraction de la volatilité en utilisant un nouvel algorithme SMC régularisé. Le Chapitre 6 traite l'inférence bayèsienne par Population de Monte Carlo, d'une équation différentielle stochastique, observée à temps discret
Latent variable models are now very common in econometrics and statistics. This thesis mainly focuses on the use of latent variables in mixture modelling, time series analysis and continuous time models. We follow a Bayesian inference framework based on simulation methods. In the third chapter we propose alfa-stable mixtures in order to account for skewness, heavy tails and multimodality in financial modelling. Chapter four proposes a Markov-Switching Stochastic-Volatility model with a heavy-tail observable process. We follow a Bayesian approach and make use of Particle Filter, in order to filter the state and estimate the parameters. Chapter five deals with the parameter estimation and the extraction of the latent structure in the volatilities of the US business cycle and stock market valuations. We propose a new regularised SMC procedure for doing Bayesian inference. In chapter six we employ a Bayesian inference procedure, based on Population Monte Carlo, to estimate the parameters in the drift and diffusion terms of a stochastic differential equation (SDE), from discretely observed data
APA, Harvard, Vancouver, ISO und andere Zitierweisen
24

Mbina, Mbina Alban. „Contributions à la sélection des variables en statistique multidimensionnelle et fonctionnelle“. Thesis, Lille 1, 2017. http://www.theses.fr/2017LIL10102/document.

Der volle Inhalt der Quelle
Annotation:
Cette thèse porte sur la sélection des variables dans les modèles de régression linéaires multidimensionnels et les modèles de régression linéaires fonctionnels. Plus précisément, nous proposons trois nouvelles approches de sélection de variables qui généralisent des méthodes existantes dans la littérature. La première méthode permet de sélectionner des variables aléatoires continues dans un modèle linéaire multidimensionnel. Cette approche généralise celle de NKIET (2001) obtenue dans le cas d'un modèle linéaire unidimensionnel. Une étude comparative, par simulation, basée sur le calcul de la perte de prédiction montre que notre méthode est meilleure à celle de An et al. (2013). La deuxième approche propose une nouvelle méthode de sélection des variables mixtes (mélange de variables discrètes et de variables continues) en analyse discriminante pour plus de deux groupes. Cette méthode est basée sur la généralisation dans le cadre mixte de l'approche de NKIET (2012) obtenue dans le cas de l'analyse discriminante de plus de deux groupes. Une étude comparative par simulation montre, à partir du taux de bon classement que cette méthode a les mêmes performances que celle de MAHAT et al. (2007) dans le cas de deux groupes. Enfin, nous proposons dans la troisième approche une méthode de sélection de variables dans un modèle linéaire fonctionnel additif. Pour cela, nous considérons un modèle de régression d'une variable aléatoire réelle sur une somme de variables aléatoires fonctionnelles. En utilisant la distance de Hausdorff, qui mesure l'éloignement entre deux ensembles, nous montrons dans un exemple par simulation, une illustration de notre approche
This thesis focuses on variables selection on linear models and additif functional linear model. More precisely we propose three variables selection methods. The first one is concerned with the selection continuous variables of multidimentional linear model. The comparative study based on prediction loss shows that our method is beter to method of An et al. (2013) Secondly, we propose a new selection method of mixed variables (mixing of discretes and continuous variables). This method is based on generalization in the mixed framwork of NKIET (2012) method, more precisely, is based on a generalization of linear canonical invariance criterion to the framework of discrimination with mixed variables. A comparative study based on the rate of good classification show that our method is equivalente to the method of MAHAT et al. (2007) in the case of two groups. In the third method, we propose an approach of variables selection on an additive functional linear model. A simulations study shows from Hausdorff distance an illustration of our approach
APA, Harvard, Vancouver, ISO und andere Zitierweisen
25

Meynet, Caroline. „Sélection de variables pour la classification non supervisée en grande dimension“. Phd thesis, Université Paris Sud - Paris XI, 2012. http://tel.archives-ouvertes.fr/tel-00752613.

Der volle Inhalt der Quelle
Annotation:
Il existe des situations de modélisation statistique pour lesquelles le problème classique de classification non supervisée (c'est-à-dire sans information a priori sur la nature ou le nombre de classes à constituer) se double d'un problème d'identification des variables réellement pertinentes pour déterminer la classification. Cette problématique est d'autant plus essentielle que les données dites de grande dimension, comportant bien plus de variables que d'observations, se multiplient ces dernières années : données d'expression de gènes, classification de courbes... Nous proposons une procédure de sélection de variables pour la classification non supervisée adaptée aux problèmes de grande dimension. Nous envisageons une approche par modèles de mélange gaussien, ce qui nous permet de reformuler le problème de sélection des variables et du choix du nombre de classes en un problème global de sélection de modèle. Nous exploitons les propriétés de sélection de variables de la régularisation l1 pour construire efficacement, à partir des données, une collection de modèles qui reste de taille raisonnable même en grande dimension. Nous nous démarquons des procédures classiques de sélection de variables par régularisation l1 en ce qui concerne l'estimation des paramètres : dans chaque modèle, au lieu de considérer l'estimateur Lasso, nous calculons l'estimateur du maximum de vraisemblance. Ensuite, nous sélectionnons l'un des ces estimateurs du maximum de vraisemblance par un critère pénalisé non asymptotique basé sur l'heuristique de pente introduite par Birgé et Massart. D'un point de vue théorique, nous établissons un théorème de sélection de modèle pour l'estimation d'une densité par maximum de vraisemblance pour une collection aléatoire de modèles. Nous l'appliquons dans notre contexte pour trouver une forme de pénalité minimale pour notre critère pénalisé. D'un point de vue pratique, des simulations sont effectuées pour valider notre procédure, en particulier dans le cadre de la classification non supervisée de courbes. L'idée clé de notre procédure est de n'utiliser la régularisation l1 que pour constituer une collection restreinte de modèles et non pas aussi pour estimer les paramètres des modèles. Cette étape d'estimation est réalisée par maximum de vraisemblance. Cette procédure hybride nous est inspirée par une étude théorique menée dans une première partie dans laquelle nous établissons des inégalités oracle l1 pour le Lasso dans les cadres de régression gaussienne et de mélange de régressions gaussiennes, qui se démarquent des inégalités oracle l0 traditionnellement établies par leur absence totale d'hypothèse.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
26

Sauvé, Marie. „Sélection de modèles en régression non gaussienne : applications à la sélection de variables et aux tests de survie accélérés“. Paris 11, 2006. http://www.theses.fr/2006PA112201.

Der volle Inhalt der Quelle
Annotation:
Cette thèse traite de la sélection de modèles en régression non gaussienne. Notre but est d’obtenir des informations sur une fonction s dont on n’observe qu’un certain nombre de valeurs perturbées par des bruits non nécessairement gaussiens. Dans un premier temps, nous considérons des modèles de fonctions constantes par morceaux associés à une collection de partitions de l’ensemble de définition de s. Nous déterminons un critère des moindres carrés pénalisés qui permet de sélectionner une partition dont l’estimateur associé (de type regressogramme) vérifie une inégalité de type oracle. La sélection d’un modèle de fonctions constantes par morceaux ne conduit pas en général à une bonne estimation de s, mais permet notamment de détecter les ruptures de s. Nous proposons aussi une méthode non linéaire de sélection de variables qui repose sur l’application de plusieurs procédures CART et sur la sélection d’un modèle de fonctions constantes par morceaux. Dans un deuxième temps, nous considérons des modèles de fonctions polynomiales par morceaux, dont les qualités d’approximation sont meilleures. L’objectif est d’estimer s par un polynôme par morceaux dont le degré peut varier d’un morceau à l’autre. Nous déterminons un critère pénalisé qui sélectionne une partition et une série de degrés dont l’estimateur polynomial par morceaux associé vérifie une inégalité de type oracle. Nous appliquons aussi ce résultat pour déterminer les ruptures d’une fonction affine par morceaux. Ce dernier travail est motivé par la détermination d’un intervalle de stress convenable pour les tests de survie accélérés
This thesis deals with model selection in non Gaussian regression. Our aim is to get informations on a function s given only some values perturbed by noises non necessarily Gaussian. In a first part, we consider histogram models (i. E. Classes of piecewise constant functions) associated with a collection of partitions of the set on which s is defined. We determine a penalized least squares criterion which selects a partition whose associated estimator satisfies an oracle inequality. Selecting a histogram model does not always lead to an accurate estimation of s, but allows for example to detect the change-points of s. In order to perform variable selection, we also propose a non linear method which relies on the use of CART and on histogram model selection. In a second part, we consider piecewise polynomial models, whose approximation properties are better. We aim at estimating s with a piecewise polynomial whose degree can vary from region to region. We determine a penalized criterion which selects a partition and a series of degrees whose associated piecewise polynomial estimator satisfies an oracle inequality. We also apply this result to detect the change-points of a piecewise affine function. The aim of this last work is to provide an adequate stress interval for Accelerating Life Test
APA, Harvard, Vancouver, ISO und andere Zitierweisen
27

Comminges, Laëtitia, und Laëtitia Comminges. „Quelques contributions à la sélection de variables et aux tests non-paramétriques“. Phd thesis, Université Paris-Est, 2012. http://pastel.archives-ouvertes.fr/pastel-00804979.

Der volle Inhalt der Quelle
Annotation:
Les données du monde réel sont souvent de très grande dimension, faisant intervenir un grand nombre de variables non pertinentes ou redondantes. La sélection de variables est donc utile dans ce cadre. D'abord, on considère la sélection de variables dans le modèle de régression quand le nombre de variables est très grand. En particulier on traite le cas où le nombre de variables pertinentes est bien plus petit que la dimension ambiante. Sans supposer aucune forme paramétrique pour la fonction de régression, on obtient des conditions minimales permettant de retrouver l'ensemble des variables pertinentes. Ces conditions relient la dimension intrinsèque à la dimension ambiante et la taille de l'échantillon. Ensuite, on considère le problème du test d'une hypothèse nulle composite sous un modèle de régression non paramétrique multi varié. Pour une fonctionnelle quadratique donnée $Q$, l'hypothèse nulle correspond au fait que la fonction $f$ satisfait la contrainte $Q[f] = 0$, tandis que l'alternative correspond aux fonctions pour lesquelles $ |Q[f]|$ est minorée par une constante strictement positive. On fournit des taux minimax de test et les constantes de séparation exactes ainsi qu'une procédure optimale exacte, pour des fonctionnelles quadratiques diagonales et positives. On peut utiliser ces résultats pour tester la pertinence d'une ou plusieurs variables explicatives. L'étude des taux minimax pour les fonctionnelles quadratiques diagonales qui ne sont ni positives ni négatives, fait apparaître deux régimes différents : un régime " régulier " et un régime " irrégulier ". On applique ceci au test de l'égalité des normes de deux fonctions observées dans des environnements bruités
APA, Harvard, Vancouver, ISO und andere Zitierweisen
28

Comminges, Laëtitia. „Quelques contributions à la sélection de variables et aux tests non-paramétriques“. Thesis, Paris Est, 2012. http://www.theses.fr/2012PEST1068/document.

Der volle Inhalt der Quelle
Annotation:
Les données du monde réel sont souvent de très grande dimension, faisant intervenir un grand nombre de variables non pertinentes ou redondantes. La sélection de variables est donc utile dans ce cadre. D'abord, on considère la sélection de variables dans le modèle de régression quand le nombre de variables est très grand. En particulier on traite le cas où le nombre de variables pertinentes est bien plus petit que la dimension ambiante. Sans supposer aucune forme paramétrique pour la fonction de régression, on obtient des conditions minimales permettant de retrouver l'ensemble des variables pertinentes. Ces conditions relient la dimension intrinsèque à la dimension ambiante et la taille de l'échantillon. Ensuite, on considère le problème du test d'une hypothèse nulle composite sous un modèle de régression non paramétrique multi varié. Pour une fonctionnelle quadratique donnée $Q$, l'hypothèse nulle correspond au fait que la fonction $f$ satisfait la contrainte $Q[f] = 0$, tandis que l'alternative correspond aux fonctions pour lesquelles $ |Q[f]|$ est minorée par une constante strictement positive. On fournit des taux minimax de test et les constantes de séparation exactes ainsi qu'une procédure optimale exacte, pour des fonctionnelles quadratiques diagonales et positives. On peut utiliser ces résultats pour tester la pertinence d'une ou plusieurs variables explicatives. L'étude des taux minimax pour les fonctionnelles quadratiques diagonales qui ne sont ni positives ni négatives, fait apparaître deux régimes différents : un régime « régulier » et un régime « irrégulier ». On applique ceci au test de l'égalité des normes de deux fonctions observées dans des environnements bruités
Real-world data are often extremely high-dimensional, severely under constrained and interspersed with a large number of irrelevant or redundant features. Relevant variable selection is a compelling approach for addressing statistical issues in the scenario of high-dimensional and noisy data with small sample size. First, we address the issue of variable selection in the regression model when the number of variables is very large. The main focus is on the situation where the number of relevant variables is much smaller than the ambient dimension. Without assuming any parametric form of the underlying regression function, we get tight conditions making it possible to consistently estimate the set of relevant variables. Secondly, we consider the problem of testing a particular type of composite null hypothesis under a nonparametric multivariate regression model. For a given quadratic functional $Q$, the null hypothesis states that the regression function $f$ satisfies the constraint $Q[f] = 0$, while the alternative corresponds to the functions for which $Q[f]$ is bounded away from zero. We provide minimax rates of testing and the exact separation constants, along with a sharp-optimal testing procedure, for diagonal and nonnegative quadratic functionals. We can apply this to testing the relevance of a variable. Studying minimax rates for quadratic functionals which are neither positive nor negative, makes appear two different regimes: “regular” and “irregular”. We apply this to the issue of testing the equality of norms of two functions observed in noisy environments
APA, Harvard, Vancouver, ISO und andere Zitierweisen
29

Lê, Cao Kim-Anh. „Outils statistiques pour la sélection de variables et l'intégration de données "omiques"“. Toulouse, INSA, 2008. http://eprint.insa-toulouse.fr/archive/00000225/.

Der volle Inhalt der Quelle
Annotation:
Les récentes avancées bio technologiques permettent maintenant de mesurer une énorme quantité de données biologiques de différentes sources (données génomiques, protéomiques, métabolomiques, phénotypiques), souvent caractérisées par un petit nombre d'échantillons ou d'observations. L'objectif de ce travail est de développer ou d'adapter des méthodes statistiques adéquates permettant d'analyser ces jeux de données de grande dimension, en proposant aux biologistes des outils efficaces pour sélectionner les variables les plus pertinentes. Dans un premier temps, nous nous intéressons spécifiquement aux données de transcriptome et à la sélection de gènes discriminants dans un cadre de classification supervisée. Puis, dans un autre contexte, nous cherchons à sélectionner des variables de types différents lors de la réconciliation (ou l'intégration) de deux tableaux de données omiques. Dans la première partie de ce travail, nous proposons une approche de type wrapper en agrégeant des méthodes de classification (CART, SVM) pour sélectionner des gènes discriminants une ou plusieurs conditions biologiques. Dans la deuxième partie, nous développons une approche PLS avec pénalisation l1 dite de type sparse car conduisant à un ensemble "creux" de paramètres, permettant de sélectionner des sous-ensembles de variables conjointement mesurées sur les mêmes échantillons biologiques. Un cadre de régression, ou d'analyse canonique est proposé pour répondre spécifiquement à la question biologique. Nous évaluons chacune des approches proposées en les comparant sur de nombreux jeux de données réels à des méthodes similaires proposées dans la littérature. Les critères statistiques usuels que nous appliquons sont souvent limités par le petit nombre d'échantillons. Par conséquent, nous nous efforçons de toujours combiner nos évaluations statistiques avec une interprétation biologique détaillée des résultats. Les approches que nous proposons sont facilement applicables et donnent des résultats très satisfaisants qui répondent aux attentes des biologistes
Recent advances in biotechnology allow the monitoring of large quantities of biological data of various types, such as genomics, proteomics, metabolomics, phenotypes. . . , that are often characterized by a small number of samples or observations. The aim of this thesis was to develop, or adapt, appropriate statistical methodologies to analyse highly dimensional data, and to present efficient tools to biologists for selecting the most biologically relevant variables. In the first part, we focus on microarray data in a classification framework, and on the selection of discriminative genes. In the second part, in the context of data integration, we focus on the selection of different types of variables with two-block omics data. Firstly, we propose a wrapper method, which agregates two classifiers (CART or SVM) to select discriminative genes for binary or multiclass biological conditions. Secondly, we develop a PLS variant called sparse PLS that adapts l1 penalization and allows for the selection of a subset of variables, which are measured from the same biological samples. Either a regression or canonical analysis frameworks are proposed to answer biological questions correctly. We assess each of the proposed approaches by comparing them to similar methods known in the literature on numerous real data sets. The statistical criteria that we use are often limited by the small number of samples. We always try, therefore, to combine statistical assessments with a thorough biological interpretation of the results. The approaches that we propose are easy to apply and give relevant results that answer the biologists needs
APA, Harvard, Vancouver, ISO und andere Zitierweisen
30

Maria, Sébastien. „Modélisation parcimonieuse : application à la sélection de variables et aux données STAP“. Rennes 1, 2006. http://www.theses.fr/2006REN1S153.

Der volle Inhalt der Quelle
Annotation:
Les travaux de cette thèse s'inscrivent dans le contexte général de la représentation parcimonieuse dont le but est de représenter une observation par un nombre restreint de signaux élémentaires (régresseurs) sélectionnés parmi toute une gamme de signaux disponibles. Le problème de la sélection de variables consiste à déterminer les régresseurs qui sont statistiquement significatifs pour la représentation. Le modèle généralement étudié suppose que seule l'observation est perturbée. Dans ces travaux, nous analysons le modèle plus général des moindres carrés totaux où les régresseurs peuvent eux aussi être perturbés. La seconde application considérée est le traitement spatio-temporel adaptatif (STAP) pour la détection de cibles lentes. Afin de traiter les données d’un environnement fortement hétérogène, deux méthodes sont proposées: le filtre adapté global basée sur la recherche d’une représentation parcimonieuse du signal reçu et la méthode du Capon robuste appliquée au STAP.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
31

Levrard, Clément. „Quantification vectorielle en grande dimension : vitesses de convergence et sélection de variables“. Thesis, Paris 11, 2014. http://www.theses.fr/2014PA112214/document.

Der volle Inhalt der Quelle
Annotation:
Ce manuscrit étudie dans un premier temps la dépendance de la distorsion, ou erreur en quantification, du quantificateur construit à partir d'un n-échantillon d'une distribution de probabilité via l'algorithme des k-means. Plus précisément, l'objectif de ce travail est de donner des bornes en probabilité sur l'écart entre la distorsion de ce quantificateur et la plus petite distorsion atteignable parmi les quantificateurs, à nombre d'images k fixé, décrivant l'influence des divers paramètres de ce problème: support de la distribution de probabilité à quantifier, nombre d'images k, dimension de l'espace vectoriel sous-jacent, et taille de l'échantillon servant à construire le quantificateur k-mean. Après un bref rappel des résultats précédents, cette étude établit l'équivalence des diverses conditions existantes pour établir une vitesse de convergence rapide en la taille de l'échantillon de l'écart de distorsion considéré, dans le cas des distributions à densité, à une condition technique ressemblant aux conditions requises en classification supervisée pour l'obtention de vitesses rapides de convergence. Il est ensuite prouvé que, sous cette condition technique, une vitesse de convergence de l'ordre de 1/n pouvait être atteinte en espérance. Ensuite, cette thèse énonce une condition facilement interprétable, appelée condition de marge, suffisante à la satisfaction de la condition technique établie précédemment. Plusieurs exemples classiques de distributions satisfaisant cette condition sont donnés, tels les mélanges gaussiens. Si cette condition de marge se trouve satisfaite, une description précise de la dépendance de l'écart de distorsion étudié peut être donné via une borne en espérance: la taille de l'échantillon intervient via un facteur 1/n, le nombre d'images k intervient via différentes quantités géométriques associées à la distribution à quantifier, et de manière étonnante la dimension de l'espace sous-jacent semble ne jouer aucun rôle. Ce dernier point nous a permis d'étendre nos résultats au cadre des espaces de Hilbert, propice à la quantification des courbes. Néanmoins, la quantification effective en grande dimension nécessite souvent en pratique une étape de réduction du nombre de variables, ce qui nous a conduit dans un deuxième temps à étudier une procédure de sélection de variables associée à la quantification. Plus précisément, nous nous sommes intéressés à une procédure de type Lasso adaptée au cadre de la quantification vectorielle, où la pénalité Lasso porte sur l'ensemble des points images du quantificateur, dans le but d'obtenir des points images parcimonieux. Si la condition de marge introduite précédemment est satisfaite, plusieurs garanties théoriques sont établies concernant le quantificateur issu d'une telle procédure, appelé quantificateur Lasso k-means, à savoir que les points images de ce quantificateur sont proches des points images d'un quantificateur naturellement parcimonieux, réalisant un compromis entre erreur en quantification et taille du support des points images, et que l'écart en distorsion du quantificateur Lasso k-means est de l'ordre de 1/n^(1/2) en la taille de l'échantillon. Par ailleurs la dépendance de cette distorsion en les différents autres paramètres de ce problème est donnée explicitement. Ces prédictions théoriques sont illustrées par des simulations numériques confirmant globalement les propriétés attendues d'un tel quantificateur parcimonieux, mais soulignant néanmoins quelques inconvénients liés à l'implémentation effective de cette procédure
The distortion of the quantizer built from a n-sample of a probability distribution over a vector space with the famous k-means algorithm is firstly studied in this thesis report. To be more precise, this report aims to give oracle inequalities on the difference between the distortion of the k-means quantizer and the minimum distortion achievable by a k-point quantizer, where the influence of the natural parameters of the quantization issue should be precisely described. For instance, some natural parameters are the distribution support, the size k of the quantizer set of images, the dimension of the underlying Euclidean space, and the sample size n. After a brief summary of the previous works on this topic, an equivalence between the conditions previously stated for the excess distortion to decrease fast with respect to the sample size and a technical condition is stated, in the continuous density case. Interestingly, this condition looks like a technical condition required in statistical learning to achieve fast rates of convergence. Then, it is proved that the excess distortion achieves a fast convergence rate of 1/n in expectation, provided that this technical condition is satisfied. Next, a so-called margin condition is introduced, which is easier to understand, and it is established that this margin condition implies the technical condition mentioned above. Some examples of distributions satisfying this margin condition are exposed, such as the Gaussian mixtures, which are classical distributions in the clustering framework. Then, provided that this margin condition is satisfied, an oracle inequality on the excess distortion of the k-means quantizer is given. This convergence result shows that the excess distortion decreases with a rate 1/n and depends on natural geometric properties of the probability distribution with respect to the size of the set of images k. Suprisingly the dimension of the underlying Euclidean space seems to play no role in the convergence rate of the distortion. Following the latter point, the results are directly extended to the case where the underlying space is a Hilbert space, which is the adapted framework when dealing with curve quantization. However, high-dimensional quantization often needs in practical a dimension reduction step, before proceeding to a quantization algorithm. This motivates the following study of a variable selection procedure adapted to the quantization issue. To be more precise, a Lasso type procedure adapted to the quantization framework is studied. The Lasso type penalty applies to the set of image points of the quantizer, in order to obtain sparse image points. The outcome of this procedure is called the Lasso k-means quantizer, and some theoretical results on this quantizer are established, under the margin condition introduced above. First it is proved that the image points of such a quantizer are close to the image points of a sparse quantizer, achieving a kind of tradeoff between excess distortion and size of the support of image points. Then an oracle inequality on the excess distortion of the Lasso k-means quantizer is given, providing a convergence rate of 1/n^(1/2) in expectation. Moreover, the dependency of this convergence rate on different other parameters is precisely described. These theoretical predictions are illustrated with numerical experimentations, showing that the Lasso k-means procedure mainly behaves as expected. However, the numerical experimentations also shed light on some drawbacks concerning the practical implementation of such an algorithm
APA, Harvard, Vancouver, ISO und andere Zitierweisen
32

Mallein, Bastien. „Marches aléatoires branchantes, temps inhomogène, sélection“. Thesis, Paris 6, 2015. http://www.theses.fr/2015PA066104/document.

Der volle Inhalt der Quelle
Annotation:
On s'intéresse dans cette thèse au modèle de la marche aléatoire branchante, un système de particules qui évoluent au court du temps en se déplaçant et se reproduisant de façon indépendante. Le but est d'étudier le rythme auquel ces particules se déplacent, dans deux variantes particulières de marches aléatoires branchantes. Dans la première variante, la façon dont les individus se déplacent et se reproduisent dépend du temps. Ce modèle a été introduit par Fang et Zeitouni en 2010. Nous nous intéresserons à trois types de dépendance en temps : une brusque modification du mécanisme de reproduction des individus après un temps long ; une lente évolution de ce mécanisme à une échelle macroscopique ; et des fluctuations aléatoires à chaque génération. Dans la seconde variante, le mécanisme de reproduction est constant, mais les individus subissent un processus de sélection darwinien. La position d'un individu est interprétée comme son degré d'adaptation au milieu, et le déplacement d'un enfant par rapport à son parent représente l'héritage des gènes. Dans un tel processus, la taille maximale de la population est fixée à une certaine constante N, et à chaque étape, seuls les N plus à droite sont conservés. Ce modèle a été introduit par Brunet, Derrida, Mueller et Munier, et étudié par Bérard et Gouéré en 2010. Nous nous sommes intéressés dans un premier temps à une variante de ce modèle, qui autorise quelques grands sauts. Dans un second temps, nous avons considéré que la taille totale N de la population dépend du temps
In this thesis, we take interest in the branching random walk, a particles system, in which particles move and reproduce independently. The aim is to study the rhythm at which these particles invade their environment, a quantity which often reveals information on the past of the extremal individuals. We take care of two particular variants of branching random walk, that we describe below.In the first variant, the way individuals behave evolves with time. This model has been introduced by Fang and Zeitouni in 2010. This time-dependence can be a slow evolution of the reproduction mechanism of individuals, at macroscopic scale, in which case the maximal displacement is obtained through the resolution of a convex optimization problem. A second kind of time-dependence is to sample at random, at each generation, the way individuals behave. This model has been introduced and studied in an article in collaboration with Piotr Mi\l{}os.In the second variant, individuals endure a Darwinian selection mechanism. The position of an individual is understood as its fitness, and the displacement of a child with respect to its parent is associated to the process of heredity. In such a process, the total size of the population is fixed to some integer N, and at each step, only the N fittest individuals survive. This model was introduced by Brunet, Derrida, Mueller and Munier. In a first time, we took interest in a mechanism of reproduction which authorises some large jumps. In the second model we considered, the total size N of the population may depend on time
APA, Harvard, Vancouver, ISO und andere Zitierweisen
33

Dubois, Jean-François. „Quelques pièges cachés des méthodes de sélection de variables en régression linéaire multiple“. Thesis, National Library of Canada = Bibliothèque nationale du Canada, 2000. http://www.collectionscanada.ca/obj/s4/f2/dsk2/ftp03/MQ67260.pdf.

Der volle Inhalt der Quelle
APA, Harvard, Vancouver, ISO und andere Zitierweisen
34

Bécu, Jean-Michel. „Contrôle des fausses découvertes lors de la sélection de variables en grande dimension“. Thesis, Compiègne, 2016. http://www.theses.fr/2016COMP2264/document.

Der volle Inhalt der Quelle
Annotation:
Dans le cadre de la régression, de nombreuses études s’intéressent au problème dit de la grande dimension, où le nombre de variables explicatives mesurées sur chaque échantillon est beaucoup plus grand que le nombre d’échantillons. Si la sélection de variables est une question classique, les méthodes usuelles ne s’appliquent pas dans le cadre de la grande dimension. Ainsi, dans ce manuscrit, nous présentons la transposition de tests statistiques classiques à la grande dimension. Ces tests sont construits sur des estimateurs des coefficients de régression produits par des approches de régressions linéaires pénalisées, applicables dans le cadre de la grande dimension. L’objectif principal des tests que nous proposons consiste à contrôler le taux de fausses découvertes. La première contribution de ce manuscrit répond à un problème de quantification de l’incertitude sur les coefficients de régression réalisée sur la base de la régression Ridge, qui pénalise les coefficients de régression par leur norme l2, dans le cadre de la grande dimension. Nous y proposons un test statistique basé sur le rééchantillonage. La seconde contribution porte sur une approche de sélection en deux étapes : une première étape de criblage des variables, basée sur la régression parcimonieuse Lasso précède l’étape de sélection proprement dite, où la pertinence des variables pré-sélectionnées est testée. Les tests sont construits sur l’estimateur de la régression Ridge adaptive, dont la pénalité est construite à partir des coefficients de régression du Lasso. Une dernière contribution consiste à transposer cette approche à la sélection de groupes de variables
In the regression framework, many studies are focused on the high-dimensional problem where the number of measured explanatory variables is very large compared to the sample size. If variable selection is a classical question, usual methods are not applicable in the high-dimensional case. So, in this manuscript, we develop the transposition of statistical tests to the high dimension. These tests operate on estimates of regression coefficients obtained by penalized linear regression, which is applicable in high-dimension. The main objective of these tests is the false discovery control. The first contribution of this manuscript provides a quantification of the uncertainty for regression coefficients estimated by ridge regression in high dimension. The Ridge regression penalizes the coefficients on their l2 norm. To do this, we devise a statistical test based on permutations. The second contribution is based on a two-step selection approach. A first step is dedicated to the screening of variables, based on parsimonious regression Lasso. The second step consists in cleaning the resulting set by testing the relevance of pre-selected variables. These tests are made on adaptive-ridge estimates, where the penalty is constructed on Lasso estimates learned during the screening step. A last contribution consists to the transposition of this approach to group-variables selection
APA, Harvard, Vancouver, ISO und andere Zitierweisen
35

Grelaud, Aude. „Méthodes sans vraisemblance appliquées à l'étude de la sélection naturelle et à la prédiction de structure tridimensionnelle des protéines“. Paris 9, 2009. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=2009PA090048.

Der volle Inhalt der Quelle
APA, Harvard, Vancouver, ISO und andere Zitierweisen
36

Tuleau, Christine. „Sélection de variables pour la discrimination en grande dimension et classification de données fonctionnelles“. Paris 11, 2005. https://tel.archives-ouvertes.fr/tel-00012008.

Der volle Inhalt der Quelle
Annotation:
Cette these s'inscrit dans le cadre de la statistique non parametrique et porte sur la classification et la discrimination en grande dimension, et plus particulierement sur la selection de variables. Une premiere partie traite de la selection de variables a travers cart, dans un cadre de regression et de classification binaire. La procedure exhaustive developpee s'appuie sur le principe de la selection de modele qui permet d'obtenir des inegalites " oracle " et de realiser une selection de variables par contraste penalise. Une seconde partie est motivee par un probleme industriel. Il s'agit de determiner parmi les signaux temporels, mesures au cours d'essais, ceux capables d'expliquer le ressenti de confort du conducteur, puis de definir les plages temporelles responsables de cette pertinence. La demarche adoptee s'articule autour du pretraitement des signaux, de la reduction de la dimension par compression dans une base d'ondelettes et de l'extraction de variables en melant cart a une strategie pas a pas. Une derniere partie aborde le theme de la classification de donnees fonctionnelles au moyen des k-plus proches voisins. La procedure consiste a appliquer les k-plus proches voisins sur les coordonnees de la projection des donnees fonctionnelles sur un espace fini-dimensionnel. Cette procedure implique de determiner simultanement la dimension de l'espace de projection et le nombre de voisins. La version usuelle des k-plus proches voisins et une version legerement penalisee sont considerees theoriquement. Un travail sur donnees reelles et simulees semble montrer que l'introduction d'un faible terme de penalite stabilise la selection en conservant de bonnes performances
This thesis deals with nonparametric statistics and is related to classification and discrimination in high dimension, and more particularly on variable selection. A first part is devoted to variable selection through cart, both the regression and binary classification frameworks. The proposed exhaustive procedure is based on model selection which leads to “oracle” inequalities and allows to perform variable selection by penalized empirical contrast. A second part is motivated by an industrial problem. It consists of determining among the temporal signals, measured during experiments, those able to explain the subjective drivability, and then to define the ranges responsible for this relevance. The adopted methodology is articulated around the preprocessing of the signals, dimensionality reduction by compression using a common wavelet basis and selection of useful variables involving cart and a strategy step by step. A last part deals with functional data classification with k-nearest neighbors. The procedure consists of applying k-nearest neighbors on the coordinates of the projections of the data on a suitable chosen finite dimesional space. The procedure involves selecting simultaneously the space dimension and the number of neighbors. The traditional version of k-nearest neighbors and a slightly penalized version are theoretically considered. A study on real and simulated data shows that the introduction of a small penalty term stabilizes the selection while preserving good performance
APA, Harvard, Vancouver, ISO und andere Zitierweisen
37

Robineau, Jean-François. „Méthodes de sélection de variables, parmi un grand nombre, dans un cadre de discrimation“. Université Joseph Fourier (Grenoble), 2004. http://www.theses.fr/2004GRE19009.

Der volle Inhalt der Quelle
Annotation:
L'objet de ces travaux est le développement de méthodes de sélections de variables en apprentissage supervisé. La problématique de sélection de prédicteurs se rencontre dans le domaine émergeant de la fouille de données qui fait intervenir un grand nombre de variables. Nous cherchons a développer un environnement, a la fois théorique et pratique, afin de mettre en place des méthodes de sélection indépendantes de tout modèle probabiliste et autre méthode de discrimination. En s'inspirant de critères entropiques issus de la théorie de l'information nous proposons un processus de quantisation supervisée des prédicteurs continus suivant la variable de classe préalablement a la sélection des sous-ensembles de variables pertinentes. Les mesures d'information utilisées pour la quantisation supervisée sont par la suite mises en oeuvre dans la procédure de sélection de variables. Divers méthodes de sélection sont proposées, soulignant l'impossibilité pratique de découvrir le sous-ensemble idéal
The purpose of this document is the development of a practical framework for feature selection in supervised learning task. The issue of feature selection is mainly known from data-mining, where one has to deal with many irrelevant variables. We want to develop an environment, both at the same time theoretical and applied, in order to implement feature selection methods independent from any probabilistic model and disciminant algorithm. We propose supervised quantization methods based upon information measures. These methods perform discretization of continuous attribute following the class variable distribution. Following this pre-processing, feature selection methods use similar criteria to generate relevant variable subsets. Several methods are proposed, enlightening the impossible quest for the ideal subset
APA, Harvard, Vancouver, ISO und andere Zitierweisen
38

Hindawi, Mohammed. „Sélection de variables pour l’analyse des données semi-supervisées dans les systèmes d’Information décisionnels“. Thesis, Lyon, INSA, 2013. http://www.theses.fr/2013ISAL0015/document.

Der volle Inhalt der Quelle
Annotation:
La sélection de variables est une tâche primordiale en fouille de données et apprentissage automatique. Il s’agit d’une problématique très bien connue par les deux communautés dans les contextes, supervisé et non-supervisé. Le contexte semi-supervisé est relativement récent et les travaux sont embryonnaires. Récemment, l’apprentissage automatique a bien été développé à partir des données partiellement labélisées. La sélection de variables est donc devenue plus importante dans le contexte semi-supervisé et plus adaptée aux applications réelles, où l’étiquetage des données est devenu plus couteux et difficile à obtenir. Dans cette thèse, nous présentons une étude centrée sur l’état de l’art du domaine de la sélection de variable en s’appuyant sur les méthodes qui opèrent en mode semi-supervisé par rapport à celles des deux contextes, supervisé et non-supervisé. Il s’agit de montrer le bon compromis entre la structure géométrique de la partie non labélisée des données et l’information supervisée de leur partie labélisée. Nous nous sommes particulièrement intéressés au «small labeled-sample problem» où l’écart est très important entre les deux parties qui constituent les données. Pour la sélection de variables dans ce contexte semi-supervisé, nous proposons deux familles d’approches en deux grandes parties. La première famille est de type «Filtre» avec une série d’algorithmes qui évaluent la pertinence d’une variable par une fonction de score. Dans notre cas, cette fonction est basée sur la théorie spectrale de graphe et l’intégration de contraintes qui peuvent être extraites à partir des données en question. La deuxième famille d’approches est de type «Embedded» où la sélection de variable est intrinsèquement liée à un modèle d’apprentissage. Pour ce faire, nous proposons des algorithmes à base de pondération de variables dans un paradigme de classification automatique sous contraintes. Deux visions sont développées à cet effet, (1) une vision globale en se basant sur la satisfaction relaxée des contraintes intégrées directement dans la fonction objective du modèle proposé ; et (2) une deuxième vision, qui est locale et basée sur le contrôle stricte de violation de ces dites contraintes. Les deux approches évaluent la pertinence des variables par des poids appris en cours de la construction du modèle de classification. En outre de cette tâche principale de sélection de variables, nous nous intéressons au traitement de la redondance. Pour traiter ce problème, nous proposons une méthode originale combinant l’information mutuelle et un algorithme de recherche d’arbre couvrant construit à partir de variables pertinentes en vue de l’optimisation de leur nombre au final. Finalement, toutes les approches développées dans le cadre de cette thèse sont étudiées en termes de leur complexité algorithmique d’une part et sont validés sur des données de très grande dimension face et des méthodes connues dans la littérature d’autre part
Feature selection is an important task in data mining and machine learning processes. This task is well known in both supervised and unsupervised contexts. The semi-supervised feature selection is still under development and far from being mature. In general, machine learning has been well developed in order to deal with partially-labeled data. Thus, feature selection has obtained special importance in the semi-supervised context. It became more adapted with the real world applications where labeling process is costly to obtain. In this thesis, we present a literature review on semi-supervised feature selection, with regard to supervised and unsupervised contexts. The goal is to show the importance of compromising between the structure from unlabeled part of data, and the background information from their labeled part. In particular, we are interested in the so-called «small labeled-sample problem» where the difference between both data parts is very important. In order to deal with the problem of semi-supervised feature selection, we propose two groups of approaches. The first group is of «Filter» type, in which, we propose some algorithms which evaluate the relevance of features by a scoring function. In our case, this function is based on spectral-graph theory and the integration of pairwise constraints which can be extracted from the data in hand. The second group of methods is of «Embedded» type, where feature selection becomes an internal function integrated in the learning process. In order to realize embedded feature selection, we propose algorithms based on feature weighting. The proposed methods rely on constrained clustering. In this sense, we propose two visions, (1) a global vision, based on relaxed satisfaction of pairwise constraints. This is done by integrating the constraints in the objective function of the proposed clustering model; and (2) a second vision, which is local and based on strict control of constraint violation. Both approaches evaluate the relevance of features by weights which are learned during the construction of the clustering model. In addition to the main task which is feature selection, we are interested in redundancy elimination. In order to tackle this problem, we propose a novel algorithm based on combining the mutual information with maximum spanning tree-based algorithm. We construct this tree from the relevant features in order to optimize the number of these selected features at the end. Finally, all proposed methods in this thesis are analyzed and their complexities are studied. Furthermore, they are validated on high-dimensional data versus other representative methods in the literature
APA, Harvard, Vancouver, ISO und andere Zitierweisen
39

Tuleau, Christine. „SELECTION DE VARIABLES POUR LA DISCRIMINATION EN GRANDE DIMENSION ET CLASSIFICATION DE DONNEES FONCTIONNELLES“. Phd thesis, Université Paris Sud - Paris XI, 2005. http://tel.archives-ouvertes.fr/tel-00012008.

Der volle Inhalt der Quelle
Annotation:
Cette thèse s'inscrit dans le cadre de la statistique non paramétrique et porte sur la classification et la discrimination en grande dimension, et plus particulièrement sur la sélection de variables. Une première partie traite de la sélection de variables à travers CART, dans un cadre de régression et de classification binaire. La procédure exhaustive développée s'appuie sur le principe de la sélection de modèle qui permet d'obtenir des inégalités ``oracle'' et de réaliser la sélection de variables par contraste pénalisé. Une seconde partie est motivée par un problème industriel. Il s'agit de déterminer parmi les signaux temporels, mesurés au cours d'essais, ceux capables d'expliquer le ressenti de confort du conducteur, puis d'identifier les pages temporelles responsables de cette pertinence. La démarche adoptée s'articule autour du prétraitement des signaux, de la réduction de la dimension par projection dans une base d'ondelettes commune, et de la sélection de variables en mêlant CART et une stratégie pas à pas. Une dernière partie aborde le thème de la classification de données fonctionnelles au moyen des k-plus proches voisins. La procédure consiste à appliquer les k-plus proches voisins sur les coordonnées de la projection des données dans un espace fini dimensionnel. Cette procédure implique de déterminer simultanément la dimension de l'espace de projection et le nombre de voisins. La version usuelle des k-plus proches voisins et une version légèrement pénalisée sont considérées théoriquement. Un travail sur données réelles et simulées semble montrer qu'un faible terme de pénalité stabilise la sélection en conservant de bonnes performances.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
40

Laporte, Léa. „La sélection de variables en apprentissage d'ordonnancement pour la recherche d'information : vers une approche contextuelle“. Toulouse 3, 2013. http://thesesups.ups-tlse.fr/2170/.

Der volle Inhalt der Quelle
Annotation:
L'apprentissage d'ordonnancement, ou learning-to-rank, consiste à optimiser automatiquement une fonction d'ordonnancement apprise à l'aide d'un algorithme à partir de données d'apprentissage. Les approches existantes présentent deux limites. D'une part, le nombre de caractéristiques utilisées est généralement élevé, de quelques centaines à plusieurs milliers, ce qui pose des problèmes de qualité et de volumétrie. D'autre part, une seule fonction est apprise pour l'ensemble des requêtes. Ainsi, l'apprentissage d'ordonnancement ne prend pas en compte le type de besoin ou le contexte de la recherche. Nos travaux portent sur l'utilisation de la sélection de variables en apprentissage d'ordonnancement pour résoudre à la fois les problèmes de la volumétrie et de l'adaptation au contexte. Nous proposons cinq algorithmes de sélection de variables basés sur les Séparateurs à Vaste Marge (SVM) parcimonieux. Trois sont des approches de repondération de la norme L2, une résout un problème d'optimisation en norme L1 et la dernière considère des régularisations non convexes. Nos approches donnent de meilleurs résultats que l'état de l'art sur les jeux de données de référence. Elles sont plus parcimonieuses et plus rapides tout en permettant d'obtenir des performances identiques en matière de RI. Nous évaluons également nos approches sur un jeu de données issu du moteur commercial Nomao. Les résultats confirment la performance de nos algorithmes. Nous proposons dans ce cadre une méthodologie d'évaluation de la pertinence à partir des clics des utilisateurs pour le cas non étudié dans la littérature des documents multi-cliquables (cartes). Enfin, nous proposons un système d'ordonnancement adaptatif dépendant des requêtes basé sur la sélection de variables. Ce système apprend des fonctions d'ordonnancement spécifiques à un contexte donné, en considérant des groupes de requêtes et les caractéristiques obtenues par sélection pour chacun d'eux
Learning-to-rank aims at automatically optimizing a ranking function learned on training data by a machine learning algorithm. Existing approaches have two major drawbacks. Firstly, the ranking functions can use several thousands of features, which is an issue since algorithms have to deal with large scale data. This can also have a negative impact on the ranking quality. Secondly, algorithms learn an unique fonction for all queries. Then, nor the kind of user need neither the context of the query are taken into account in the ranking process. Our works focus on solving the large-scale issue and the context-aware issue by using feature selection methods dedicated to learning-to-rank. We propose five feature selection algorithms based on sparse Support Vector Machines (SVM). Three proceed to feature selection by reweighting the L2-norm, one solves a L1-regularized problem whereas the last algorithm consider nonconvex regularizations. Our methods are faster and sparser than state-of-the-art algorithms on benchmark datasets, while providing similar performances in terms of RI measures. We also evaluate our approches on a commercial dataset. Experimentations confirm the previous results. We propose in this context a relevance model based on users clicks, in the special case of multi-clickable documents. Finally, we propose an adaptative and query-dependent ranking system based on feature selection. This system considers several clusters of queries, each group defines a context. For each cluster, the system selects a group of features to learn a context-aware ranking function
APA, Harvard, Vancouver, ISO und andere Zitierweisen
41

Donnet, Sophie. „Inversion de données IRMf : estimation et sélection de modèles“. Paris 11, 2006. http://www.theses.fr/2006PA112193.

Der volle Inhalt der Quelle
Annotation:
Cette thèse est consacrée à l'analyse de données d'Imagerie par Résonance Magnétique fonctionnelle (IRMf). Dans le cadre du modèle classique de convolution, nous testons l'hypothèse de variabilité inter-occurrences des amplitudes des réponses hémodynamiques. L'estimation des paramètres de ce nouveau modèle requiert le recours à l'algorithme Expectation-Maximisation. Nous comparons ce modèle au modèle sans variabilité inter-occurrences par un test du rapport des vraisemblances, sur un grand nombre de jeu de données réelles. Le modèle linéaire souffrant d'un manque de fondement biologique, nous considérons un modèle physiologique aboutissant à l'écriture du signal IRMf comme la somme d'un terme de régression, solution d'une équation différentielle ordinaire (EDO), sans solution analytique dépendant d'un paramètre aléatoire, et d'un bruit de mesure gaussien. Nous proposons une méthode générale d'estimation paramétrique des modèles définis par EDO à données non-observées, intégrant une méthode de résolution numérique du système dynamique et reposant sur une version stochastique de l'algorithme EM. Nous montrons la convergence des estimateurs des paramètres produits par cet algorithme, et contrôlons l'erreur induite par l'approximation de la solution du système différentiel sur l'estimation des paramètres. Nous appliquons cette méthode à la fois sur données d'IRMf simulées et réelles. Enfin, nous considérons des modèles définis par équations différentielles stochastiques (EDS) dépendant d'un paramètre aléatoire. En approchant la diffusion par un schéma numérique, nous proposons une méthode d'estimation des paramètres du modèle. La précision de cette méthode est illustrée sur une étude sur données simulées dans le cadre d'un modèle à effets mixtes, issus de la pharmacocinétique. Une étude sur données réelle démontre la pertinence de l'approche stochastique. Finalement, nous nous intéressons à l'identifiabilité des modèles définis par EDS dépendant de paramètres aléatoires
This thesis is devoted to the analysis of functional Magnetic Resonance Imaging data (fMRI). In the framework of standard convolution models, we test a model that allows for the variation of the magnitudes of the hemodynamic reponse. To estimate the parameters of this model, we have to resort to the Expectation-Maximisation algorithm. We test this model against the standard one --withconstant magnitudes-- on several real data, set by a likelihood ratio test. The linear model suffers from a lack of biological basis, hence we consider a physiological model. In this framework, we describe the data as the sum of a regression term, defined as the non-analytical solution of an ordinary differentiel equation (ODE) depending on random parameters, and a gaussian observation noise. We develop a general method to estimate the parameters of a statistical model defined by ODE with non-observed parameters. This method, integrating a numerical resolution of the ODE, relies on a stochastic version of the EM algorithm. The convergence of the algorithm is proved and the error induced by the numerical solving method is controlled. We apply this method on simulated and real data sets. Subsequently, we consider statistical models defined by stochastic differential equations (SDE) depending on random parameters. We approximate the diffusion process by a numerical scheme and propose a general estimation method. Results of a pharmacokineticmixed model study (on simulated and real data set) illustrate the accuracy of the estimation and the relevance of the SDE approach. Finally, the identifiability of statistical models defined by SDE with random parameters is studied
APA, Harvard, Vancouver, ISO und andere Zitierweisen
42

Chastaing, Gaëlle. „Indices de Sobol généralisés pour variables dépendantes“. Phd thesis, Université de Grenoble, 2013. http://tel.archives-ouvertes.fr/tel-00930229.

Der volle Inhalt der Quelle
Annotation:
Dans un modèle qui peut s'avérer complexe et fortement non linéaire, les paramètres d'entrée, parfois en très grand nombre, peuvent être à l'origine d'une importante variabilité de la sortie. L'analyse de sensibilité globale est une approche stochastique permettant de repérer les principales sources d'incertitude du modèle, c'est-à-dire d'identifier et de hiérarchiser les variables d'entrée les plus influentes. De cette manière, il est possible de réduire la dimension d'un problème, et de diminuer l'incertitude des entrées. Les indices de Sobol, dont la construction repose sur une décomposition de la variance globale du modèle, sont des mesures très fréquemment utilisées pour atteindre de tels objectifs. Néanmoins, ces indices se basent sur la décomposition fonctionnelle de la sortie, aussi connue sous le nom de décomposition de Hoeffding. Mais cette décomposition n'est unique que si les variables d'entrée sont supposées indépendantes. Dans cette thèse, nous nous intéressons à l'extension des indices de Sobol pour des modèles à variables d'entrée dépendantes. Dans un premier temps, nous proposons une généralisation de la décomposition de Hoeffding au cas où la forme de la distribution des entrées est plus générale qu'une distribution produit. De cette décomposition généralisée aux contraintes d'orthogonalité spécifiques, il en découle la construction d'indices de sensibilité généralisés capable de mesurer la variabilité d'un ou plusieurs facteurs corrélés dans le modèle. Dans un second temps, nous proposons deux méthodes d'estimation de ces indices. La première est adaptée à des modèles à entrées dépendantes par paires. Elle repose sur la résolution numérique d'un système linéaire fonctionnel qui met en jeu des opérateurs de projection. La seconde méthode, qui peut s'appliquer à des modèles beaucoup plus généraux, repose sur la construction récursive d'un système de fonctions qui satisfont les contraintes d'orthogonalité liées à la décomposition généralisée. En parallèle, nous mettons en pratique ces méthodes sur différents cas tests.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
43

Vandewalle, Vincent. „Estimation et sélection en classification semi-supervisée“. Phd thesis, Université des Sciences et Technologie de Lille - Lille I, 2009. http://tel.archives-ouvertes.fr/tel-00447141.

Der volle Inhalt der Quelle
Annotation:
Le sujet de cette thèse est la classification semi-supervisée qui est considérée d'un point de vue décisionnel. Nous nous intéressons à la question de choix de modèles dans ce contexte où les modèles sont estimés en utilisant conjointement des données étiquetées et des données non étiquetées plus nombreuses. Nous concentrons notre recherche sur les modèles génératifs où la classification semi-supervisée s'envisage sans difficulté, contrairement au cadre prédictif qui nécessite des hypothèses supplémentaires peu naturelles. Après avoir dressé un état de l'art de la classification semi-supervisée, nous décrivons l'estimation des paramètres d'un modèle de classification à l'aide de données étiquetées et non étiquetées par l'algorithme EM. Nos contributions sur la sélection de modèles font l'objet des deux chapitres suivants. Au chapitre 3, nous présentons un test statistique où les données non étiquetées sont utilisées pour mettre à l'épreuve le modèle utilisé. Au chapitre 4 nous présentons un critère de sélection de modèles AIC_cond, dérivé du critère AIC d'un point de vue prédictif. Nous prouvons la convergence asymptotique de ce critère particulièrement bien adapté au contexte semi-supervisé et ses bonnes performances pratiques comparé à la validation croisée et à d'autres critères de vraisemblance pénalisée. Une deuxième partie de la thèse, sans rapport direct avec le contexte semi-supervisé, présente des modèles multinomiaux pour la classification sur variables qualitatives. Nous avons conçu ces modèles pour répondre à des limitations des modèles multinomiaux parcimonieux proposés dans le logiciel MIXMOD. À cette occasion, nous proposons un critère type BIC qui prend en compte de manière spécifique la complexité de ces modèles multinomiaux contraints.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
44

Du, Jardin Philippe. „Prévision de la défaillance et réseaux de neurones : l'apport des méthodes numériques de sélection de variables“. Phd thesis, Université de Nice Sophia-Antipolis, 2007. http://tel.archives-ouvertes.fr/tel-00475200.

Der volle Inhalt der Quelle
Annotation:
Les hypothèses qui sous-tendent les modèles de prédiction de la défaillance d'entreprise ont conduit leurs auteurs à privilégier comme méthodes d'élaboration, celles issues de la statistique et de l'analyse de données. Parmi toutes les méthodes employées – analyse discriminante, régression logistique, arbre de décision, etc. – les réseaux de neurones occupent une place privilégiée depuis une vingtaine d'années en raison de leurs propriétés mathématiques intrinsèques, mais aussi à cause des caractéristiques spécifiques qu'ils confèrent aux modèles. Pour autant, la performance d'un modèle numérique, c'est-à-dire sa capacité prédictive, ne dépend pas simplement de la famille de méthode qui l'a produit. Elle dépend des données employées pour son ajustement. Or, les travaux de recherche réalisés jusqu'à présent se sont appuyés essentiellement sur des variables de convenance, choisies parce qu'elles sont présentes dans les échantillons retenus ou parce qu'elles correspondent à des indicateurs traditionnels associés à la « santé financière » d'une entreprise. L'objet de ce travail doctoral s'inscrit dans cette perspective. Il vise à montrer en quoi les méthodes de sélection de variables adaptées aux réseaux de neurones, fondés sur des heuristiques d'énumération, offrent une alternative utile aux choix arbitraires de ces dernières ; ils permettent d'améliorer le degré de précision dans la prévision d'une défaillance et, grâce à une détection des variables pertinentes, d'approfondir la connaissance du problème traité.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
45

Hamon, Julie. „Optimisation combinatoire pour la sélection de variables en régression en grande dimension : Application en génétique animale“. Phd thesis, Université des Sciences et Technologie de Lille - Lille I, 2013. http://tel.archives-ouvertes.fr/tel-00920205.

Der volle Inhalt der Quelle
Annotation:
Le développement des technologies de séquençage et de génotypage haut-débit permet de mesurer, pour un individu, une grande quantité d'information génomique. L'objectif de ce travail est, dans le cadre de la sélection génomique animale, de sélectionner un sous-ensemble de marqueurs génétiques pertinents permettant de prédire un caractère quantitatif, dans un contexte où le nombre d'animaux génotypés est largement inférieur au nombre de marqueurs étudiées. Ce manuscrit présente un état de l'art des méthodes actuelles permettant de répondre à la problématique. Nous proposons ensuite de répondre à notre problématique de sélection de variables en régression en grande dimension en combinant approches d'optimisation combinatoire et modèles statistiques. Nous commençons par paramétrer expérimentalement deux méthodes d'optimisation combinatoire, la recherche locale itérée et l'algorithme génétique, combinées avec une régression li- néaire multiple et nous évaluons leur pertinence. Dans le contexte de la génomique animale les relations familiales entre animaux sont connues et peuvent constituer une information importante. Notre approche étant flexible, nous proposons une adapta- tion permettant de prendre en considération ces relations familiales via l'utilisation d'un modèle mixte. Le problème du sur-apprentissage étant particulièrement présent sur nos données dû au déséquilibre important entre le nombre de variables étudiées et le nombre d'animaux disponibles, nous proposons également une amélioration de notre approche permettant de diminuer ce sur-apprentissage. Les différentes approches proposées sont validées sur des données de la littérature ainsi que sur des données réelles de Gènes Diffusion.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
46

Aygalinc, Pascal. „Application de la reconnaissance des formes à l'aide au diagnostic médical : sélection multicritère de variables explicatives“. Lille 1, 1986. http://www.theses.fr/1986LIL10083.

Der volle Inhalt der Quelle
APA, Harvard, Vancouver, ISO und andere Zitierweisen
47

Rohart, Florian. „Prédiction phénotypique et sélection de variables en grande dimension dans les modèles linéaires et linéaires mixtes“. Thesis, Toulouse, INSA, 2012. http://www.theses.fr/2012ISAT0027/document.

Der volle Inhalt der Quelle
Annotation:
Les nouvelles technologies permettent l'acquisition de données génomiques et post-génomiques de grande dimension, c'est-à-dire des données pour lesquelles il y a toujours un plus grand nombre de variables mesurées que d'individus sur lesquels on les mesure. Ces données nécessitent généralement des hypothèses supplémentaires afin de pouvoir être analysées, comme une hypothèse de parcimonie pour laquelle peu de variables sont supposées influentes. C'est dans ce contexte de grande dimension que nous avons travaillé sur des données réelles issues de l’espèce porcine et de la technologie haut-débit, plus particulièrement le métabolome obtenu à partir de la spectrométrie RMN et des phénotypes mesurés post-mortem pour la plupart. L'objectif est double : d'une part la prédiction de phénotypes d’intérêt pour la production porcine et d'autre part l'explicitation de relations biologiques entre ces phénotypes et le métabolome. On montre, grâce à une analyse dans le modèle linéaire effectuée avec la méthode Lasso, que le métabolome a un pouvoir prédictif non négligeable pour certains phénotypes importants pour la production porcine comme le taux de muscle et la consommation moyenne journalière. Le deuxième objectif est traité grâce au domaine statistique de la sélection de variables. Les méthodes classiques telles que la méthode Lasso et la procédure FDR sont investiguées et de nouvelles méthodes plus performantes sont développées : nous proposons une méthode de sélection de variables en modèle linéaire basée sur des tests d'hypothèses multiples. Cette méthode possède des résultats non asymptotiques de puissance sous certaines conditions sur le signal. De part les données annexes disponibles sur les animaux telles que les lots dans lesquels ils ont évolués ou les relations de parentés qu'ils possèdent, les modèles mixtes sont considérés. Un nouvel algorithme de sélection d'effets fixes est développé et il s'avère beaucoup plus rapide que les algorithmes existants qui ont le même objectif. Grâce à sa décomposition en étapes distinctes, l’algorithme peut être combiné à toutes les méthodes de sélection de variables développées pour le modèle linéaire classique. Toutefois, les résultats de convergence dépendent de la méthode utilisée. On montre que la combinaison de cet algorithme avec la méthode de tests multiples donne de très bons résultats empiriques. Toutes ces méthodes sont appliquées au jeu de données réelles et des relations biologiques sont mises en évidence
Recent technologies have provided scientists with genomics and post-genomics high-dimensional data; there are always more variables that are measured than the number of individuals. These high dimensional datasets usually need additional assumptions in order to be analyzed, such as a sparsity condition which means that only a small subset of the variables are supposed to be relevant. In this high-dimensional context we worked on a real dataset which comes from the pig species and high-throughput biotechnologies. Metabolomic data has been measured with NMR spectroscopy and phenotypic data has been mainly obtained post-mortem. There are two objectives. On one hand, we aim at obtaining good prediction for the production phenotypes and on the other hand we want to pinpoint metabolomic data that explain the phenotype under study. Thanks to the Lasso method applied in a linear model, we show that metabolomic data has a real prediction power for some important phenotypes for livestock production, such as a lean meat percentage and the daily food consumption. The second objective is a problem of variable selection. Classic statistical tools such as the Lasso method or the FDR procedure are investigated and new powerful methods are developed. We propose a variable selection method based on multiple hypotheses testing. This procedure is designed to perform in linear models and non asymptotic results are given under a condition on the signal. Since supplemental data are available on the real dataset such as the batch or the family relationships between the animals, linear mixed models are considered. A new algorithm for fixed effects selection is developed, and this algorithm turned out to be faster than the usual ones. Thanks to its structure, it can be combined with any variable selection methods built for linear models. However, the convergence property of this algorithm depends on the method that is used. The multiple hypotheses testing procedure shows good empirical results. All the mentioned methods are applied to the real data and biological relationships are emphasized
APA, Harvard, Vancouver, ISO und andere Zitierweisen
48

Dernoncourt, David. „Stabilité de la sélection de variables sur des données haute dimension : une application à l'expression génique“. Thesis, Paris 6, 2014. http://www.theses.fr/2014PA066317/document.

Der volle Inhalt der Quelle
Annotation:
Les technologies dites « haut débit » permettent de mesurer de très grandes quantités de variables à l'échelle de chaque individu : séquence ADN, expressions des gènes, profil lipidique… L'extraction de connaissances à partir de ces données peut se faire par exemple par des méthodes de classification. Ces données contenant un très grand nombre de variables, mesurées sur quelques centaines de patients, la sélection de variables est une étape préalable indispensable pour réduire le risque de surapprentissage, diminuer les temps de calcul, et améliorer l'interprétabilité des modèles. Lorsque le nombre d’observations est faible, la sélection tend à être instable, et on observe souvent que sur deux jeux de données différents mais traitant d’un même problème, les variables sélectionnées ne se recoupent presque pas. Pourtant, obtenir une sélection stable semble crucial si l'on veut avoir confiance dans la pertinence effective des variables sélectionnées à des fins d'extraction de connaissances. Dans ce travail, nous avons d'abord cherché à déterminer quels sont les facteurs qui influencent le plus la stabilité de la sélection. Puis nous avons proposé une approche, spécifique aux données puces à ADN, faisant appel aux annotations fonctionnelles pour assister les méthodes de sélection habituelles, en enrichissant les données avec des connaissances a priori. Nous avons ensuite travaillé sur deux aspects des méthodes d'ensemble : le choix de la méthode d'agrégation et les ensembles hybrides. Dans un dernier chapitre, nous appliquons les méthodes étudiées à un problème de prédiction de la reprise de poids suite à un régime, à partir de données puces, chez des patients obèses
High throughput technologies allow us to measure very high amounts of variables in patients: DNA sequence, gene expression, lipid profile… Knowledge discovery can be performed on such data using, for instance, classification methods. However, those data contain a very high number of variables, which are measured, in the best cases, on a few hundreds of patients. This makes feature selection a necessary first step so as to reduce the risk of overfitting, reduce computation time, and improve model interpretability. When the amount of observations is low, feature selection tends to be unstable. It is common to observe that two selections obtained from two different datasets dealing with the same problem barely overlap. Yet, it seems important to obtain a stable selection if we want to be confident that the selected variables are really relevant, in an objective of knowledge discovery. In this work, we first tried to determine which factors have the most influence on feature selection stability. We then proposed a feature selection method, specific to microarray data, using functional annotations from Gene Ontology in order to assist usual feature selection methods, with the addition of a priori knowledge to the data. We then worked on two aspects of ensemble methods: the choice of the aggregation method, and hybrid ensemble methods. In the final chapter, we applied the methods studied in the thesis to a dataset from our lab, dealing with the prediction of weight regain after a diet, from microarray data, in obese patients
APA, Harvard, Vancouver, ISO und andere Zitierweisen
49

Pressat-Laffouilhère, Thibaut. „Modèle ontologique formel, un appui à la sélection des variables pour la construction des modèles multivariés“. Electronic Thesis or Diss., Normandie, 2023. http://www.theses.fr/2023NORMR104.

Der volle Inhalt der Quelle
Annotation:
Répondre à une question de recherche causale dans un contexte d’étude observationnelle nécessite desélectionner des variables de confusion. Leur intégration dans un modèle multivarié en tant que co-variablespermet de diminuer le biais dans l’estimation de l'effet causal de l'exposition sur le critère de jugement. Leuridentification est réalisée grâce à des diagrammes causaux (DCs) ou des graphes orientés acycliques. Cesreprésentations, composées de noeuds et d'arcs orientés, permettent d’éviter la sélection de variables quiaugmenteraient le biais, comme les variables de médiation et de collision. Les méthodes existantes deconstruction de DCs manquent cependant de systématisme et leur représentation de formalisme, d’expressivité etde complétude. Afin de proposer un cadre de construction formel et complet capable de représenter toutes lesinformations nécessaires à la sélection des variables sur un DC enrichi, d’analyser ce DC et surtout d’expliquerles résultats de cette analyse, nous avons proposé d'utiliser un modèle ontologique enrichi de règles d'inférences.Un modèle ontologique permet notamment de représenter les connaissances sous la forme de graphe expressif etformel composé de classes et de relations similaires aux noeuds et arcs des DCs. Nous avons développél’ontologie OntoBioStat (OBS) à partir d’une liste de questions de compétence liée à la sélection des variables etde l'analyse de la littérature scientifique relative aux DCs et aux ontologies. Le cadre de construction d’OBS estplus riche que celui d’un DC, intégrant des éléments implicites tels que les causes nécessaires, contextuels d’uneétude, sur l’incertitude de la connaissance et sur la qualité du jeu de données correspondant. Afin d’évaluerl’apport d’OBS, nous l’avons utilisée pour représenter les variables d’une étude observationnelle publiée etavons confronté ses conclusions à celle d’un DC. OBS a permis d'identifier de nouvelles variables de confusiongrâce au cadre de construction différent des DCs et aux axiomes et règles d'inférence. OBS a également étéutilisée pour représenter une étude rétrospective en cours d’analyse : le modèle a permis d’expliquer dans unpremier temps les corrélations statistiques retrouvées entre les variables de l’étude puis de mettre en évidence lespotentielles variables de confusion et leurs éventuels substituts ("proxys"). Les informations sur la qualité desdonnées et l’incertitude des relations causales ont quant à elles facilité la proposition des analyses de sensibilité,augmentant la robustesse de la conclusion de l’étude. Enfin, les inférences ont été expliquées grâce aux capacitésde raisonnement offertes par le formalisme de représentation d'OBS. À terme OBS sera intégrée dans des outilsd’analyse statistique afin de bénéficier des bibliothèques existantes pour la sélection des variables et de permettreson utilisation par les épidémiologistes et les biostatisticiens
Responding to a causal research question in the context of observational studies requires the selection ofconfounding variables. Integrating them into a multivariate model as co-variables helps reduce bias in estimatingthe true causal effect of exposure on the outcome. Identification is achieved through causal diagrams (CDs) ordirected acyclic graphs (DAGs). These representations, composed of nodes and directed arcs, prevent theselection of variables that would introduce bias, such as mediating and colliding variables. However, existingmethods for constructing CDs lack systematic approaches and exhibit limitations in terms of formalism,expressiveness, and completeness. To offer a formal and comprehensive framework capable of representing allnecessary information for variable selection on an enriched CD, analyzing this CD, and, most importantly,explaining the analysis results, we propose utilizing an ontological model enriched with inference rules. Anontological model allows for representing knowledge in the form of an expressive and formal graph consisting ofclasses and relations similar to the nodes and arcs of Cds. We developed the OntoBioStat (OBS) ontology basedon a list of competency questions about variable selection and an analysis of scientific literature on CDs andontologies. The construction framework of OBS is richer than that of a CD, incorporating implicit elements likenecessary causes, study context, uncertainty in knowledge, and data quality. To evaluate the contribution of OBS,we used it to represent variables from a published observational study and compared its conclusions with thoseof a CD. OBS identified new confounding variables due to its different construction framework and the axiomsand inference rules. OBS was also used to represent an ongoing retrospective study analysis. The modelexplained statistical correlations found between study variables and highlighted potential confounding variablesand their possible substitutes (proxies). Information on data quality and causal relation uncertainty facilitatedproposing sensitivity analyses, enhancing the study's conclusion robustness. Finally, inferences were explainedthrough the reasoning capabilities provided by OBS's formal representation. Ultimately, OBS will be integratedinto statistical analysis tools to leverage existing libraries for variable selection, making it accessible toepidemiologists and biostatisticians
APA, Harvard, Vancouver, ISO und andere Zitierweisen
50

Pluntz, Matthieu. „Sélection de variables en grande dimension par le Lasso et tests statistiques - application à la pharmacovigilance“. Electronic Thesis or Diss., université Paris-Saclay, 2024. http://www.theses.fr/2024UPASR002.

Der volle Inhalt der Quelle
Annotation:
La sélection de variables dans une régression de grande dimension est un problème classique dans l'exploitation de données de santé, où l'on cherche à identifier un nombre limité de facteurs associés à un évènement parmi un grand nombre de variables candidates : facteurs génétiques, expositions environnementales ou médicamenteuses.La régression Lasso (Tibshirani, 1996) fournit une suite de modèles parcimonieux où les variables apparaissent les unes après les autres suivant la valeur du paramètre de régularisation. Elle doit s'accompagner d'une procédure du choix de ce paramètre et donc du modèle associé. Nous proposons ici des procédures de sélection d'un des modèles du chemin du Lasso qui font partie, ou s'inspirent, du paradigme des tests statistiques. De la sorte, nous cherchons à contrôler le risque de sélection d'au moins un faux positif (Family-Wise Error Rate, FWER), au contraire de la plupart des méthodes existantes de post-traitement du Lasso qui acceptent plus facilement des faux positifs.Notre première proposition est une généralisation du critère d'information d'Akaike (AIC) que nous appelons AIC étendu (EAIC). La log-vraisemblance du modèle considéré y est pénalisée par son nombre de paramètres affecté d'un poids qui est fonction du nombre total de variables candidates et du niveau visé de FWER, mais pas du nombre d'observations. Nous obtenons cette fonction en rapprochant la comparaison de critères d'information de sous-modèles emboîtés d'une régression en grande dimension, de tests multiples du rapport de vraisemblance sur lesquels nous démontrons un résultat asymptotique.Notre deuxième proposition est un test de la significativité d'une variable apparaissant sur le chemin du Lasso. Son hypothèse nulle dépend d'un ensemble A de variables déjà sélectionnées et énonce qu'il contient toutes les variables actives. Nous cherchons à prendre comme statistique de test la valeur du paramètre de régularisation à partir de laquelle une première variable en dehors de A est sélectionnée par le Lasso. Ce choix se heurte au fait que l'hypothèse nulle n'est pas assez spécifiée pour définir la loi de cette statistique et donc sa p-value. Nous résolvons cela en lui substituant sa p-value conditionnelle, définie conditionnellement aux coefficients estimés du modèle non pénalisé restreint à A. Nous estimons celle-ci par un algorithme que nous appelons simulation-calibration, où des vecteurs réponses sont simulés puis calibrés sur les coefficients estimés du vecteur réponse observé. Nous adaptons de façon heuristique la calibration au cas des modèles linéaires généralisés (binaire et de Poisson) dans lesquels elle est une procédure itérative et stochastique. Nous prouvons que l'utilisation du test permet de contrôler le risque de sélection d'un faux positif dans les modèles linéaires, à la fois lorsque l'hypothèse nulle est vérifiée mais aussi, sous une condition de corrélation, lorsque A ne contient pas toutes les variables actives.Nous mesurons les performances des deux procédures par des études de simulations extensives, portant à la fois sur la sélection éventuelle d'une variable sous l'hypothèse nulle (ou son équivalent pour l'EAIC) et sur la procédure globale de sélection d'un modèle. Nous observons que nos propositions se comparent de façon satisfaisante à leurs équivalents les plus proches déjà existants, BIC et ses versions étendues pour l'EAIC et le test de covariance de Lockhart et al. (2014) pour le test par simulation-calibration. Nous illustrons également les deux procédures dans la détection d'expositions médicamenteuses associées aux pathologies hépatiques (drug-induced liver injuries, DILI) dans la base nationale de pharmacovigilance (BNPV) en mesurant leurs performances grâce à l'ensemble de référence DILIrank d'associations connues
Variable selection in high-dimensional regressions is a classic problem in health data analysis. It aims to identify a limited number of factors associated with a given health event among a large number of candidate variables such as genetic factors or environmental or drug exposures.The Lasso regression (Tibshirani, 1996) provides a series of sparse models where variables appear one after another depending on the regularization parameter's value. It requires a procedure for choosing this parameter and thus the associated model. In this thesis, we propose procedures for selecting one of the models of the Lasso path, which belong to or are inspired by the statistical testing paradigm. Thus, we aim to control the risk of selecting at least one false positive (Family-Wise Error Rate, FWER) unlike most existing post-processing methods of the Lasso, which accept false positives more easily.Our first proposal is a generalization of the Akaike Information Criterion (AIC) which we call the Extended AIC (EAIC). We penalize the log-likelihood of the model under consideration by its number of parameters weighted by a function of the total number of candidate variables and the targeted level of FWER but not the number of observations. We obtain this function by observing the relationship between comparing the information criteria of nested sub-models of a high-dimensional regression, and performing multiple likelihood ratio test, about which we prove an asymptotic property.Our second proposal is a test of the significance of a variable appearing on the Lasso path. Its null hypothesis depends on a set A of already selected variables and states that it contains all the active variables. As the test statistic, we aim to use the regularization parameter value from which a first variable outside A is selected by Lasso. This choice faces the fact that the null hypothesis is not specific enough to define the distribution of this statistic and thus its p-value. We solve this by replacing the statistic with its conditional p-value, which we define conditional on the non-penalized estimated coefficients of the model restricted to A. We estimate the conditional p-value with an algorithm that we call simulation-calibration, where we simulate outcome vectors and then calibrate them on the observed outcome‘s estimated coefficients. We adapt the calibration heuristically to the case of generalized linear models (binary and Poisson) in which it turns into an iterative and stochastic procedure. We prove that using our test controls the risk of selecting a false positive in linear models, both when the null hypothesis is verified and, under a correlation condition, when the set A does not contain all active variables.We evaluate the performance of both procedures through extensive simulation studies, which cover both the potential selection of a variable under the null hypothesis (or its equivalent for EAIC) and on the overall model selection procedure. We observe that our proposals compare well to their closest existing counterparts, the BIC and its extended versions for the EAIC, and Lockhart et al.'s (2014) covariance test for the simulation-calibration test. We also illustrate both procedures in the detection of exposures associated with drug-induced liver injuries (DILI) in the French national pharmacovigilance database (BNPV) by measuring their performance using the DILIrank reference set of known associations
APA, Harvard, Vancouver, ISO und andere Zitierweisen
Wir bieten Rabatte auf alle Premium-Pläne für Autoren, deren Werke in thematische Literatursammlungen aufgenommen wurden. Kontaktieren Sie uns, um einen einzigartigen Promo-Code zu erhalten!

Zur Bibliographie