Academic literature on the topic 'Sélection de variables bayésienne'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the lists of relevant articles, books, theses, conference reports, and other scholarly sources on the topic 'Sélection de variables bayésienne.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Journal articles on the topic "Sélection de variables bayésienne"

1

FOULLEY, J. L., and E. MANFREDI. "L’évaluation des reproducteurs : L’évaluation génétique des reproducteurs pour des caractères à seuil." INRAE Productions Animales 5, HS (December 2, 1992): 201–4. http://dx.doi.org/10.20870/productions-animales.1992.5.hs.4286.

Full text
Abstract:
Cet article rappelle les principales caractéristiques du modèle à seuils de Sewall Wright applicable aux variables discrètes binaires et polytomiques ordonnées ainsi que ses principaux domaines d’application notamment en génétique et sélection animale. En prenant l’exemple d’un caractère dichotomique, on montre que l’analyse statistique de ces caractères rentre dans le cadre de la théorie du modèle linéaire généralisé de Mc Cullagh et Nelder. On mentionne ensuite l’approche bayésienne de Gianola et Foulley d’évaluation des reproducteurs. Diverses extensions sont enfin discutées.
APA, Harvard, Vancouver, ISO, and other styles
2

Boulet, S., M. Ursino, P. Thall, A. S. Jannot, and S. Zohara. "Nouvelle méthode bayésienne de sélection de variables pour des échantillons de petite taille incorporant l’expertise clinique. Application au cancer colorectal." Revue d'Épidémiologie et de Santé Publique 66 (May 2018): S137. http://dx.doi.org/10.1016/j.respe.2018.03.347.

Full text
APA, Harvard, Vancouver, ISO, and other styles
3

ROBERT-GRANIÉ, C., A. LEGARRA, and V. DUCROCQ. "Principes de base de la sélection génomique." INRAE Productions Animales 24, no. 4 (September 8, 2011): 331–40. http://dx.doi.org/10.20870/productions-animales.2011.24.4.3265.

Full text
Abstract:
Avec l’arrivée de données de génotypage à haut débit, il est maintenant possible d’estimer la valeur génétique d’animaux candidatsà la sélection dès leur naissance, sans attendre la collecte de phénotypes. La sélection génomique bouleverse complètement les perspectivesen amélioration génétique. Elle nécessite la constitution d’une population de référence formée d’animaux génotypés (jusqu’àrécemment, il s’agissait principalement de mâles) et ayant des performances précises, par exemple la performance moyenne de leursfilles. Les évaluations génomiques consistent à prédire les phénotypes dans cette population de référence comme la somme des effetsdes marqueurs moléculaires. Le problème méthodologique principal est que le nombre d’effets à estimer est typiquement beaucoupplus élevé que le nombre de phénotypes disponibles. Nous décrivons les idées générales de diverses familles de méthodes proposées :BLUP génomique basé sur une parenté entre individus calculée à partir des marqueurs, méthodes Bayésiennes plus flexibles maisaussi plus coûteuses, méthodes de sélection de variables, méthode en une seule étape qui combine évaluation génétique nationale etévaluation génomique. La précision des évaluations génomiques est faite par validation croisée chez les animaux les plus jeunes de lapopulation de référence. La taille de la population de référence, la manière de prendre en compte les QTL à effet fort et le degré d’apparentemententre candidats à la sélection et animaux de la population de référence ont un impact non négligeable sur l’efficacité desméthodes de sélection génomique.
APA, Harvard, Vancouver, ISO, and other styles
4

Boulet, S., M. Ursino, P. Thall, A. Burgun, A. Zaanan, S. Zohar, and A. Jannot. "Intégration de l’élicitation d’experts dans une méthode de sélection de variables en Bayésien par la méthode de « power prior ». Application au cancer du colon." Revue d'Épidémiologie et de Santé Publique 67 (May 2019): S132—S133. http://dx.doi.org/10.1016/j.respe.2019.03.097.

Full text
APA, Harvard, Vancouver, ISO, and other styles
5

Boulet, S., M. Ursino, P. Thall, B. Landi, C. Lepère, S. Pernot, A. Burgun, et al. "Intégration de l’élicitation d’experts dans une méthode de sélection de variables en Bayésien par la méthode de power prior–Application au cancer du colon." Revue d'Épidémiologie et de Santé Publique 67 (June 2019): S175. http://dx.doi.org/10.1016/j.respe.2019.04.002.

Full text
APA, Harvard, Vancouver, ISO, and other styles
6

Bennani, Younès. "Systèmes d'apprentissage connexionnistes - Sélection de variables." Revue d'intelligence artificielle 15, no. 3-4 (December 1, 2001): 303–16. http://dx.doi.org/10.3166/ria.15.303-316.

Full text
APA, Harvard, Vancouver, ISO, and other styles
7

GHADHAB, Wassim, and Kamel NAOUI. "Stress test micro-prudentiel inversé comme outil de gestion du risque du crédit." Journal of Academic Finance 15, no. 1 (June 30, 2024): 108–22. http://dx.doi.org/10.59051/joaf.v15i1.768.

Full text
Abstract:
Objectif : Cet article vise à appliquer le stress test micro-prudentiel inversé sur le risque de crédit de la Banque des Financements des Petites et Moyennes Entreprises (BFPME). Méthodologie : Elle repose sur des estimations économétriques effectuées sur un échantillon trimestriel de sept (07) variables sur la période 2006-2021, en intégrant l'approche BSVAR de Sims et Zha (1998). Résultats : Les résultats des estimations montrent que l'intégration de l'approche bayésienne structurelle permet de surmonter les limites du modèle classique. Le scénario de stress inversé révèle que le portefeuille de crédit de la BFPME devrait se transformer en NPL d'ici la fin de l’année 2025. Originalité de l’article : L'article introduit une approche novatrice en explorant l'intégration de l'approche bayésienne dans les stress tests et la détermination précise des scénarios de stress inversé via la distribution à priori. Il souligne l'importance pour les banques d'adopter cette approche pour dépasser les limites des modèles classiques et ajouter une dimension de réflexion des décideurs.
APA, Harvard, Vancouver, ISO, and other styles
8

Gubian, Alain, and Thomas Coutrot. "La réduction du temps de travail au milieu du gué." Revue économique 51, no. 3 (May 1, 2000): 535–45. http://dx.doi.org/10.3917/reco.p2000.51n3.0535.

Full text
Abstract:
Résumé À la mi-1999, 18 000 entreprises avaient signé un accord de réduction du temps de travail (RTT) dans le cadre des lois incitatives Robien et Aubry. Les établissements ayant signé des accords « offensifs » ont fortement accru leurs effectifs, même en corrigeant du biais de sélection tenant surtout au fait qu'ils étaient initialement plus dynamiques. Les variables de sélection renvoient à des considérations organisationnelles et socio-politiques autant qu'à des variables strictement économiques. À la date de l'étude, les conditions de mise en œuvre de la RTT ne semblent guère s'écarter des conditions de neutralité sur les coûts des entreprises : les emplois créés pourraient être durables.
APA, Harvard, Vancouver, ISO, and other styles
9

Baudoux, Claudine. "Famille et carrière : le cas des gestionnaires féminines en éducation." Articles 5, no. 2 (April 12, 2005): 79–122. http://dx.doi.org/10.7202/057700ar.

Full text
Abstract:
Cet article présente les résultats partiels d'une recherche concernant l'importance de variables reliées à la vie familiale au cours du processus de sélection de cadres d'établissements d'éducation québécois. Les résultats suggèrent que pour le même critère, les candidates sont susceptibles d'être jugées différemment des candidats. En particulier, au moment de la sélection, le mariage des candidates ainsi que le fait qu'elles gardent le souci de leur famille au travail suscite des craintes, mais est considéré positivement chez les candidats.
APA, Harvard, Vancouver, ISO, and other styles
10

Laporte, Lea, Sébastien Déjean, and Josianne Mothe. "Sélection de variables en apprentissage d’ordonnancement. évaluation des SVM pondérés." Document numérique 18, no. 1 (April 30, 2015): 97–121. http://dx.doi.org/10.3166/dn.18.1.97-121.

Full text
APA, Harvard, Vancouver, ISO, and other styles

Dissertations / Theses on the topic "Sélection de variables bayésienne"

1

Baragatti, Meïli. "Sélection bayésienne de variables et méthodes de type Parallel Tempering avec et sans vraisemblance." Thesis, Aix-Marseille 2, 2011. http://www.theses.fr/2011AIX22100/document.

Full text
Abstract:
Cette thèse se décompose en deux parties. Dans un premier temps nous nous intéressons à la sélection bayésienne de variables dans un modèle probit mixte.L'objectif est de développer une méthode pour sélectionner quelques variables pertinentes parmi plusieurs dizaines de milliers tout en prenant en compte le design d'une étude, et en particulier le fait que plusieurs jeux de données soient fusionnés. Le modèle de régression probit mixte utilisé fait partie d'un modèle bayésien hiérarchique plus large et le jeu de données est considéré comme un effet aléatoire. Cette méthode est une extension de la méthode de Lee et al. (2003). La première étape consiste à spécifier le modèle ainsi que les distributions a priori, avec notamment l'utilisation de l'a priori conventionnel de Zellner (g-prior) pour le vecteur des coefficients associé aux effets fixes (Zellner, 1986). Dans une seconde étape, nous utilisons un algorithme Metropolis-within-Gibbs couplé à la grouping (ou blocking) technique de Liu (1994) afin de surmonter certaines difficultés d'échantillonnage. Ce choix a des avantages théoriques et computationnels. La méthode développée est appliquée à des jeux de données microarray sur le cancer du sein. Cependant elle a une limite : la matrice de covariance utilisée dans le g-prior doit nécessairement être inversible. Or il y a deux cas pour lesquels cette matrice est singulière : lorsque le nombre de variables sélectionnées dépasse le nombre d'observations, ou lorsque des variables sont combinaisons linéaires d'autres variables. Nous proposons donc une modification de l'a priori de Zellner en y introduisant un paramètre de type ridge, ainsi qu'une manière de choisir les hyper-paramètres associés. L'a priori obtenu est un compromis entre le g-prior classique et l'a priori supposant l'indépendance des coefficients de régression, et se rapproche d'un a priori précédemment proposé par Gupta et Ibrahim (2007).Dans une seconde partie nous développons deux nouvelles méthodes MCMC basées sur des populations de chaînes. Dans le cas de modèles complexes ayant de nombreux paramètres, mais où la vraisemblance des données peut se calculer, l'algorithme Equi-Energy Sampler (EES) introduit par Kou et al. (2006) est apparemment plus efficace que l'algorithme classique du Parallel Tempering (PT) introduit par Geyer (1991). Cependant, il est difficile d'utilisation lorsqu'il est couplé avec un échantillonneur de Gibbs, et nécessite un stockage important de valeurs. Nous proposons un algorithme combinant le PT avec le principe d'échanges entre chaînes ayant des niveaux d'énergie similaires dans le même esprit que l'EES. Cette adaptation appelée Parallel Tempering with Equi-Energy Moves (PTEEM) conserve l'idée originale qui fait la force de l'algorithme EES tout en assurant de bonnes propriétés théoriques et une utilisation facile avec un échantillonneur de Gibbs.Enfin, dans certains cas complexes l'inférence peut être difficile car le calcul de la vraisemblance des données s'avère trop coûteux, voire impossible. De nombreuses méthodes sans vraisemblance ont été développées. Par analogie avec le Parallel Tempering, nous proposons une méthode appelée ABC-Parallel Tempering, basée sur la théorie des MCMC, utilisant une population de chaînes et permettant des échanges entre elles
This thesis is divided into two main parts. In the first part, we propose a Bayesian variable selection method for probit mixed models. The objective is to select few relevant variables among tens of thousands while taking into account the design of a study, and in particular the fact that several datasets are merged together. The probit mixed model used is considered as part of a larger hierarchical Bayesian model, and the dataset is introduced as a random effect. The proposed method extends a work of Lee et al. (2003). The first step is to specify the model and prior distributions. In particular, we use the g-prior of Zellner (1986) for the fixed regression coefficients. In a second step, we use a Metropolis-within-Gibbs algorithm combined with the grouping (or blocking) technique of Liu (1994). This choice has both theoritical and practical advantages. The method developed is applied to merged microarray datasets of patients with breast cancer. However, this method has a limit: the covariance matrix involved in the g-prior should not be singular. But there are two standard cases in which it is singular: if the number of observations is lower than the number of variables, or if some variables are linear combinations of others. In such situations we propose to modify the g-prior by introducing a ridge parameter, and a simple way to choose the associated hyper-parameters. The prior obtained is a compromise between the conditional independent case of the coefficient regressors and the automatic scaling advantage offered by the g-prior, and can be linked to the work of Gupta and Ibrahim (2007).In the second part, we develop two new population-based MCMC methods. In cases of complex models with several parameters, but whose likelihood can be computed, the Equi-Energy Sampler (EES) of Kou et al. (2006) seems to be more efficient than the Parallel Tempering (PT) algorithm introduced by Geyer (1991). However it is difficult to use in combination with a Gibbs sampler, and it necessitates increased storage. We propose an algorithm combining the PT with the principle of exchange moves between chains with same levels of energy, in the spirit of the EES. This adaptation which we are calling Parallel Tempering with Equi-Energy Move (PTEEM) keeps the original idea of the EES method while ensuring good theoretical properties and a practical use in combination with a Gibbs sampler.Then, in some complex models whose likelihood is analytically or computationally intractable, the inference can be difficult. Several likelihood-free methods (or Approximate Bayesian Computational Methods) have been developed. We propose a new algorithm, the Likelihood Free-Parallel Tempering, based on the MCMC theory and on a population of chains, by using an analogy with the Parallel Tempering algorithm
APA, Harvard, Vancouver, ISO, and other styles
2

Viallefont, Valérie. "Analyses bayesiennes du choix de modèles en épidémiologie : sélection de variables et modélisation de l'hétérogénéité pour des évènements." Paris 11, 2000. http://www.theses.fr/2000PA11T023.

Full text
Abstract:
Cette thèse se décompose en deux parties qui traitent la question du choix modèles dans deux problématiques différentes. Dans la première partie, on s'intéresse, pour les modèles de régression logis multivariée, à différentes stratégies de sélection de variables associées à l'apparition d'une maladie. Les méthodes les plus fréquemment mises en œuvre à l'heure actuelle consistent à sélectionner certaines variables dans un modèle final unique, modèle dans lequel sont ensuite estimés les paramètres et leur variance. Différents critères de sélection existent et la plupart d'entre eux reposent sur une comparaison du degré de signification de tests à une valeur seuil. On s'intéresse aux performances auc performances de ces approches par rapport à celles d'une méthode bayésienne dans laquelle on considère tout un ensemble de modèles. A chaque modèle est associé sa probabilité a posteriori. Cette approche permet d'estimer la probabilité de l'existence d'une association entre chaque variable et l'apparition de la maladie, et de calculer des estimations globale des paramètres. Deux schémas de simulations sont envisagés pour cette comparaison : l'un évoque un cas d'école où l'on s'intéresse à un facteur de risque en présence d'un unique facteur de confusion potentiel, l'autre caractérise une enquête épidémiologique avec un grand nombre de facteurs de risque possibles. Les critères de comparaison portent sur le biais moyen dans l'estimation des coefficients, les pourcentages d’erreurs de première et seconde espèces ou leur équivalent bayésien, et l'expression du degré d'incertitude. La méthode bayésienne fournit notamment une appréciation plus explicite de l'incertitude sur les conclusions. Dans la deuxième partie, on s'intéresse au cas où des données relatives à des événements rares présentent une trop forte hétérogénéité pour être modélisées par une seule distribution de Poisson. On fait alors l'hypothèse qu'elles sont issues de mélange de distributions de Poisson. On propose d'estimer conjointement, dans un modèle hiérarchique bayésien, le nombre de composantes du mélange et les proportions et paramètres de chacune, par les méthodes de Monte Carlo par Chaîne de Markov (MCMC). L'estimation du nombre de composantes nécessite que la dimension de l'espace des paramètres puisse varier : pour ceci on utilise le principe du "Saut Reversible". On illustre la difficulté de trouver une loi a priori faiblement informative pour les paramètres de Poisson en étudiant la sensibilité des résultats au choix de cette loi a priori et de ses paramètres. On propose différentes transformations lors du changement de dimension de l'espace des paramètres et on s'intéresse à leur influence sur les performances de l'algorithme, notamment son caractère mélangeant. Enfin on écrit deux modèles, de prise en compte de covariables, dont l'effet est soit homogène soit hétérogène sur les composantes du mélange. Les comparaisons sont menées sur des jeux de données simulés, et le modèle est finalement illustré sur des données réelles de nature épidémiologique concernant des cas de cancers digestifs en France, puis des données d'accidents de la route
This dissertation has two separated parts. In the first part, we compare different strategies for variable selection in a multi­variate logistic regression model. Covariate and confounder selection in case-control studies is often carried out using either a two-step method or a stepwise variable selection method. Inference is then carried out conditionally on the selected model, but this ignores the madel uncertainty implicit in the variable selection process, and so underestimates uncertainty about relative risks. It is well known, and showed again in our study, that the ρ-values computed after variable selection can greatly overstate the strength of conclusions. We propose Bayesian Model Averaging as a formal way of taking account of madel uncertainty in a logistic regression context. The BMA methods, that allows to take into account several models, each being associated with its posterior probability, yields an easily interpreted summary, the posterior probability that a variable is a risk factor, and its estimate averaged over the set of models. We conduct two comparative simulations studies : the first one has a simple design including only one risk factor and one confounder, the second one mimics a epidemiological cohort study dataset, with a large number of potential risk factors. Our criteria are the mean bias, the rate of type I and type II errors, and the assessment of uncertainty in the results, which is bath more accurate and explicit under the BMA analysis. The methods are applied and compared in the context of a previously published case-control study of cervical cancer. The choice of the prior distributions are discussed. In the second part, we focus on the modelling of rare events via a Poisson distribution, that sometimes reveals substantial over-dispersion, indicating that sorme un­ explained discontinuity arises in the data. We suggest to madel this over-dispersion by a Poisson mixture. In a hierarchical Bayesian model, the posterior distributions of he unknown quantities in the mixture (number of components, weights, and Poisson parameters) can be estimated by MCMC algorithms, including reversible jump algothms which allows to vary the dimension of the mixture. We focus on the difficulty of finding a weakly informative prior for the Poisson parameters : different priors are detailed and compared. Then, the performances of different maves created for changing dimension are investigated. The model is extended by the introduction of covariates, with homogeneous or heterogeneous effect. Simulated data sets are designed for the different comparisons, and the model is finally illustrated in two different contexts : an ecological analysis of digestive cancer mortality along the coasts of France, and a dataset concerning counts of accidents in road-junctions
APA, Harvard, Vancouver, ISO, and other styles
3

Bouhamed, Heni. "L'Apprentissage automatique : de la sélection de variables à l'apprentissage de structure d'un classifieur bayésien." Rouen, 2013. http://www.theses.fr/2013ROUES037.

Full text
Abstract:
Les travaux développés dans le cadre de cette thèse portent sur le problème du traitement des grandes masses de données lors de l’apprentissage automatique d’un modèle à partir d’une base d’exemples. Ainsi, le modèle construit servira comme un outil de classification de nouveaux cas. Nous étudions plus particulièrement dans un premier temps, le concept de la sélection de variables en présentant ses principales stratégies et en propulsant leurs insuffisances, en effet, une nouvelle méthode Filtre (Filter) sera développée au cours de ce travail afin de remédier aux insuffisances signalées. Nous étudions dans un deuxième temps, le problème de l’augmentation super-exponentielle de la complexité algorithmique de l’apprentissage de structure d’un classifieur Bayésien dans le cas d’utilisation d’algorithmes généraux et sans restrictions particulières. En effet, en se référant à la formule de Robinson (Robinson, 1977), il est certain que le nombre de graphes acycliques dirigés (DAG) augmente d’une façon super exponentielle selon l’augmentation du nombre de variables. Alors, on se propose lors de cette partie de développer une nouvelle approche permettant de réduire le nombre de DAG possibles lors de l’apprentissage automatique de structure sans pour autant perdre de l’information. Evidemment, la réduction du nombre de DAG possible va permettre de réduire la complexité algorithmique du processus et en conséquence la réduction du temps d’exécution, ce qui va nous permettre de pouvoir modéliser des systèmes d’informations plus grands avec la même qualité d’exploitation
The work developed in the framework of this thesis deals with the problem of processing large amounts of data in machine learning model from an examples’ database. Thus, the model constructed will serve as a tool for classifying new cases. We will particularly focus firstly, to the concept of variable selection by presenting its major strategies and propelling their shortcomings, in fact, a new filter method will be developed in this work in the aim to remedy to the identified shortcomings. Secondly, we will study the super exponential increase problem of the computational complexity of learning Bayesian classifier structure in the case of using general algorithms with no special restrictions. Indeed, referring to the formula of Robinson (Robinson, 1977), it is certain that the number of the directed acyclic graph (DAG) increases with a super exponential manner according to the increase of variables numbers. So, it is proposed in this work to develop a new approach in the aim to reduce the number of possible DAG in learning structure, without losing information. Obviously, reducing the number of DAG as possible will reduce the computational complexity of the process and therefore reducing the execution time, which will allow us to model grater information systems with the same quality of exploitation
APA, Harvard, Vancouver, ISO, and other styles
4

Guin, Ophélie. "Méthodes bayésiennes semi-paramétriques d'extraction et de sélection de variables dans le cadre de la dendroclimatologie." Phd thesis, Université Paris Sud - Paris XI, 2011. http://tel.archives-ouvertes.fr/tel-00636704.

Full text
Abstract:
Selon le Groupe Intergouvernemental d'experts sur l'Évolution du Climat (GIEC), il est important de connaitre le climat passé afin de replacer le changement climatique actuel dans son contexte. Ainsi, de nombreux chercheurs ont travaillé à l'établissement de procédures permettant de reconstituer les températures ou les précipitations passées à l'aide d'indicateurs climatiques indirects. Ces procédures sont généralement basées sur des méthodes statistiques mais l'estimation des incertitudes associées à ces reconstructions reste une difficulté majeure. L'objectif principal de cette thèse est donc de proposer de nouvelles méthodes statistiques permettant une estimation précise des erreurs commises, en particulier dans le cadre de reconstructions à partir de données sur les cernes d'arbres.De manière générale, les reconstructions climatiques à partir de mesures de cernes d'arbres se déroulent en deux étapes : l'estimation d'une variable cachée, commune à un ensemble de séries de mesures de cernes, et supposée climatique puis l'estimation de la relation existante entre cette variable cachée et certaines variables climatiques. Dans les deux cas, nous avons développé une nouvelle procédure basée sur des modèles bayésiens semi- paramétriques. Tout d'abord, concernant l'extraction du signal commun, nous proposons un modèle hiérarchique semi-paramétrique qui offre la possibilité de capturer les hautes et les basses fréquences contenues dans les cernes d'arbres, ce qui était difficile dans les études dendroclimatologiques passées. Ensuite, nous avons développé un modèle additif généralisé afin de modéliser le lien entre le signal extrait et certaines variables climatiques, permettant ainsi l'existence de relations non-linéaires contrairement aux méthodes classiques de la dendrochronologie. Ces nouvelles méthodes sont à chaque fois comparées aux méthodes utilisées traditionnellement par les dendrochronologues afin de comprendre ce qu'elles peuvent apporter à ces derniers.
APA, Harvard, Vancouver, ISO, and other styles
5

Mattei, Pierre-Alexandre. "Sélection de modèles parcimonieux pour l’apprentissage statistique en grande dimension." Thesis, Sorbonne Paris Cité, 2017. http://www.theses.fr/2017USPCB051/document.

Full text
Abstract:
Le déferlement numérique qui caractérise l’ère scientifique moderne a entraîné l’apparition de nouveaux types de données partageant une démesure commune : l’acquisition simultanée et rapide d’un très grand nombre de quantités observables. Qu’elles proviennent de puces ADN, de spectromètres de masse ou d’imagerie par résonance nucléaire, ces bases de données, qualifiées de données de grande dimension, sont désormais omniprésentes, tant dans le monde scientifique que technologique. Le traitement de ces données de grande dimension nécessite un renouvellement profond de l’arsenal statistique traditionnel, qui se trouve inadapté à ce nouveau cadre, notamment en raison du très grand nombre de variables impliquées. En effet, confrontée aux cas impliquant un plus grand nombre de variables que d’observations, une grande partie des techniques statistiques classiques est incapable de donner des résultats satisfaisants. Dans un premier temps, nous introduisons les problèmes statistiques inhérents aux modelés de données de grande dimension. Plusieurs solutions classiques sont détaillées et nous motivons le choix de l’approche empruntée au cours de cette thèse : le paradigme bayésien de sélection de modèles. Ce dernier fait ensuite l’objet d’une revue de littérature détaillée, en insistant sur plusieurs développements récents. Viennent ensuite trois chapitres de contributions nouvelles à la sélection de modèles en grande dimension. En premier lieu, nous présentons un nouvel algorithme pour la régression linéaire bayésienne parcimonieuse en grande dimension, dont les performances sont très bonnes, tant sur données réelles que simulées. Une nouvelle base de données de régression linéaire est également introduite : il s’agit de prédire la fréquentation du musée d’Orsay à l’aide de données vélibs. Ensuite, nous nous penchons sur le problème de la sélection de modelés pour l’analyse en composantes principales (ACP). En nous basant sur un résultat théorique nouveau, nous effectuons les premiers calculs exacts de vraisemblance marginale pour ce modelé. Cela nous permet de proposer deux nouveaux algorithmes pour l’ACP parcimonieuse, un premier, appelé GSPPCA, permettant d’effectuer de la sélection de variables, et un second, appelé NGPPCA, permettant d’estimer la dimension intrinsèque de données de grande dimension. Les performances empiriques de ces deux techniques sont extrêmement compétitives. Dans le cadre de données d’expression ADN notamment, l’approche de sélection de variables proposée permet de déceler sans supervision des ensembles de gènes particulièrement pertinents
The numerical surge that characterizes the modern scientific era led to the rise of new kinds of data united in one common immoderation: the simultaneous acquisition of a large number of measurable quantities. Whether coming from DNA microarrays, mass spectrometers, or nuclear magnetic resonance, these data, usually called high-dimensional, are now ubiquitous in scientific and technological worlds. Processing these data calls for an important renewal of the traditional statistical toolset, unfit for such frameworks that involve a large number of variables. Indeed, when the number of variables exceeds the number of observations, most traditional statistics becomes inefficient. First, we give a brief overview of the statistical issues that arise with high-dimensional data. Several popular solutions are presented, and we present some arguments in favor of the method utilized and advocated in this thesis: Bayesian model uncertainty. This chosen framework is the subject of a detailed review that insists on several recent developments. After these surveys come three original contributions to high-dimensional model selection. A new algorithm for high-dimensional sparse regression called SpinyReg is presented. It compares favorably to state-of-the-art methods on both real and synthetic data sets. A new data set for high-dimensional regression is also described: it involves predicting the number of visitors in the Orsay museum in Paris using bike-sharing data. We focus next on model selection for high-dimensional principal component analysis (PCA). Using a new theoretical result, we derive the first closed-form expression of the marginal likelihood of a PCA model. This allows us to propose two algorithms for model selection in PCA. A first one called globally sparse probabilistic PCA (GSPPCA) that allows to perform scalable variable selection, and a second one called normal-gamma probabilistic PCA (NGPPCA) that estimates the intrinsic dimensionality of a high-dimensional data set. Both methods are competitive with other popular approaches. In particular, using unlabeled DNA microarray data, GSPPCA is able to select genes that are more biologically relevant than several popular approaches
APA, Harvard, Vancouver, ISO, and other styles
6

Naveau, Marion. "Procédures de sélection de variables en grande dimension dans les modèles non-linéaires à effets mixtes. Application en amélioration des plantes." Electronic Thesis or Diss., université Paris-Saclay, 2024. http://www.theses.fr/2024UPASM031.

Full text
Abstract:
Les modèles à effets mixtes analysent des observations collectées de façon répétée sur plusieurs individus, attribuant la variabilité à différentes sources (intra-individuelle, inter-individuelle, résiduelle). Prendre en compte cette variabilité est essentiel pour caractériser sans biais les mécanismes biologiques sous-jacents. Ces modèles utilisent des covariables et des effets aléatoires pour décrire la variabilité entre individus : les covariables décrivent les différences dues à des caractéristiques observées, tandis que les effets aléatoires représentent la variabilité non attribuable aux covariables mesurées. Dans un contexte de grande dimension, où le nombre de covariables dépasse celui des individus, identifier les covariables influentes est difficile, car la sélection porte sur des variables latentes du modèle. De nombreuses procédures ont été mises au point pour les modèles linéaires à effets mixtes, mais les contributions pour les modèles non-linéaires sont rares et manquent de fondements théoriques. Cette thèse vise à développer une procédure de sélection de covariables en grande dimension pour les modèles non-linéaires à effets mixtes, en étudiant leurs implémentations pratiques et leurs propriétés théoriques. Cette procédure est basée sur l'utilisation d'un prior spike-and-slab gaussien et de l'algorithme SAEM (Stochastic Approximation of Expectation Maximisation Algorithm). Des taux de contraction a posteriori autour des vraies valeurs des paramètres dans un modèle non-linéaire à effets mixtes sous prior spike-and-slab discret ont été obtenus, comparables à ceux observés dans des modèles linéaires. Les travaux conduits dans cette thèse sont motivés par des questions appliquées en amélioration des plantes, où ces modèles décrivent le développement des plantes en fonction de leurs génotypes et des conditions environnementales. Les covariables considérées sont généralement nombreuses puisque les variétés sont caractérisées par des milliers de marqueurs génétiques, dont la plupart n'ont aucun effet sur certains traits phénotypiques. La méthode statistique développée dans la thèse est appliquée à un jeu de données réel relatif à cette application
Mixed-effects models analyze observations collected repeatedly from several individuals, attributing variability to different sources (intra-individual, inter-individual, residual). Accounting for this variability is essential to characterize the underlying biological mechanisms without biais. These models use covariates and random effects to describe variability among individuals: covariates explain differences due to observed characteristics, while random effects represent the variability not attributable to measured covariates. In high-dimensional context, where the number of covariates exceeds the number of individuals, identifying influential covariates is challenging, as selection focuses on latent variables in the model. Many procedures have been developed for linear mixed-effects models, but contributions for non-linear models are rare and lack theoretical foundations. This thesis aims to develop a high-dimensional covariate selection procedure for non-linear mixed-effects models by studying their practical implementations and theoretical properties. This procedure is based on the use of a gaussian spike-and-slab prior and the SAEM algorithm (Stochastic Approximation of Expectation Maximisation Algorithm). Posterior contraction rates around true parameter values in a non-linear mixed-effects model under a discrete spike-and-slab prior have been obtained, comparable to those observed in linear models. The work in this thesis is motivated by practical questions in plant breeding, where these models describe plant development as a function of their genotypes and environmental conditions. The considered covariates are generally numerous since varieties are characterized by thousands of genetic markers, most of which have no effect on certain phenotypic traits. The statistical method developed in the thesis is applied to a real dataset related to this application
APA, Harvard, Vancouver, ISO, and other styles
7

Prestat, Emmanuel. "Les réseaux bayésiens : classification et recherche de réseaux locaux en cancérologie." Phd thesis, Université Claude Bernard - Lyon I, 2010. http://tel.archives-ouvertes.fr/tel-00707732.

Full text
Abstract:
En cancérologie, les puces à ADN mesurant le transcriptome sont devenues un outil commun pour chercher à caractériser plus finement les pathologies, dans l'espoir de trouver au travers des expressions géniques : des mécanismes,des classes, des associations entre molécules, des réseaux d'interactions cellulaires. Ces réseaux d'interactions sont très intéressants d'un point de vue biologique car ils concentrent un grand nombre de connaissances sur le fonctionnement cellulaire. Ce travail de thèse a pour but, à partir de ces mêmes données d'expression, d'extraire des structures pouvant s'apparenter à des réseaux d'interactions génétiques. Le cadre méthodologique choisi pour appréhender cette problématique est les " Réseaux Bayésiens ", c'est-à-dire une méthode à la fois graphique et probabiliste permettant de modéliser des systèmes pourtant statiques (ici le réseau d'expression génétique) à l'aide d'indépendances conditionnelles sous forme d'un réseau. L'adaptation de cette méthode à des données dont la dimension des variables (ici l'expression des gènes, dont l'ordre de grandeur est 105) est très supérieure à la dimension des échantillons (ordre102 en cancérologie) pose des problèmes statistiques (de faux positifs et négatifs) et combinatoires (avec seulement 10gènes on a 4×1018 graphes orientés sans circuit possibles). A partir de plusieurs problématiques de cancers (leucémies et cancers du sein), ce projet propose une stratégie d'accélération de recherche de réseaux d'expression à l'aide de Réseaux Bayésiens, ainsi que des mises en œuvre de cette méthode pour classer des tumeurs, sélectionner un ensemble de gènes d'intérêt reliés à une condition biologique particulière, rechercher des réseaux locaux autour d'un gène d'intérêt.On propose parallèlement de modéliser un Réseau Bayésien à partir d'un réseau biologique connu, utile pour simuler des échantillons et tester des méthodes de reconstruction de graphes à partir de données contrôlées.
APA, Harvard, Vancouver, ISO, and other styles
8

Jebreen, Kamel. "Modèles graphiques pour la classification et les séries temporelles." Thesis, Aix-Marseille, 2017. http://www.theses.fr/2017AIXM0248/document.

Full text
Abstract:
Dans cette thèse nous nous intéressons aux méthodes de classifications supervisées utilisant les réseaux bayésiens. L'avantage majeur de ces méthodes est qu'elles peuvent prendre en compte les interactions entre les variables explicatives. Dans une première partie nous proposons une procédure de discrétisation spécifique et une procédure de sélection de variables qui permettent d'améliorer considérablement les classifieurs basés sur des réseaux bayésiens. Cette procédure a montré de très bonnes performances empiriques sur un grand choix de jeux de données connus de l’entrepôt d'apprentissage automatique (UCI Machine Learning repository). Une application pour la prévision de type d’épilepsie à partir de de caractéristiques des patients extraites des images de Tomographie par émission de positrons (TEP) confirme l’efficacité de notre approche comparé à des approches communes de classifications supervisées. Dans la deuxième partie de cette thèse nous nous intéressons à la modélisation des interactions entre des variables dans le contexte de séries chronologiques en grande dimension. Nous avons proposé deux nouvelles approches. La première, similaire à la technique "neighborhood Lasso" remplace la technique Lasso par des machines à vecteurs de supports. La deuxième approche est un réseau bayésien restreint: les variables observées à chaque instant et à l’instant précédent sont utilisées dans un réseau dont la structure est restreinte. Nous montrons l’efficacité de ces approches par des simulations utilisant des donnés simulées issues de modèles linéaires, non-linéaires et un mélange des deux
First, in this dissertation, we will show that Bayesian networks classifiers are very accurate models when compared to other classical machine learning methods. Discretising input variables often increase the performance of Bayesian networks classifiers, as does a feature selection procedure. Different types of Bayesian networks may be used for supervised classification. We combine such approaches together with feature selection and discretisation to show that such a combination gives rise to powerful classifiers. A large choice of data sets from the UCI machine learning repository are used in our experiments, and the application to Epilepsy type prediction based on PET scan data confirms the efficiency of our approach. Second, in this dissertation we also consider modelling interaction between a set of variables in the context of time series and high dimension. We suggest two approaches; the first is similar to the neighbourhood lasso where the lasso model is replaced by Support Vector Machines (SVMs); the second is a restricted Bayesian network for time series. We demonstrate the efficiency of our approaches simulations using linear and nonlinear data set and a mixture of both
APA, Harvard, Vancouver, ISO, and other styles
9

Dangauthier, Pierre-Charles. "Fondations, méthode et applications de l'apprentissage bayésien." Phd thesis, Grenoble INPG, 2007. http://tel.archives-ouvertes.fr/tel-00267643.

Full text
Abstract:
Le domaine de l'apprentissage automatique a pour but la création d'agents synthétiques améliorant leurs performances avec l'expérience. Pour pouvoir se perfectionner, ces agents extraient des régularités statistiques de données incertaines et mettent à jour leur modèle du monde. Les probabilités bayésiennes sont un outil rationnel pour répondre à la problématique de l'apprentissage. Cependant, comme ce problème est souvent difficile, des solutions proposant un compromis entre précision et rapidité doivent être mises en oeuvre. Ce travail présente la méthode d'apprentissage bayésien, ses fondations philosophiques et plusieurs applications innovantes. Nous nous intéressons d'abord à des questions d'apprentissage de paramètres. Dans ce cadre nous étudions deux problèmes d'analyse de données à variables cachées. Nous proposons d'abord une méthode bayésienne pour classer les joueurs d'échecs qui améliore sensiblement le système Elo. Le classement produit permet de répondre à des questions intéressantes comme celle de savoir qui fut le meilleur joueur d'échecs de tous les temps. Nous étudions aussi un système de filtrage collaboratif dont le but est de prévoir les goûts cinématographiques d'utilisateurs en fonction de leurs préférences passées. La deuxième partie de notre travail concerne l'apprentissage de modèles. D'abord nous nous intéressons à la sélection de variables pertinentes dans le cadre d'une application robotique. D'un point de vue cognitif, cette sélection permet au robot de transférer ses connaissances d'un domaine sensorimoteur vers un autre. Finalement, nous proposons une méthode permettant de découvrir automatiquement une nouvelle variable cachée afin de mieux modéliser l'environnement d'un robot.
APA, Harvard, Vancouver, ISO, and other styles
10

Bedenel, Anne-Lise. "Appariement de descripteurs évoluant dans le temps : application à la comparaison d'assurance." Thesis, Lille 1, 2019. http://www.theses.fr/2019LIL1I011/document.

Full text
Abstract:
La plupart des méthodes d'apprentissage standards nécessitent des descripteurs de données identiques pour les échantillons d'apprentissage et de test. Or, dans le domaine de la comparaison d'assurances en ligne, les formulaires et variables d'où proviennent les données sont régulièrement modifiés, amenant à travailler avec une faible quantité de données. L'objectif est donc d'utiliser les données obtenues avant la modification de la variable pour augmenter la taille des échantillons observés après la modification. Nous proposons d'effectuer un transfert de connaissances entre les données observées avant et après la modification. Une modélisation de la loi jointe de la variable avant et après la modification est proposée. Le problème revient donc à un problème d’estimation dans un graphe où l’identifiabilité du modèle est assurée par des contraintes métiers et techniques, amenant à travailler avec un ensemble réduit de modèles très parcimonieux. Les liens entre les descripteurs avant et après la modification sont totalement inconnus, impliquant des données manquantes. Deux méthodes d’estimation des paramètres, reposant sur des algorithmes EM sont proposées. Une étape de sélection de modèle est ensuite effectuée par un critère asymptotique et un critère non asymptotique reposant sur l’analyse bayésienne, incluant une stratégie d’échantillonnage préférentiel combinée à un algorithme de Gibbs. Une recherche exhaustive et une recherche non-exhaustive, basée sur un algorithme génétique et combinant l’estimation et la sélection de modèles, sont comparés pour obtenir le meilleur compromis "résultats-temps de calcul". Une application sur des données réelles termine la thèse
Most of the classical learning methods require data descriptors equal to both learning and test samples. But, in the online insurance comparison field, forms and features where data come from are often changed. These constant modifications of data descriptors lead us to work with the small amount of data and make analysis more complex. So, the goal is to use data generated before the feature descriptors modification. By doing so, we increase the size of the observed sample after the descriptors modification. We intend to perform a learning transfer between observed data before and after features modification. The links between data descriptors of the feature before and after the modification are totally unknown which bring a problem of missing data. A modelling of the joint distribution of the feature before and after the modification of the data descriptors has been suggested. The problem becomes an estimation problem in a graph where some business and technical constraints ensure the identifiability of the model and we have to work with a reduced set of very parsimonious models. Two methods of estimation rely on EM algorithms have been intended. The constraints set lead us to work with a set of models. A model selection step is required. For this step, two criterium are proposed: an asymptotic and a non-asymptotic criterium rely on Bayesian analysis which includes an importance sampling combined with Gibbs algorithm. An exhaustive search and a non-exhaustive search based on genetic algorithm, combining both estimation and selection, are suggested to have an optimal method for both results and execution time. This thesis finishes with an application on real data
APA, Harvard, Vancouver, ISO, and other styles

Books on the topic "Sélection de variables bayésienne"

1

Handbook of Bayesian Variable Selection. Taylor & Francis Group, 2021.

Find full text
APA, Harvard, Vancouver, ISO, and other styles
2

Vannucci, Marina, and Mahlet Tadesse. Handbook of Bayesian Variable Selection. Taylor & Francis Group, 2021.

Find full text
APA, Harvard, Vancouver, ISO, and other styles
3

Vannucci, Marina, and Mahlet Tadesse. Handbook of Bayesian Variable Selection. CRC Press LLC, 2021.

Find full text
APA, Harvard, Vancouver, ISO, and other styles
4

Vannucci, Marina, and Mahlet Tadesse. Handbook of Bayesian Variable Selection. Taylor & Francis Group, 2021.

Find full text
APA, Harvard, Vancouver, ISO, and other styles
5

Vannucci, Marina, and Mahlet G. Tadesse. Handbook of Bayesian Variable Selection. Taylor & Francis Group, 2021.

Find full text
APA, Harvard, Vancouver, ISO, and other styles

Book chapters on the topic "Sélection de variables bayésienne"

1

BYSTROVA, Daria, Giovanni POGGIATO, Julyan ARBEL, and Wilfried THUILLER. "Réduction de la dimension dans les modèles de distributions jointes d’espèces." In Approches statistiques pour les variables cachées en écologie, 151–74. ISTE Group, 2022. http://dx.doi.org/10.51926/iste.9047.ch7.

Full text
Abstract:
Nous présentons les modèles à facteurs latents dans le contexte des modèles de distribution joints d'espèces (JSDM), en soulignant leur utilité en écologie des communautés. Ces modèles permettent de faire face à la grande dimension des données d'observation dans l'espace et le temps, et qui limitent l'application des JSDMs. L'inférence se fait selon une approche bayésienne et est illustrée sur des données d'espèces végétales.
APA, Harvard, Vancouver, ISO, and other styles
2

LÉVY-LEDUC, Céline, Marie PERROT-DOCKÈS, Gwendal CUEFF, and Loïc RAJJOU. "Sélection de variables dans le modèle linéaire général : application à des approches multiomiques pour étudier la qualité des graines." In Intégration de données biologiques, 101–28. ISTE Group, 2022. http://dx.doi.org/10.51926/iste.9030.ch4.

Full text
Abstract:
Nous proposons dans ce chapitre une nouvelle méthode de sélection de variables dans le modèle linéaire général tenant compte de la dépendance pouvant exister entre les colonnes de la matrice d’observations afin de l’appliquer à des données “-omiques” qui sont caractérisées par la présence d’une forte structure de dépendance. L’implémentation de la méthode est disponible dans le package R MultiVarSel.
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography