Tesis sobre el tema "Régressions pénalisées"

Siga este enlace para ver otros tipos de publicaciones sobre el tema: Régressions pénalisées.

Crea una cita precisa en los estilos APA, MLA, Chicago, Harvard y otros

Elija tipo de fuente:

Consulte los 19 mejores tesis para su investigación sobre el tema "Régressions pénalisées".

Junto a cada fuente en la lista de referencias hay un botón "Agregar a la bibliografía". Pulsa este botón, y generaremos automáticamente la referencia bibliográfica para la obra elegida en el estilo de cita que necesites: APA, MLA, Harvard, Vancouver, Chicago, etc.

También puede descargar el texto completo de la publicación académica en formato pdf y leer en línea su resumen siempre que esté disponible en los metadatos.

Explore tesis sobre una amplia variedad de disciplinas y organice su bibliografía correctamente.

1

Gnanguenon, guesse Girault. "Modélisation et visualisation des liens entre cinétiques de variables agro-environnementales et qualité des produits dans une approche parcimonieuse et structurée". Electronic Thesis or Diss., Montpellier, 2021. http://www.theses.fr/2021MONTS139.

Texto completo
Resumen
L'essor de l'agriculture numérique permet de plus en plus d'observer de manière automatisée et parfois à haute fréquence des dynamiques d'élaboration de la production et de sa qualité en fonction du climat. Les données issues de ces observations dynamiques peuvent être considérées comme des données fonctionnelles. Analyser ce nouveau type de données nécessite d'étendre les outils statistiques usuels au cas fonctionnel ou d'en proposer de nouveaux.Nous avons proposé dans cette thèse une nouvelle approche (SpiceFP: Sparse and Structured Procedure to Identify Combined Effects of Functional Predictors) permettant d'expliquer les variations d'une variable réponse scalaire par deux ou trois prédicteurs fonctionnels dans un contexte d'influence conjointe de ces derniers. Une attention particulière a été apportée à l'interprétabilité des résultats via l'utilisation de classes d'intervalles combinées définissant une partition du domaine d'observation des facteurs explicatifs. Les développements récents autour des modèles LASSO (Least Absolute Shrinkage and Selection Operator) ont été adaptés pour estimer les régions d'influence dans la partition via une régression pénalisée généralisée. L'approche intègre aussi une double sélection, de modèles (parmi les partitions possibles) et de variables (pour une partition donnée) à partir des critères d'information AIC et BIC. La présentation méthodologique de l'approche, son étude grâce à des simulations ainsi qu'une étude de cas basée sur des données réelles ont été présentés dans le chapitre 2.Les données réelles utilisées au cours de cette thèse proviennent d'une expérimentation viticole visant à mieux comprendre l'impact du changement climatique sur l'accumulation d'anthocyanes dans les baies. L'analyse de ces données dans le chapitre 3 à l'aide de l'approche SpiceFP que nous avons étendue a permis d'identifier un impact négatif des combinaisons matinales de faible irradiance (inférieure à environ 100 µmol/s/m2 ou 45 µmol/s/m2 selon l'état avancé-retardé des baies) et température élevée (supérieure à environ 25°C). Une légère différence induite par la température de la nuit a été observée entre ces effets identifiés en matinée.Dans le chapitre 4 de cette thèse, nous proposons une implémentation de l'approche proposée sous la forme d'un package R. Cette implémentation fournit un ensemble de fonctions permettant de construire les intervalles de classes suivant des échelles linéaire ou logarithmique, de transformer les prédicteurs fonctionnels grâces aux classes d'intervalles combinées puis de mettre en oeuvre l'approche en deux ou trois dimensions. D'autres fonctions facilitent la réalisation de post-traitements ou permettent à l'utilisateur de s'intéresser à d'autres modèles que ceux retenus par l'approche comme par exemple une moyenne de différents modèles.Mots clés: Régressions pénalisées, Interaction, critères d'information, scalar-on-function, coefficients interprétables, microclimat de la vigne
The development of digital agriculture allows to observe at high frequency the dynamics of production according to the climate. Data from these dynamic observations can be considered as functional data. To analyze this new type of data, it is necessary to extend the usual statistical tools to the functional case or develop new ones.In this thesis, we have proposed a new approach (SpiceFP: Sparse and Structured Procedure to Identify Combined Effects of Functional Predictors) to explain the variations of a scalar response variable by two or three functional predictors in a context of joint influence of these predictors. Particular attention was paid to the interpretability of the results through the use of combined interval classes defining a partition of the observation domain of the explanatory factors. Recent developments around LASSO (Least Absolute Shrinkage and Selection Operator) models have been adapted to estimate the areas of influence in the partition via a generalized penalized regression. The approach also integrates a double selection, of models (among the possible partitions) and of variables (areas inside a given partition) based on AIC and BIC information criteria. The methodological description of the approach, its study through simulations as well as a case study based on real data have been presented in chapter 2 of this thesis.The real data used in this thesis were obtained from a vineyard experiment aimed at understanding the impact of climate change on anthcyanins accumulation in berries. Analysis of these data in chapter 3 using SpiceFP and one extension identified a negative impact of morning combinations of low irradiance (lower than about 100 µmol/s/m2 or 45 µmol/s/m2 depending on the advanced-delayed state of the berries) and high temperature (higher than about 25°C). A slight difference associated with overnight temperature occurred between these effects identified in the morning.In chapter 4 of this thesis, we propose an implementation of the proposed approach as an R package. This implementation provides a set of functions allowing to build the class intervals according to linear or logarithmic scales, to transform the functional predictors using the joint class intervals and finally to execute the approach in two or three dimensions. Other functions help to perform post-processing or allow the user to explore other models than those selected by the approach, such as an average of different models.Keywords: Penalized regressions, Interaction, information criteria, scalar-on-function, interpretable coefficients,grapevine microclimate
Los estilos APA, Harvard, Vancouver, ISO, etc.
2

Mansiaux, Yohann. "Analyse d'un grand jeu de données en épidémiologie : problématiques et perspectives méthodologiques". Thesis, Paris 6, 2014. http://www.theses.fr/2014PA066272/document.

Texto completo
Resumen
L'augmentation de la taille des jeux de données est une problématique croissante en épidémiologie. La cohorte CoPanFlu-France (1450 sujets), proposant une étude du risque d'infection par la grippe H1N1pdm comme une combinaison de facteurs très divers en est un exemple. Les méthodes statistiques usuelles (e.g. les régressions) pour explorer des associations sont limitées dans ce contexte. Nous comparons l'apport de méthodes exploratoires data-driven à celui de méthodes hypothesis-driven.Une première approche data-driven a été utilisée, évaluant la capacité à détecter des facteurs de l'infection de deux méthodes de data mining, les forêts aléatoires et les arbres de régression boostés, de la méthodologie " régressions univariées/régression multivariée" et de la régression logistique LASSO, effectuant une sélection des variables importantes. Une approche par simulation a permis d'évaluer les taux de vrais et de faux positifs de ces méthodes. Nous avons ensuite réalisé une étude causale hypothesis-driven du risque d'infection, avec un modèle d'équations structurelles (SEM) à variables latentes, pour étudier des facteurs très divers, leur impact relatif sur l'infection ainsi que leurs relations éventuelles. Cette thèse montre la nécessité de considérer de nouvelles approches statistiques pour l'analyse des grands jeux de données en épidémiologie. Le data mining et le LASSO sont des alternatives crédibles aux outils conventionnels pour la recherche d'associations. Les SEM permettent l'intégration de variables décrivant différentes dimensions et la modélisation explicite de leurs relations, et sont dès lors d'un intérêt majeur dans une étude multidisciplinaire comme CoPanFlu
The increasing size of datasets is a growing issue in epidemiology. The CoPanFlu-France cohort(1450 subjects), intended to study H1N1 pandemic influenza infection risk as a combination of biolo-gical, environmental, socio-demographic and behavioral factors, and in which hundreds of covariatesare collected for each patient, is a good example. The statistical methods usually employed to exploreassociations have many limits in this context. We compare the contribution of data-driven exploratorymethods, assuming the absence of a priori hypotheses, to hypothesis-driven methods, requiring thedevelopment of preliminary hypotheses.Firstly a data-driven study is presented, assessing the ability to detect influenza infection determi-nants of two data mining methods, the random forests (RF) and the boosted regression trees (BRT), ofthe conventional logistic regression framework (Univariate Followed by Multivariate Logistic Regres-sion - UFMLR) and of the Least Absolute Shrinkage and Selection Operator (LASSO), with penaltyin multivariate logistic regression to achieve a sparse selection of covariates. A simulation approachwas used to estimate the True (TPR) and False (FPR) Positive Rates associated with these methods.Between three and twenty-four determinants of infection were identified, the pre-epidemic antibodytiter being the unique covariate selected with all methods. The mean TPR were the highest for RF(85%) and BRT (80%), followed by the LASSO (up to 78%), while the UFMLR methodology wasinefficient (below 50%). A slight increase of alpha risk (mean FPR up to 9%) was observed for logisticregression-based models, LASSO included, while the mean FPR was 4% for the data-mining methods.Secondly, we propose a hypothesis-driven causal analysis of the infection risk, with a structural-equation model (SEM). We exploited the SEM specificity of modeling latent variables to study verydiverse factors, their relative impact on the infection, as well as their eventual relationships. Only thelatent variables describing host susceptibility (modeled by the pre-epidemic antibody titer) and com-pliance with preventive behaviors were directly associated with infection. The behavioral factors des-cribing risk perception and preventive measures perception positively influenced compliance with pre-ventive behaviors. The intensity (number and duration) of social contacts was not associated with theinfection.This thesis shows the necessity of considering novel statistical approaches for the analysis of largedatasets in epidemiology. Data mining and LASSO are credible alternatives to the tools generally usedto explore associations with a high number of variables. SEM allows the integration of variables des-cribing diverse dimensions and the explicit modeling of their relationships ; these models are thereforeof major interest in a multidisciplinary study as CoPanFlu
Los estilos APA, Harvard, Vancouver, ISO, etc.
3

Detais, Amélie. "Maximum de vraisemblance et moindre carrés pénalisés dans des modèles de durée de vie censurées". Toulouse 3, 2008. http://thesesups.ups-tlse.fr/820/.

Texto completo
Resumen
L'analyse de durées de vie censurées est utilisée dans des domaines d'application variés et différentes possibilités ont été proposées pour la modélisation de telles données. Nous nous intéressons dans cette thèse à deux types de modélisation différents, le modèle de Cox stratifié avec indicateurs de strates aléatoirement manquants et le modèle de régression linéaire censuré à droite. Nous proposons des méthodes d'estimation des paramètres et établissons les propriétés asymptotiques des estimateurs obtenus dans chacun de ces modèles. Dans un premier temps, nous considérons une généralisation du modèle de Cox qui permet à différents groupes de la population, appelés strates, de posséder des fonctions d'intensité de base différentes tandis que la valeur du paramètre de régression est commune. Dans ce modèle à intensité proportionnelle stratifié, nous nous intéressons à l'estimation des paramètres lorsque l'indicateur de strate est manquant pour certains individus de la population. Des estimateurs du maximum de vraisemblance non paramétrique pour les paramètres du modèle sont proposés et nous montrons leurs consistance et normalité asymptotique. L'efficacité du paramètre de régression est établie et des estimateurs consistants de sa variance asymptotique sont également obtenus. Pour l'évaluation des estimateurs du modèle, nous proposons l'utilisation de l'algorithme Espérance-Maximisation et le développons dans ce cas particulier. Dans un second temps, nous nous intéressons au modèle de régression linéaire lorsque la donnée réponse est censurée aléatoirement à droite. Nous introduisons un nouvel estimateur du paramètre de régression minimisant un critère des moindres carrés pénalisé et pondéré par des poids de Kaplan-Meier. Des résultats de consistance et normalité asymptotique sont obtenus et une étude de simulations est effectuée pour illustrer les propriétés de cet estimateur de type LASSO. La méthode bootstrap est utilisée pour l'estimation de la variance asymptotique
Life data analysis is used in various application fields. Different methods have been proposed for modelling such data. In this thesis, we are interested in two distinct modelisation types, the stratified Cox model with randomly missing strata indicators and the right-censored linear regression model. We propose methods for estimating the parameters and establish the asymptotic properties of the obtained estimators in each of these models. First, we consider a generalization of the Cox model, allowing different groups, named strata, of the population to have distinct baseline intensity functions, whereas the regression parameter is shared by all the strata. In this stratified proportional intensity model, we are interested in the parameters estimation when the strata indicator is missing for some of the population individuals. Nonparametric maximum likelihood estimators are proposed for the model parameters and their consistency and asymptotic normality are established. We show the efficiency of the regression parameter and obtain consistent estimators of its variance. The Expectation-Maximization algorithm is proposed and developed for the evaluation of the estimators of the model parameters. Second, we are interested in the regression linear model when the response data is randomly right-censored. We introduce a new estimator of the regression parameter, which minimizes a Kaplan-Meier-weighted penalized least squares criterion. Results of consistency and asymptotic normality are obtained and a simulation study is conducted in order to investigate the small sample properties of this LASSO-type estimator. The bootstrap method is used for the estimation of the asymptotic variance
Los estilos APA, Harvard, Vancouver, ISO, etc.
4

Soret, Perrine. "Régression pénalisée de type Lasso pour l’analyse de données biologiques de grande dimension : application à la charge virale du VIH censurée par une limite de quantification et aux données compositionnelles du microbiote". Thesis, Bordeaux, 2019. http://www.theses.fr/2019BORD0254.

Texto completo
Resumen
Dans les études cliniques et grâce aux progrès technologiques, la quantité d’informations recueillies chez un même patient ne cesse de croître conduisant à des situations où le nombre de variables explicatives est plus important que le nombre d’individus. La méthode Lasso s'est montrée appropriée face aux problèmes de sur-ajustement rencontrés en grande dimension.Cette thèse est consacrée à l'application et au développement des régressions pénalisées de type Lasso pour des données cliniques présentant des structures particulières.Premièrement, chez des patients atteints du virus de l'immunodéficience humaine des mutations dans les gènes du virus peuvent être liées au développement de résistances à tel ou tel traitement.La prédiction de la charge virale à partir des mutations (potentiellement grand) permet d'orienter le choix des traitements.En dessous d'un seuil, la charge virale est indétectable, on parle de données censurées à gauche.Nous proposons deux nouvelles approches Lasso basées sur l'algorithme Buckley-James consistant à imputer les valeurs censurées par une espérance conditionnelle. En inversant la réponse, on peut se ramener à un problème de censure à droite, pour laquelle des estimations non-paramétriques de l'espérance conditionnelle ont été proposées en analyse de survie. Enfin, nous proposons une estimation paramétrique qui repose sur une hypothèse Gaussienne.Deuxièmement, nous nous intéressons au rôle du microbiote dans la détérioration de la santé respiratoire. Les données du microbiote sont sous forme d'abondances relatives (proportion de chaque espèce par individu, dites données compositionnelles) et elles présentent une structure phylogénétique.Nous avons dressé un état de l'art des méthodes d'analyses statistiques de données du microbiote. En raison de la nouveauté, peu de recommandations existent sur l'applicabilité et l'efficacité des méthodes proposées. Une étude de simulation nous a permis de comparer la capacité de sélection des méthodes de pénalisation proposées spécifiquement pour ce type de données.Puis nous appliquons ces recherches à l'analyse de l'association entre les bactéries/champignons et le déclin de la fonction pulmonaire chez des patients atteints de la mucoviscidose du projet MucoFong
In clinical studies and thanks to technological progress, the amount of information collected in the same patient continues to grow leading to situations where the number of explanatory variables is greater than the number of individuals. The Lasso method proved to be appropriate to circumvent over-adjustment problems in high-dimensional settings.This thesis is devoted to the application and development of Lasso-penalized regression for clinical data presenting particular structures.First, in patients with the human immunodeficiency virus, mutations in the virus's genetic structure may be related to the development of drug resistance. The prediction of the viral load from (potentially large) mutations allows guiding treatment choice.Below a threshold, the viral load is undetectable, data are left-censored. We propose two new Lasso approaches based on the Buckley-James algorithm, which imputes censored values ​​by a conditional expectation. By reversing the response, we obtain a right-censored problem, for which non-parametric estimates of the conditional expectation have been proposed in survival analysis. Finally, we propose a parametric estimation based on a Gaussian hypothesis.Secondly, we are interested in the role of the microbiota in the deterioration of respiratory health. The microbiota data are presented as relative abundances (proportion of each species per individual, called compositional data) and they have a phylogenetic structure.We have established a state of the art methods of statistical analysis of microbiota data. Due to the novelty, few recommendations exist on the applicability and effectiveness of the proposed methods. A simulation study allowed us to compare the selection capacity of penalization methods proposed specifically for this type of data.Then we apply this research to the analysis of the association between bacteria / fungi and the decline of pulmonary function in patients with cystic fibrosis from the MucoFong project
Los estilos APA, Harvard, Vancouver, ISO, etc.
5

Sorba, Olivier. "Pénalités minimales pour la sélection de modèle". Thesis, Université Paris-Saclay (ComUE), 2017. http://www.theses.fr/2017SACLS043/document.

Texto completo
Resumen
Dans le cadre de la sélection de modèle par contraste pénalisé, L. Birgé and P. Massart ont prouvé que le phénomène de pénalité minimale se produit pour la sélection libre parmi des variables gaussiennes indépendantes. Nous étendons certains de leurs résultats à la partition d'un signal gaussien lorsque la famille de partitions envisagées est suffisamment riche, notamment dans le cas des arbres de régression. Nous montrons que le même phénomène se produit dans le cadre de l'estimation de densité. La richesse de la famille de modèle s'apparente à une forme d'isotropie. De ce point de vue le phénomène de pénalité minimale est intrinsèque. Pour corroborer et illustrer ce point de vue, nous montrons que le même phénomène se produit pour une famille de modèles d'orientation aléatoire uniforme
L. Birgé and P. Massart proved that the minimum penalty phenomenon occurs in Gaussian model selection when the model family arises from complete variable selection among independent variables. We extend some of their results to discrete Gaussian signal segmentation when the model family corresponds to a sufficiently rich family of partitions of the signal's support. This is the case of regression trees. We show that the same phenomenon occurs in the context of density estimation. The richness of the model family can be related to a certain form of isotropy. In this respect the minimum penalty phenomenon is intrinsic. To corroborate this point of view, we show that the minimum penalty phenomenon occurs when the models are chosen randomly under an isotropic law
Los estilos APA, Harvard, Vancouver, ISO, etc.
6

Gannaz, Irène. "Estimation par ondelettes dans les modèles partiellement linéaires". Phd thesis, Grenoble 1, 2007. http://www.theses.fr/2007GRE10281.

Texto completo
Resumen
L'objet de cette thèse est d'apporter une contribution à l'inférence dans les modèles partiellement linéaires en appliquant des méthodes d'estimation adaptative par ondelettes. Ces modèles de régression semi-paramétriques distinguent des relations linéaires et des relations fonctionnelles, non paramétriques. L'inférence statistique consiste à estimer conjointement les deux types de prédicteurs, en prenant en compte leur possible corrélation. Une procédure des moindres carrés pénalisés permet d'introduire une estimation par ondelettes avec seuillage des coefficients de la partie fonctionnelle. Un parallèle est établi avec une estimation du paramètre de régression par des M-estimateurs usuels dans un modèle linéaire, les coefficients d'ondelettes de la partie fonctionnelle étant considérés comme des valeurs aberrantes. Une procédure d'estimation de la variance du bruit est aussi proposée. Des résultats relatifs aux propriétés asymptotiques des estimateurs de la partie linéaire et de la partie non paramétrique sont démontrés lorsque les observations de la partie fonctionnelle sont réalisées en des points équidistants. Sous des restrictions usuelles de corrélation entre les variables explicatives, les résultats sont presque optimaux (à un logarithme près). Des simulations permettent d'illustrer les comportements des estimateurs et de les comparer avec d'autres méthodes existantes. Une application sur des données d'IRM fonctionnelle a aussi été réalisée. Une dernière partie envisage le cadre d'un plan d'observation aléatoire de la partie fonctionnelle
This dissertation is concerned with the use of wavelet methods in semiparametric partially linear models. These models are composed by a linear component with unknown regression coefficients and an unknown nonparametric function. The aim is to estimate both of the predictors, possibly under the presence of correlation. A wavelet thresholding based procedure is built to estimate the nonparametric part of the model using a penalized least squares criterion. We establish a connection between different thresholding schemes and M-estimators in linear models with outliers, where the wavelet coefficients of the nonparametric part of the model are considered as outliers. We also propose an estimate for the noise variance. Some asymptotic results of the estimates of both the parametric and the nonparametric part are given. Their behavior is close to optimality, up to a logarithmic factor, under usual restrictions for the correlation between variables. Simulations illustrate the properties of the proposed methodology and compare it with existing methods. An application to real data from functional IRM is also presented. The last part of this work deals with the extension to nonequidistant observations for the nonparametric part, comparing in particular via simulations nonparametric estimation procedures
Los estilos APA, Harvard, Vancouver, ISO, etc.
7

Moumouni, Kairou. "Etude et conception d'un modèle mixte semiparamétrique stochastique pour l'analyse des données longitudinales environnementales". Phd thesis, Université Rennes 2, 2005. http://tel.archives-ouvertes.fr/tel-00012164.

Texto completo
Resumen
Cette thèse porte sur la recherche d'un modèle statistique adapté à l'analyse de données longitudinales rencontrées dans le domaine environnemental. L'approche générale est basée sur le modèle linéaire mixte stochastique. Nous proposons une extension de ce modèle par l'utilisation des techniques sémiparamétriques, en particulier les splines cubiques pénalisées. Des méthodes d'estimation adaptées au modèle mixte sémiparamétrique stochastique sont proposées. Des simulations sont ensuite effectuées pour l'évaluation des performances des estimateurs construits.
Dans une deuxième partie, une extension de la méthode d'influence locale de Cook au modèle mixte modifié est proposée, elle fournit une analyse de sensibilité permettant de détecter les effets de certaines perturbations sur les composantes structurelles du modèle. Quelques propriétés asymptotiques de la matrice d'influence locale sont exhibées.
Enfin, le modèle proposé est appliqué à deux jeux de données réelles : une analyse des données de concentrations de nitrates issues de différentes stations de mesures d'un bassin versant, puis une analyse de la pollution bactériologiques d'eaux de baignades.
Los estilos APA, Harvard, Vancouver, ISO, etc.
8

Gannaz, Irène. "Estimation par ondelettes dans les modèles partiellement linéaires". Phd thesis, Université Joseph Fourier (Grenoble), 2007. http://tel.archives-ouvertes.fr/tel-00197146.

Texto completo
Resumen
L'objet de cette thèse est d'apporter une contribution à l'inférence dans les modèles partiellement linéaires en appliquant des méthodes d'estimation adaptative par ondelettes. Ces modèles de régression semi-paramétriques distinguent des relations linéaires et des relations fonctionnelles, non paramétriques. L'inférence statistique consiste à estimer conjointement les deux types de prédicteurs, en prenant en compte leur possible corrélation. Une procédure des moindres carrés pénalisés permet d'introduire une estimation par ondelettes avec seuillage des coefficients de la partie fonctionnelle. Un parallèle est établi avec une estimation du paramètre de régression par des M-estimateurs usuels dans un modèle linéaire, les coefficients d'ondelettes de la partie fonctionnelle étant considérés comme des valeurs aberrantes. Une procédure d'estimation de la variance du bruit est aussi proposée. Des résultats relatifs aux propriétés asymptotiques des estimateurs de la partie linéaire et de la partie non paramétrique sont démontrés lorsque les observations de la partie fonctionnelle sont réalisées en des points équidistants. Sous des restrictions usuelles de corrélation entre les variables explicatives, les résultats sont presque optimaux (à un logarithme près). Des simulations permettent d'illustrer les comportements des estimateurs et de les comparer avec d'autres méthodes existantes. Une application sur des données d'IRM fonctionnelle a aussi été réalisée. Une dernière partie envisage le cadre d'un plan d'observation aléatoire de la partie fonctionnelle.
Los estilos APA, Harvard, Vancouver, ISO, etc.
9

Nguyen, Thi Le Thu. "Sequential Monte-Carlo sampler for Bayesian inference in complex systems". Thesis, Lille 1, 2014. http://www.theses.fr/2014LIL10058/document.

Texto completo
Resumen
Dans de nombreux problèmes, des modèles complexes non-Gaussiens et/ou non-linéaires sont nécessaires pour décrire précisément le système physique étudié. Dans ce contexte, les algorithmes de Monte-Carlo sont des outils flexibles et puissants permettant de résoudre de tels problèmes d’inférence. Toutefois, en présence de loi a posteriori multimodale et/ou de grande dimension, les méthodes classiques de Monte-Carlo peuvent conduire à des résultats non satisfaisants. Dans cette thèse, nous étudions une approche plus robuste et efficace: échantillonneur séquentiel de Monte-Carlo. Bien que cette approche présente de nombreux avantages par rapport aux méthodes traditionnelles de Monte-Carlo, le potentiel de cette technique est cependant très largement sous-exploité en traitement du signal. L’objectif de cette thèse est donc de proposer de nouvelles stratégies permettant d’améliorer l’efficacité de cet algorithme et ensuite de faciliter sa mise en œuvre pratique. Pour ce faire, nous proposons une approche adaptive qui sélectionne la séquence de distributions minimisant la variance asymptotique de l'estimateur de la constante de normalisation de la loi a posteriori. Deuxièmement, nous proposons un mécanisme de correction qui permet d’améliorer l’efficacité globale de la méthode en utilisant toutes les particules générées à travers toutes les itérations de l’algorithme (au lieu d’uniquement celles de la dernière itération). Enfin pour illustrer l’utilité de cette approche ainsi que des stratégies proposées, nous utilisons cet algorithme dans deux problèmes complexes: la localisation de sources multiples dans les réseaux de capteurs et la régression Bayésienne pénalisée
In many problems, complex non-Gaussian and/or nonlinear models are required to accurately describe a physical system of interest. In such cases, Monte Carlo algorithms are remarkably flexible and extremely powerful to solve such inference problems. However, in the presence of high-dimensional and/or multimodal posterior distribution, standard Monte-Carlo techniques could lead to poor performance. In this thesis, the study is focused on Sequential Monte-Carlo Sampler, a more robust and efficient Monte Carlo algorithm. Although this approach presents many advantages over traditional Monte-Carlo methods, the potential of this emergent technique is however largely underexploited in signal processing. In this thesis, we therefore focus our study on this technique by aiming at proposing some novel strategies that will improve the efficiency and facilitate practical implementation of the SMC sampler. Firstly, we propose an automatic and adaptive strategy that selects the sequence of distributions within the SMC sampler that approximately minimizes the asymptotic variance of the estimator of the posterior normalization constant. Secondly, we present an original contribution in order to improve the global efficiency of the SMC sampler by introducing some correction mechanisms that allow the use of the particles generated through all the iterations of the algorithm (instead of only particles from the last iteration). Finally, to illustrate the usefulness of such approaches, we apply the SMC sampler integrating our proposed improvement strategies to two challenging practical problems: Multiple source localization in wireless sensor networks and Bayesian penalized regression
Los estilos APA, Harvard, Vancouver, ISO, etc.
10

Ternes, Nils. "Identification de biomarqueurs prédictifs de la survie et de l'effet du traitement dans un contexte de données de grande dimension". Thesis, Université Paris-Saclay (ComUE), 2016. http://www.theses.fr/2016SACLS278/document.

Texto completo
Resumen
Avec la révolution récente de la génomique et la médecine stratifiée, le développement de signatures moléculaires devient de plus en plus important pour prédire le pronostic (biomarqueurs pronostiques) ou l’effet d’un traitement (biomarqueurs prédictifs) de chaque patient. Cependant, la grande quantité d’information disponible rend la découverte de faux positifs de plus en plus fréquente dans la recherche biomédicale. La présence de données de grande dimension (nombre de biomarqueurs ≫ taille d’échantillon) soulève de nombreux défis statistiques tels que la non-identifiabilité des modèles, l’instabilité des biomarqueurs sélectionnés ou encore la multiplicité des tests.L’objectif de cette thèse a été de proposer et d’évaluer des méthodes statistiques pour l’identification de ces biomarqueurs et l’élaboration d’une prédiction individuelle des probabilités de survie pour des nouveaux patients à partir d’un modèle de régression de Cox. Pour l’identification de biomarqueurs en présence de données de grande dimension, la régression pénalisée lasso est très largement utilisée. Dans le cas de biomarqueurs pronostiques, une extension empirique de cette pénalisation a été proposée permettant d’être plus restrictif sur le choix du paramètre λ dans le but de sélectionner moins de faux positifs. Pour les biomarqueurs prédictifs, l’intérêt s’est porté sur les interactions entre le traitement et les biomarqueurs dans le contexte d’un essai clinique randomisé. Douze approches permettant de les identifier ont été évaluées telles que le lasso (standard, adaptatif, groupé ou encore ridge+lasso), le boosting, la réduction de dimension des effets propres et un modèle implémentant les effets pronostiques par bras. Enfin, à partir d’un modèle de prédiction pénalisé, différentes stratégies ont été évaluées pour obtenir une prédiction individuelle pour un nouveau patient accompagnée d’un intervalle de confiance, tout en évitant un éventuel surapprentissage du modèle. La performance des approches ont été évaluées au travers d’études de simulation proposant des scénarios nuls et alternatifs. Ces méthodes ont également été illustrées sur différents jeux de données, contenant des données d’expression de gènes dans le cancer du sein
With the recent revolution in genomics and in stratified medicine, the development of molecular signatures is becoming more and more important for predicting the prognosis (prognostic biomarkers) and the treatment effect (predictive biomarkers) of each patient. However, the large quantity of information has rendered false positives more and more frequent in biomedical research. The high-dimensional space (i.e. number of biomarkers ≫ sample size) leads to several statistical challenges such as the identifiability of the models, the instability of the selected coefficients or the multiple testing issue.The aim of this thesis was to propose and evaluate statistical methods for the identification of these biomarkers and the individual predicted survival probability for new patients, in the context of the Cox regression model. For variable selection in a high-dimensional setting, the lasso penalty is commonly used. In the prognostic setting, an empirical extension of the lasso penalty has been proposed to be more stringent on the estimation of the tuning parameter λ in order to select less false positives. In the predictive setting, focus has been given to the biomarker-by-treatment interactions in the setting of a randomized clinical trial. Twelve approaches have been proposed for selecting these interactions such as lasso (standard, adaptive, grouped or ridge+lasso), boosting, dimension reduction of the main effects and a model incorporating arm-specific biomarker effects. Finally, several strategies were studied to obtain an individual survival prediction with a corresponding confidence interval for a future patient from a penalized regression model, while limiting the potential overfit.The performance of the approaches was evaluated through simulation studies combining null and alternative scenarios. The methods were also illustrated in several data sets containing gene expression data in breast cancer
Los estilos APA, Harvard, Vancouver, ISO, etc.
11

Courtois, Émeline. "Score de propension en grande dimension et régression pénalisée pour la détection automatisée de signaux en pharmacovigilance Propensity Score-Based Approaches in High Dimension for Pharmacovigilance Signal Detection: an Empirical Comparison on the French Spontaneous Reporting Database New adaptive lasso approaches for variable selection in automated pharmacovigilance signal detection". Thesis, université Paris-Saclay, 2020. http://www.theses.fr/2020UPASR009.

Texto completo
Resumen
La pharmacovigilance a pour but de détecter le plus précocement possible les effets indésirables des médicaments commercialisés. Elle repose sur l’exploitation de grandes bases de données de notifications spontanées, c’est-à-dire de cas rapportés par des professionnels de santé d’évènements indésirables soupçonnées d’être d’origine médicamenteuse. L’exploitation automatique de ces données pour l’identification de signaux statistiques repose classiquement sur des méthodes de disproportionnalité qui s’appuient sur la forme agrégée des données. Plus récemment, des méthodes basées sur des régressions multiples ont été proposées pour prendre en compte les poly-expositions médicamenteuses. Dans le chapitre 2, nous proposons une méthode basée sur le score de propension en grande dimension (HDPS). Une étude empirique, conduite sur la base de pharmacovigilance française et basée sur un ensemble de référence relatif aux atteintes hépatiques aigues (DILIrank), est réalisée pour comparer les performances de cette méthode (déclinée en 12 modalités) à des méthodes basées sur des régressions pénalisées lasso. Dans ce travail, l’influence de la méthode d’estimation des scores est minime, contrairement à la méthode d’intégration des scores. En particulier, la pondération sur l’HDPS avec des poids matching weights montre de bonnes performances, comparables à celles des méthodes basées sur le lasso. Dans le chapitre 3, nous proposons une méthode basée sur extension du lasso: le lasso adaptatif qui permet d’introduire des pénalités propres à chaque variable via des poids. Nous proposons deux nouveaux poids adaptés aux données de notifications, ainsi que l’utilisation du BIC pour le choix de la valeur de pénalité. Une vaste étude de simulations est réalisée pour comparer les performances de nos propositions à d’autres implémentations du lasso adaptatif, une méthode de disproportionnalité, des méthodes basées sur le lasso et sur l’HDPS. Les méthodes proposées montrent globalement de meilleurs résultats en termes de fausses découvertes et de sensibilité que les méthodes concurrentes. Une étude empirique analogue à celle du chapitre 2 vient compléter l’évaluation. Toutes les méthodes présentées sont implémentées dans le package R « adapt4pv » disponible sur le CRAN. En parallèle des développements méthodologiques sur les notifications spontanées, un intérêt croissant s’est porté autour de l’utilisation des bases médico-administratives pour la détection de signaux en pharmacovigilance. Les efforts de recherche méthodologique dans ce domaine en sont encore à leurs débuts. Dans le chapitre 4, nous explorons des stratégies de détection exploitant les notifications spontanées et l’Echantillon Généraliste des Bénéficiaires (EGB). Nous évaluons tout d’abord les performances d'une détection sur l'EGB à partir de DILIrank. Puis, nous considérons une détection conduite sur les notifications spontanées basée sur un lasso adaptatif intégrant, au travers de ses poids, l’information relative à l’exposition médicamenteuse d’individus contrôles mesurée dans l'EGB. Dans les deux cas, l’apport des données médico-administratives est difficile à évaluer du fait de la relative faible taille des données de l’EGB
Post-marketing pharmacovigilance aims to detect as early as possible adverse effects of marketed drugs. It relies on large databases of individual case safety reports of adverse events suspected to be drug-induced. Several automated signal detection tools have been developed to mine these large amounts of data in order to highlight suspicious adverse event-drug combinations. Classical signal detection methods are based on disproportionality analyses of counts aggregating patients’ reports. Recently, multiple regression-based methods have been proposed to account for multiple drug exposures. In chapter 2, we propose a signal detection method based on the high-dimensional propensity score (HDPS). An empirical study, conducted on the French pharmacovigilance database with a reference signal set pertaining to drug-induced liver injury (DILIrank), is carried out to compare the performance of this method (in 12 modalities) to methods based on lasso penalized regressions. In this work, the influence of the score estimation method is minimal, unlike the score integration method. In particular, HDPS weighting with matching weights shows good performances, comparable to those of lasso-based methods. In chapter 3, we propose a method based on a lasso extension: the adaptive lasso which allows to introduce specific penalties to each variable through adaptive weights. We propose two new weights adapted to spontaneous reports data, as well as the use of the BIC for the choice of the penalty term. An extensive simulation study is performed to compare the performances of our proposals with other implementations of the adaptive lasso, a disproportionality method, lasso-based methods and HDPS-based methods. The proposed methods show overall better results in terms of false discoveries and sensitivity than competing methods. An empirical study similar to the one conducted in chapter 2 completes the evaluation. All the evaluated methods are implemented in the R package "adapt4pv" available on the CRAN. Alongside to methodological developments in spontaneous reporting, there has been a growing interest in the use of medico-administrative databases for signal detection in pharmacovigilance. Methodological research efforts in this area are to be developed. In chapter 4, we explore detection strategies exploiting spontaneous reports and the national health insurance permanent sample (Echantillon Généraliste des bénéficiaires, EGB). We first evaluate the performance of a detection on the EGB using DILIrank. Then, we consider a detection conducted on spontaneous reports based on an adaptive lasso integrating, through weights, the information related to the drug exposure of a control group measured in the EGB. In both cases, the contribution of medico-administrative data is difficult to evaluate because of the relatively small size of the EGB
Los estilos APA, Harvard, Vancouver, ISO, etc.
12

Thouvenot, Vincent. "Estimation et sélection pour les modèles additifs et application à la prévision de la consommation électrique". Thesis, Université Paris-Saclay (ComUE), 2015. http://www.theses.fr/2015SACLS184/document.

Texto completo
Resumen
L'électricité ne se stockant pas aisément, EDF a besoin d'outils de prévision de consommation et de production efficaces. Le développement de nouvelles méthodes automatiques de sélection et d'estimation de modèles de prévision est nécessaire. En effet, grâce au développement de nouvelles technologies, EDF peut étudier les mailles locales du réseau électrique, ce qui amène à un nombre important de séries chronologiques à étudier. De plus, avec les changements d'habitude de consommation et la crise économique, la consommation électrique en France évolue. Pour cette prévision, nous adoptons ici une méthode semi-paramétrique à base de modèles additifs. L'objectif de ce travail est de présenter des procédures automatiques de sélection et d'estimation de composantes d'un modèle additif avec des estimateurs en plusieurs étapes. Nous utilisons du Group LASSO, qui est, sous certaines conditions, consistant en sélection, et des P-Splines, qui sont consistantes en estimation. Nos résultats théoriques de consistance en sélection et en estimation sont obtenus sans nécessiter l'hypothèse classique que les normes des composantes non nulles du modèle additif soient bornées par une constante non nulle. En effet, nous autorisons cette norme à pouvoir converger vers 0 à une certaine vitesse. Les procédures sont illustrées sur des applications pratiques de prévision de consommation électrique nationale et locale.Mots-clés: Group LASSO, Estimateurs en plusieurs étapes, Modèle Additif, Prévision de charge électrique, P-Splines, Sélection de variables
French electricity load forecasting encounters major changes since the past decade. These changes are, among others things, due to the opening of electricity market (and economical crisis), which asks development of new automatic time adaptive prediction methods. The advent of innovating technologies also needs the development of some automatic methods, because we have to study thousands or tens of thousands time series. We adopt for time prediction a semi-parametric approach based on additive models. We present an automatic procedure for covariate selection in a additive model. We combine Group LASSO, which is selection consistent, with P-Splines, which are estimation consistent. Our estimation and model selection results are valid without assuming that the norm of each of the true non-zero components is bounded away from zero and need only that the norms of non-zero components converge to zero at a certain rate. Real applications on local and agregate load forecasting are provided.Keywords: Additive Model, Group LASSO, Load Forecasting, Multi-stage estimator, P-Splines, Variables selection
Los estilos APA, Harvard, Vancouver, ISO, etc.
13

Lavarde, Marc. "Fiabilité des semi-conducteurs, tests accélérés, sélection de modèles définis par morceaux et détection de sur-stress". Paris 11, 2007. http://www.theses.fr/2007PA112266.

Texto completo
Resumen
Cette thèse traite de l'exploitation de données accélérées et de la sélection de modèles de régression dans un domaine de hautes technologies : les semi-conducteurs. Les données recueillies à la suite d'un test accéléré sont des données de régression. L'objectif du test est d'ajuster le comportement moyen du logarithme des durées de vie à l'aide d'une fonction f, dite fonction d'accélération. Cependant les données accélérées ont parfois des comportements complexes. Afin d'adapter la modélisation à ces comportements atypiques, nous avons cherché à détecter les changements de comportement de la fonction d'accélération. Nous proposons d'utiliser une collection de modèles de régressions définis par morceaux, pour chaque modèle candidat à l'estimation nous calculons l'estimateur des moindres carrés. Et nous sélectionnons le modèle final à l'aide d'un critère des moindres carrés pénalisés. L'estimateur pénalisé est une approximation optimale du modèle réel au sens où le risque de l'estimateur pénalisé est comparable au risque minimum parmi l'ensemble des modèles candidats. De plus, nous disposons d'une borne de risque non asymptotique. Et nous avons cherché à limiter les hypothèses de modélisation afin de prendre en compte un grand nombre de cas pratiques : nous avons envisager le cas d'usure (loi de durée de vie Lognormale) et le cas de chocs (loi de durée de vie Weibull). Nous avons mis en place des outils de sélection de modèles permettant à l'ingénieur de réaliser ses études de fiabilité sans a priori sur les modèles d'accélération et d'exploiter les données issues d'essais accélérés en sur-stress
This thesis deals with the using of accelerating data and regression model selection for high technology field: semiconductor chips. The accelerating trail gives us regression frameworks. The aim of the accelerating test consists on fitting the logarithm of the lifetime through the use of some function f, called the acceleration function. However, accelerating data may have misleading and complex comportment. In order to adapt the model with such data, we have proposed to detect the changes on the comportment of the acceleration function. We have considered a collection of piecewise acceleration models candidate to the estimation. For each model candidate we have estimated the least-squares estimation. And we have selected the final estimator using a penalized criterion. The penalized estimator is optimal approximation of the reality since the quadratic risk of penalized estimator is bounded by the minimal risk upon every least-squares estimators candidates. Moreover, this oracle inequality is non asymptotic. Furthermore, we have considered classical reliability cases: the Lognormal case associating with some fatigue failure, and the Weibull case associating with some choc failure. Lastly we have implemented model selection tools in order to realise survey study without a priori on the acceleration models and to use overstress trials
Los estilos APA, Harvard, Vancouver, ISO, etc.
14

Jardillier, Rémy. "Evaluation de différentes variantes du modèle de Cox pour le pronostic de patients atteints de cancer à partir de données publiques de séquençage et cliniques". Thesis, Université Grenoble Alpes, 2020. http://www.theses.fr/2020GRALS008.

Texto completo
Resumen
Le cancer constitue la première cause de mortalité prématurée (décès avant 65 ans) en France depuis 2004. Pour un même organe, chaque cancer est unique, et le pronostic personnalisé est donc un aspect important de la prise en charge et du suivi des patients. La baisse des coûts du séquençage des ARN a permis de mesurer à large échelle les profils moléculaires de nombreux échantillons tumoraux. Ainsi, la base de données TCGA fournit les données RNA-seq de tumeurs, des données cliniques (âge, sexe, grade, stade, etc.), et les temps de suivi des patients associés sur plusieurs années (dont la survie du patient, la récidive éventuelle, etc.). De nouvelles découvertes sont donc rendues possibles en terme de biomarqueurs construits à partir de données transcriptomiques, avec des pronostics individualisés. Ces avancées requièrent le développement de méthodes d’analyse de données en grande dimension adaptées à la prise en compte à la fois des données de survie (censurées à droite), des caractéristiques cliniques, et des profils moléculaires des patients. Dans ce contexte, l’objet principal de la thèse consiste à comparer et adapter des méthodologies pour construire des scores de risques pronostiques de la survie ou de la récidive des patients atteints de cancer à partir de données de séquençage et cliniques.Le modèle de Cox (semi-paramétrique) est largement utilisé pour modéliser ces données de survie, et permet de les relier à des variables explicatives. Les données RNA-seq de TCGA contiennent plus de 20 000 gènes pour seulement quelques centaines de patients. Le nombre p de variables excède alors le nombre n de patients, et l'estimation des paramètres est soumis à la « malédiction de la dimension ». Les deux principales stratégies permettant de remédier à cela sont les méthodes de pénalisation et le pré-filtrage des gènes. Ainsi, le premier objectif de cette thèse est de comparer les méthodes de pénalisations classiques du modèle de Cox (i.e. ridge, lasso, elastic net, adaptive elastic net). Pour cela, nous utilisons des données réelles et simulées permettant de contrôler la quantité d’information contenue dans les données transcriptomiques. Ensuite, la deuxième problématique abordée concerne le pré-filtrage univarié des gènes avant l’utilisation d’un modèle de Cox multivarié. Nous proposons une méthodologie permettant d’augmenter la stabilité des gènes sélectionnés, et de choisir les seuils de filtrage en optimisant les prédictions. Enfin, bien que le coût du séquençage (RNA-seq) ait diminué drastiquement au cours de la dernière décennie, il reste trop élevé pour une utilisation routinière en pratique. Dans une dernière partie, nous montrons que la profondeur de séquençage des miARN peut être réduite sans atténuer la qualité des prédictions pour certains cancers de TCGA, mais pas pour d’autres
Cancer has been the leading cause of premature mortality (death before the age of 65) in France since 2004. For the same organ, each cancer is unique, and personalized prognosis is therefore an important aspect of patient management and follow-up. The decrease in sequencing costs over the last decade have made it possible to measure the molecular profiles of many tumors on a large scale. Thus, the TCGA database provides RNA-seq data of tumors, clinical data (age, sex, grade, stage, etc.), and follow-up times of associated patients over several years (including patient survival, possible recurrence, etc.). New discoveries are thus made possible in terms of biomarkers built from transcriptomic data, with individualized prognoses. These advances require the development of large-scale data analysis methods adapted to take into account both survival data (right-censored), clinical characteristics, and molecular profiles of patients. In this context, the main goal of the thesis is to compare and adapt methodologies to construct prognostic risk scores for survival or recurrence of patients with cancer from sequencing and clinical data.The Cox model (semi-parametric) is widely used to model these survival data, and allows linking them to explanatory variables. The RNA-seq data from TCGA contain more than 20,000 genes for only a few hundred patients. The number p of variables then exceeds the number n of patients, and parameters estimation is subject to the “curse of dimensionality”. The two main strategies to overcome this issue are penalty methods and gene pre-filtering. Thus, the first objective of this thesis is to compare the classical penalization methods of Cox's model (i.e. ridge, lasso, elastic net, adaptive elastic net). To this end, we use real and simulated data to control the amount of information contained in the transcriptomic data. Then, the second issue addressed concerns the univariate pre-filtering of genes before using a multivariate Cox model. We propose a methodology to increase the stability of the genes selected, and to choose the filtering thresholds by optimizing the predictions. Finally, although the cost of sequencing (RNA-seq) has decreased drastically over the last decade, it remains too high for routine use in practice. In a final section, we show that the sequencing depth of miRNAs can be reduced without degrading the quality of predictions for some TCGA cancers, but not for others
Los estilos APA, Harvard, Vancouver, ISO, etc.
15

Li, Weiyu. "Quelques contributions à l'estimation des modèles définis par des équations estimantes conditionnelles". Thesis, Rennes 1, 2015. http://www.theses.fr/2015REN1S065/document.

Texto completo
Resumen
Dans cette thèse, nous étudions des modèles définis par des équations de moments conditionnels. Une grande partie de modèles statistiques (régressions, régressions quantiles, modèles de transformations, modèles à variables instrumentales, etc.) peuvent se définir sous cette forme. Nous nous intéressons au cas des modèles avec un paramètre à estimer de dimension finie, ainsi qu’au cas des modèles semi paramétriques nécessitant l’estimation d’un paramètre de dimension finie et d’un paramètre de dimension infinie. Dans la classe des modèles semi paramétriques étudiés, nous nous concentrons sur les modèles à direction révélatrice unique qui réalisent un compromis entre une modélisation paramétrique simple et précise, mais trop rigide et donc exposée à une erreur de modèle, et l’estimation non paramétrique, très flexible mais souffrant du fléau de la dimension. En particulier, nous étudions ces modèles semi paramétriques en présence de censure aléatoire. Le fil conducteur de notre étude est un contraste sous la forme d’une U-statistique, qui permet d’estimer les paramètres inconnus dans des modèles généraux
In this dissertation we study statistical models defined by condition estimating equations. Many statistical models could be stated under this form (mean regression, quantile regression, transformation models, instrumental variable models, etc.). We consider models with finite dimensional unknown parameter, as well as semiparametric models involving an additional infinite dimensional parameter. In the latter case, we focus on single-index models that realize an appealing compromise between parametric specifications, simple and leading to accurate estimates, but too restrictive and likely misspecified, and the nonparametric approaches, flexible but suffering from the curse of dimensionality. In particular, we study the single-index models in the presence of random censoring. The guiding line of our study is a U-statistics which allows to estimate the unknown parameters in a wide spectrum of models
Los estilos APA, Harvard, Vancouver, ISO, etc.
16

Shehzad, Muhammad Ahmed. "Pénalisation et réduction de la dimension des variables auxiliaires en théorie des sondages". Phd thesis, Université de Bourgogne, 2012. http://tel.archives-ouvertes.fr/tel-00812880.

Texto completo
Resumen
Les enquêtes par sondage sont utiles pour estimer des caractéristiques d'une populationtelles que le total ou la moyenne. Cette thèse s'intéresse à l'étude detechniques permettant de prendre en compte un grand nombre de variables auxiliairespour l'estimation d'un total.Le premier chapitre rappelle quelques définitions et propriétés utiles pour lasuite du manuscrit : l'estimateur de Horvitz-Thompson, qui est présenté commeun estimateur n'utilisant pas l'information auxiliaire ainsi que les techniques decalage qui permettent de modifier les poids de sondage de facon à prendre encompte l'information auxiliaire en restituant exactement dans l'échantillon leurstotaux sur la population.Le deuxième chapitre, qui est une partie d'un article de synthèse accepté pourpublication, présente les méthodes de régression ridge comme un remède possibleau problème de colinéarité des variables auxiliaires, et donc de mauvais conditionnement.Nous étudions les points de vue "model-based" et "model-assisted" dela ridge regression. Cette technique qui fournit de meilleurs résultats en termed'erreur quadratique en comparaison avec les moindres carrés ordinaires peutégalement s'interpréter comme un calage pénalisé. Des simulations permettentd'illustrer l'intérêt de cette technique par compar[a]ison avec l'estimateur de Horvitz-Thompson.Le chapitre trois présente une autre manière de traiter les problèmes de colinéaritévia une réduction de la dimension basée sur les composantes principales. Nousétudions la régression sur composantes principales dans le contexte des sondages.Nous explorons également le calage sur les moments d'ordre deux des composantesprincipales ainsi que le calage partiel et le calage sur les composantes principalesestimées. Une illustration sur des données de l'entreprise Médiamétrie permet deconfirmer l'intérêt des ces techniques basées sur la réduction de la dimension pourl'estimation d'un total en présence d'un grand nombre de variables auxiliaires
Los estilos APA, Harvard, Vancouver, ISO, etc.
17

Alquier, Pierre. "Contributions à l'apprentissage statistique dans les modèles parcimonieux". Habilitation à diriger des recherches, Université Pierre et Marie Curie - Paris VI, 2013. http://tel.archives-ouvertes.fr/tel-00915505.

Texto completo
Resumen
Ce mémoire d'habilitation a pour objet diverses contributions à l'estimation et à l'apprentissage statistique dans les modeles en grande dimension, sous différentes hypothèses de parcimonie. Dans une première partie, on introduit la problématique de la statistique en grande dimension dans un modèle générique de régression linéaire. Après avoir passé en revue les différentes méthodes d'estimation populaires dans ce modèle, on présente de nouveaux résultats tirés de (Alquier & Lounici 2011) pour des estimateurs agrégés. La seconde partie a essentiellement pour objet d'étendre les résultats de la première partie à l'estimation de divers modèles de séries temporelles (Alquier & Doukhan 2011, Alquier & Wintenberger 2013, Alquier & Li 2012, Alquier, Wintenberger & Li 2012). Enfin, la troisième partie présente plusieurs extensions à des modèles non param\étriques ou à des applications plus spécifiques comme la statistique quantique (Alquier & Biau 2013, Guedj & Alquier 2013, Alquier, Meziani & Peyré 2013, Alquier, Butucea, Hebiri, Meziani & Morimae 2013, Alquier 2013, Alquier 2008). Dans chaque section, des estimateurs sont proposés, et, aussi souvent que possible, des inégalités oracles optimales sont établies.
Los estilos APA, Harvard, Vancouver, ISO, etc.
18

Vasseur, Yann. "Inférence de réseaux de régulation orientés pour les facteurs de transcription d'Arabidopsis thaliana et création de groupes de co-régulation". Thesis, Université Paris-Saclay (ComUE), 2017. http://www.theses.fr/2017SACLS475/document.

Texto completo
Resumen
Dans cette thèse, nous cherchons à caractériser les facteurs de transcription de la plante Arabidopsis thaliana, gènes importants pour la régulation de l'expression du génome. À l'aide de données d'expression, notre objectif biologique est de classer ces facteurs de transcription en groupes de gènes co-régulateurs et en groupes de gènes co-régulés. Nous procédons en deux phases pour y parvenir. La première phase consiste à construire un réseau de régulation entre les facteurs de transcription. La seconde phase consiste en la classification des facteurs de transcription selon les liens de régulation établis par ce réseau. D'un point de vue statistique, les facteurs de transcription sont les variables et les données d'expression sont les observations. Nous représentons le réseau à inférer par un graphe orienté dont les nœuds sont les variables. L'estimation de ses arêtes est vue comme un problème de sélection de variables en grande dimension avec un faible nombre d'unités statistiques. Nous traitons ce problème à l'aide de régressions linéaires pénalisées de type LASSO. Une approche préliminaire qui consiste à sélectionner un ensemble de variables du chemin de régularisation par le biais de critères de vraisemblance pénalisée s'avère être instable et fournit trop de variables explicatives. Pour contrecarrer cela, nous proposons et mettons en compétition deux procédures de sélection, adaptées au problème de la haute dimension et mêlant régression linéaire pénalisée et rééchantillonnage. L'estimation des différents paramètres de ces procédures a été effectuée dans le but d'obtenir des ensembles de variables stables. Nous évaluons la stabilité des résultats à l'aide de jeux de données simulés selon notre modèle graphique. Nous faisons appel ensuite à une méthode de classification non supervisée sur chacun des graphes orientés obtenus pour former des groupes de nœuds vus comme contrôleurs et des groupes de nœuds vus comme contrôlés. Pour évaluer la proximité entre les classifications doubles des nœuds obtenus sur différents graphes, nous avons développé un indice de comparaison de couples de partition dont nous éprouvons et promouvons la pertinence. D'un point de vue pratique, nous proposons une méthode de simulation en cascade, exigée par la complexité de notre modèle et inspirée du bootstrap paramétrique, pour simuler des jeux de données en accord avec notre modèle. Nous avons validé notre modèle en évaluant la proximité des classifications obtenues par application de la procédure statistique sur les données réelles et sur ces données simulées
This thesis deals with the characterisation of key genes in gene expression regulation, called transcription factors, in the plant Arabidopsis thaliana. Using expression data, our biological goal is to cluster transcription factors in groups of co-regulator transcription factors, and in groups of co-regulated transcription factors. To do so, we propose a two-step procedure. First, we infer the network of regulation between transcription factors. Second, we cluster transcription factors based on their connexion patterns to other transcriptions factors.From a statistical point of view, the transcription factors are the variables and the samples are the observations. The regulatory network between the transcription factors is modelled using a directed graph, where variables are nodes. The estimation of the nodes can be interpreted as a problem of variables selection. To infer the network, we perform LASSO type penalised linear regression. A preliminary approach selects a set of variable along the regularisation path using penalised likelihood criterion. However, this approach is unstable and leads to select too many variables. To overcome this difficulty, we propose to put in competition two selection procedures, designed to deal with high dimension data and mixing linear penalised regression and subsampling. Parameters estimation of the two procedures are designed to lead to select stable set of variables. Stability of results is evaluated on simulated data under a graphical model. Subsequently, we use an unsupervised clustering method on each inferred oriented graph to detect groups of co-regulators and groups of co-regulated. To evaluate the proximity between the two classifications, we have developed an index of comparaison of pairs of partitions whose relevance is tested and promoted. From a practical point of view, we propose a cascade simulation method required to respect the model complexity and inspired from parametric bootstrap, to simulate data under our model. We have validated our model by inspecting the proximity between the two classifications on simulated and real data
Los estilos APA, Harvard, Vancouver, ISO, etc.
19

St-Onge, Pascal. "Détection et caractérisation des interactions dans les maladies complexes". Thèse, 2007. http://hdl.handle.net/1866/7963.

Texto completo
Los estilos APA, Harvard, Vancouver, ISO, etc.
Ofrecemos descuentos en todos los planes premium para autores cuyas obras están incluidas en selecciones literarias temáticas. ¡Contáctenos para obtener un código promocional único!

Pasar a la bibliografía