Log in

Relevant bibliographies by topics / Sélection des modèles / Dissertations / Theses

To see the other types of publications on this topic, follow the link: Sélection des modèles.

Dissertations / Theses on the topic 'Sélection des modèles'

Author: Grafiati

Published: 23 September 2022

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Sélection des modèles.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Verzelen, Nicolas. "Modèles graphiques gaussiens et sélection de modèles." Phd thesis, Université Paris Sud - Paris XI, 2008. http://tel.archives-ouvertes.fr/tel-00352802.

Full text

Abstract:

Cette thèse s'inscrit dans les domaines de la statistique non-paramétrique, de la théorie statistique de l'apprentissage et des statistiques spatiales. Son objet est la compréhension et la mise en oeuvre de méthodes d'estimation et de décision pour des modèles graphiques gaussiens. Ces outils probabilistes rencontrent un succès grandissant pour la modélisation de systêmes complexes dans des domaines aussi différents que la génomique ou l'analyse spatiale. L'inflation récente de la taille des données analysées rend maintenant nécessaire la construction de procédures statistiques valables en << grande dimension >>, c'est à dire lorsque le nombre de variables est potentiellement plus grand que le nombre d'observations. Trois problèmes généraux sont considérés dans cette thèse: le test d'adéquation d'un graphe à un modèle graphique gaussien, l'estimation du graphe d'un modèle graphique gaussien et l'estimation de la covariance d'un modèle graphique gaussien, ou plus généralement d'un vecteur gaussien. Suite à cela, nous étudions l'estimation de la covariance d'un champ gaussien stationnaire sur un réseau, sous l'angle de la modélisation graphique.

En utilisant le lien entre modèles graphiques et régression linéaire à plan d'expérience gaussien, nous développons une approche basée sur des techniques de sélection de modèles. Les procédures ainsi introduites sont analysés d'un point de vue non-asymptotique. Nous prouvons notamment des inégalités oracles et des propriétés d'adaptation au sens minimax valables en grande dimension. Les performances pratiques des méthodes statistiques sont illustrées sur des données simulées ainsi que sur des données réelles.

APA, Harvard, Vancouver, ISO, and other styles

2

Gaudel, Romaric. "Paramètres d'ordre et sélection de modèles en apprentissage : caractérisation des modèles et sélection d'attributs." Phd thesis, Université Paris Sud - Paris XI, 2010. http://tel.archives-ouvertes.fr/tel-00549090.

Full text

Abstract:

Nous nous intéressons à la sélection de modèle en apprentissage automatique, sous deux angles différents. La première partie de la thèse concerne les méthodes à noyau relationnel. Les méthodes à noyau permettent en principe de s'affranchir de la représentation des instances, et de combler le fossé entre apprentissage relationnel et apprentissage propositionnel. Cette thèse s'intéresse à la faisabilité de cet objectif dans un cas particulier : les problèmes à instances multiples, qui sont considérés comme un intermédiaire entre les problèmes propositionnels et les problèmes relationnels. Concrètement, nous déterminons sous quelles conditions le noyau-somme, utilisé sur des problèmes à instances multiples, est en mesure de reconstruire le concept-cible. Cette étude suit le schéma standard des études de transition de phase et s'appuie sur un critère nouveau pour caractériser l'efficacité de la propositionnalisation induite par le noyau-somme. La deuxième partie de la thèse porte sur la sélection d'attributs. Une solution pour résoudre les problèmes à instances multiples, tels que présentés en première partie, passe par une propositionnalisation associant un attribut à chaque instance présente dans le problème. Le nombre d'attributs ainsi construits étant gigantesque, il est alors nécessaire de sélectionner un sous-ensemble d'attributs ne contenant que des attributs pertinents. La deuxième partie de la thèse propose donc une nouvelle approche pour la sélection d'attributs. La sélection d'attributs est réécrite comme un problème d'apprentissage par renforcement, conduisant ainsi à une politique de sélection optimale mais non-calculable en un temps raisonnable. Cette politique est approchée en se fondant sur une approche de jeu à un joueur et en utilisant la méthode Monte-Carlo pour les arbres UCT (Upper Confidence bound applied to Trees), qui a été proposée par Kocsis et Szepesvari (2006). L'algorithme FUSE (Feature Uct SElection) étend UCT pour gérer (1) l'horizon fini mais inconnu, et (2) le facteur de branchement élevé de l'arbre de recherche reflétant la taille de l'ensemble d'attributs. Finalement, une fonction de récompense frugale est proposée en tant qu'estimation grossière mais non-biaisée de la pertinence d'un sous-ensemble d'attributs. Une preuve de concept de FUSE est fournie sur des bases de données de référence.

APA, Harvard, Vancouver, ISO, and other styles

3

Arlot, Sylvain. "Rééchantillonnage et Sélection de modèles." Phd thesis, Université Paris Sud - Paris XI, 2007. http://tel.archives-ouvertes.fr/tel-00198803.

Full text

Abstract:

Cette thèse s'inscrit dans les domaines de la statistique non-paramétrique et de la théorie statistique de l'apprentissage. Son objet est la compréhension fine de certaines méthodes de rééchantillonnage ou de sélection de modèles, du point de vue non-asymptotique.

La majeure partie de ce travail de thèse consiste dans la calibration précise de méthodes de sélection de modèles optimales en pratique, pour le problème de la prédiction. Nous étudions la validation croisée V-fold (très couramment utilisée, mais mal comprise en théorie, notamment pour ce qui est de choisir V) et plusieurs méthodes de pénalisation. Nous proposons des méthodes de calibration précise de pénalités, aussi bien pour ce qui est de leur forme générale que des constantes multiplicatives. L'utilisation du rééchantillonnage permet de résoudre des problèmes difficiles, notamment celui de la régression avec un niveau de bruit variable. Nous validons théoriquement ces méthodes du point de vue non-asymptotique, en prouvant des inégalités oracle et des propriétés d'adaptation. Ces résultats reposent entre autres sur des inégalités de concentration.

Un second problème que nous abordons est celui des régions de confiance et des tests multiples, lorsque l'on dispose d'observations de grande dimension, présentant des corrélations générales et inconnues. L'utilisation de méthodes de rééchantillonnage permet de s'affranchir du fléau de la dimension, et d'"apprendre" ces corrélations. Nous proposons principalement deux méthodes, et prouvons pour chacune un contrôle non-asymptotique de leur niveau.

APA, Harvard, Vancouver, ISO, and other styles

4

Liquet, benoit. "Sélection de modèles semi-paramétriques." Phd thesis, Université Victor Segalen - Bordeaux II, 2002. http://tel.archives-ouvertes.fr/tel-00002430.

Full text

Abstract:

Cette thèse développe des méthodes de sélection de modèles pour des applications en Biostatistique et plus particulièrement dans le domaine médical. Dans la première partie, nous proposons une méthode et un programme de correction du niveau de signification d'un test lorsque plusieurs codages d'une variable explicative sont essayés. Ce travail est réalisé dans le cadre d'une régression logistique et appliqué à des données sur la relation entre cholestérol et démence. La deuxième partie de la thèse est consacrée au développement d'un critère d'information général permettant de sélectionner un estimateur parmi une famille d'estimateurs semi-paramétriques. Le critère que nous proposons est basé sur l'estimation par bootstrap de l'information de Kullback-Leibler. Nous appliquons ensuite ce critère à la modélisation de l'effet de l'amiante sur le risque de mésothéliome et nous comparons cette approche à la méthode de sélection de Birgé-Massart. Enfin, la troisième partie présente un critère de sélection en présence des données incomplètes. Le critère proposé est une extension du critère developpé dans la deuxième partie. Ce critère, construit sur l'espérance de la log-vraisemblance observée, permet en particulier de sélectionner le paramètre de lissage dans l'estimation lisse de la fonction de risque et de choisir entre des modèles stratifiés et des modèles à risques proportionnels. Nous avons notamment appliqué cette méthode à la modélisation de l'effet du sexe et du niveau d'éducation sur le risque de démence.

APA, Harvard, Vancouver, ISO, and other styles

5

Liquet, Benoit. "Sélection de modèles semi-paramétriques." Bordeaux 2, 2002. http://www.theses.fr/2002BOR20958.

Full text

Abstract:

Cette thèse développe des méthodes de sélection de modèles pour l'application en Bio-stastistique. Dans la première partie, nous proposons une méthode et un programme de correction du niveau de signification d'un test lorsque plusieurs codages d'une variable explicative sont essayés. La deuxième partie de la thèse est consacrée au développement d'un critère d'information général permettant de sélectionner un estimateur parmi une famille d'estimateurs semi-paramétriques. Le critère que nous proposons est basé sur l'estimation par bootstrap de l'information de Kullback-Leibler. Enfin, la troisième partie présente un critère de sélection en présence des données incomplètes. Ce critère, construit sur l'espérance de la log-vraisemblance observée, permet en particulier de sélectionner le paramètre de lissage dans l'estimation lisse de la fonction de risque et de choisir entre des modèles stratifiés et des modèles à risques proportionnels.

APA, Harvard, Vancouver, ISO, and other styles

6

Carrier, Vincent. "Modèles de sélection sexuelle à deux espèces." Thesis, National Library of Canada = Bibliothèque nationale du Canada, 1996. http://www.collectionscanada.ca/obj/s4/f2/dsk3/ftp04/nq21439.pdf.

Full text

APA, Harvard, Vancouver, ISO, and other styles

7

Durand, Jean-Baptiste. "Modèles à structure cachée : inférence, estimation, sélection de modèles et applications." Phd thesis, Université Joseph Fourier (Grenoble), 2003. https://tel.archives-ouvertes.fr/tel-00002754v3.

Full text

APA, Harvard, Vancouver, ISO, and other styles

8

Kouyoumdjian, Alexandre. "Sélection de cibles en mouvement : contexte, modèles, et paradigmes d'aide à la sélection." Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLS606/document.

Full text

Abstract:

La sélection de cibles en mouvement a été peu abordée dans la littérature scientifique, car les facteurs qui caractérisent ce mouvement sont nombreux. Si certains modèles tels que la loi de Fitts permettent d’estimer le temps de sélection de cibles statiques, ils en sont incapables pour des cibles mobiles, et l’influence de la nature des mouvements d’une cible sur les performances de sélection reste à déterminer. Nous proposons un état de l’art des techniques de sélection de cibles, dont nous avançons une proposition de taxinomie, ainsi qu’une classification des cibles mobiles et de leurs environnements. Nous avons proposé un modèle de description et de génération de mouvement, et l’avons exploité pour extraire les paramètres de mouvement essentiels de cibles mobiles, afin d’estimer la difficulté de les sélectionner. Ce modèle (VFA) comprend la vitesse(V), la période entre chaque changement de direction et la fréquence (F) correspondante, ainsi que l’amplitude angulaire maximale (A) de ces changements de direction. Le modèle VFA nous a permis de mesurer l’influence de ces paramètres sur les performances de sélection, les impressions subjectives des utilisateurs, et leurs stratégies d’anticipation. Ces résultats ont conduit à rechercher des critères dépendant des paramètres VFA, comme l’aire de l’enveloppe convexe de la trajectoire de la cible sur une période donnée, permettant de prédire les performances de sélection. Nous observons que la distance du modèle de Fitts n’a que peu d’influence sur les performances de sélection de cibles mobiles vives et imprévisibles, et validons notre prédiction des performances de sélection en montrant qu’il est possible de les améliorer en ajustant les tailles des cibles selon la difficulté prédite, ou d’utiliser celle-ci pour biaiser l’heuristique d’une technique de prédiction de l’intention. Nous étudions également l’apport d’une assistance pseudo-haptique ajoutée à une technique de prédiction de l’intention, et observons qu’il dépend du compromis vitesse-précision choisi par l’utilisateur. Nous montrons enfin qu’une technique fondée sur l’ élimination manuelle des distracteurs en parallèle de la prédiction de l’intention permet d’obtenir d’excellentes performances de sélection avec un effort physique très réduit. Ces résultats conduisent à la proposition de recommandations pour la conception de nouvelles techniques de sélection plus adaptées aux cibles mobiles
The selection of moving targets has received little attention in the literature, as the factors that influence motion are numerous and complex. Though models such as Fitts’ Law can estimate selection time for static targets, they fail to do so for moving ones, and the influence of a target’s movements on its associated selection performance remains to be determined. Here we propose a state of the art of moving target selection techniques, a taxonomy thereof, as well as a classification of moving targets and their environments. We propose a model for the description and generation of movement, a use it to extract essential motion parameters from moving targets, in order to estimate their selection difficulty. This model (SFA) includes speed (S), the period between each change in direction and its associated frequency (F), as well as the maximum angular amplitude of these changes (A).Thanks to the SFA model, we measured the influence of these parameters on selection performance, the subjective impressions of users, and their anticipation strategies. These results led us to look for SFA dependent criteria, such as the area of the target’s trajectory’s convex hull over a given period of time, which can predict selection performance. We note that Fitts’s distance has little influence on selection performance for quick, unpredictable moving targets, and validate our estimate of selection performance by showing that this estimate can be used to improve selection performance by adjusting the size of targets accordingly, or by using it to bias an intention prediction heuristic. We also assess the benefits of pseudo-haptic assistance coupled with intention prediction, and show that it depends on the speed accuracy trade-off chosen by a given user. We finally show that a technique based on the manual elimination of distractors running concurrently with intention prediction allows for excellent selection performance, and drastically reduced physical effort. We conclude by offering advice on the design of new selection techniques that would be better suited to moving targets

APA, Harvard, Vancouver, ISO, and other styles

9

Donnet, Sophie. "Inversion de données IRMf : estimation et sélection de modèles." Paris 11, 2006. http://www.theses.fr/2006PA112193.

Full text

Abstract:

Cette thèse est consacrée à l'analyse de données d'Imagerie par Résonance Magnétique fonctionnelle (IRMf). Dans le cadre du modèle classique de convolution, nous testons l'hypothèse de variabilité inter-occurrences des amplitudes des réponses hémodynamiques. L'estimation des paramètres de ce nouveau modèle requiert le recours à l'algorithme Expectation-Maximisation. Nous comparons ce modèle au modèle sans variabilité inter-occurrences par un test du rapport des vraisemblances, sur un grand nombre de jeu de données réelles. Le modèle linéaire souffrant d'un manque de fondement biologique, nous considérons un modèle physiologique aboutissant à l'écriture du signal IRMf comme la somme d'un terme de régression, solution d'une équation différentielle ordinaire (EDO), sans solution analytique dépendant d'un paramètre aléatoire, et d'un bruit de mesure gaussien. Nous proposons une méthode générale d'estimation paramétrique des modèles définis par EDO à données non-observées, intégrant une méthode de résolution numérique du système dynamique et reposant sur une version stochastique de l'algorithme EM. Nous montrons la convergence des estimateurs des paramètres produits par cet algorithme, et contrôlons l'erreur induite par l'approximation de la solution du système différentiel sur l'estimation des paramètres. Nous appliquons cette méthode à la fois sur données d'IRMf simulées et réelles. Enfin, nous considérons des modèles définis par équations différentielles stochastiques (EDS) dépendant d'un paramètre aléatoire. En approchant la diffusion par un schéma numérique, nous proposons une méthode d'estimation des paramètres du modèle. La précision de cette méthode est illustrée sur une étude sur données simulées dans le cadre d'un modèle à effets mixtes, issus de la pharmacocinétique. Une étude sur données réelle démontre la pertinence de l'approche stochastique. Finalement, nous nous intéressons à l'identifiabilité des modèles définis par EDS dépendant de paramètres aléatoires
This thesis is devoted to the analysis of functional Magnetic Resonance Imaging data (fMRI). In the framework of standard convolution models, we test a model that allows for the variation of the magnitudes of the hemodynamic reponse. To estimate the parameters of this model, we have to resort to the Expectation-Maximisation algorithm. We test this model against the standard one --withconstant magnitudes-- on several real data, set by a likelihood ratio test. The linear model suffers from a lack of biological basis, hence we consider a physiological model. In this framework, we describe the data as the sum of a regression term, defined as the non-analytical solution of an ordinary differentiel equation (ODE) depending on random parameters, and a gaussian observation noise. We develop a general method to estimate the parameters of a statistical model defined by ODE with non-observed parameters. This method, integrating a numerical resolution of the ODE, relies on a stochastic version of the EM algorithm. The convergence of the algorithm is proved and the error induced by the numerical solving method is controlled. We apply this method on simulated and real data sets. Subsequently, we consider statistical models defined by stochastic differential equations (SDE) depending on random parameters. We approximate the diffusion process by a numerical scheme and propose a general estimation method. Results of a pharmacokineticmixed model study (on simulated and real data set) illustrate the accuracy of the estimation and the relevance of the SDE approach. Finally, the identifiability of statistical models defined by SDE with random parameters is studied

APA, Harvard, Vancouver, ISO, and other styles

10

Vandewalle, Vincent. "Estimation et sélection en classification semi-supervisée." Phd thesis, Université des Sciences et Technologie de Lille - Lille I, 2009. http://tel.archives-ouvertes.fr/tel-00447141.

Full text

Abstract:

Le sujet de cette thèse est la classification semi-supervisée qui est considérée d'un point de vue décisionnel. Nous nous intéressons à la question de choix de modèles dans ce contexte où les modèles sont estimés en utilisant conjointement des données étiquetées et des données non étiquetées plus nombreuses. Nous concentrons notre recherche sur les modèles génératifs où la classification semi-supervisée s'envisage sans difficulté, contrairement au cadre prédictif qui nécessite des hypothèses supplémentaires peu naturelles. Après avoir dressé un état de l'art de la classification semi-supervisée, nous décrivons l'estimation des paramètres d'un modèle de classification à l'aide de données étiquetées et non étiquetées par l'algorithme EM. Nos contributions sur la sélection de modèles font l'objet des deux chapitres suivants. Au chapitre 3, nous présentons un test statistique où les données non étiquetées sont utilisées pour mettre à l'épreuve le modèle utilisé. Au chapitre 4 nous présentons un critère de sélection de modèles AIC_cond, dérivé du critère AIC d'un point de vue prédictif. Nous prouvons la convergence asymptotique de ce critère particulièrement bien adapté au contexte semi-supervisé et ses bonnes performances pratiques comparé à la validation croisée et à d'autres critères de vraisemblance pénalisée. Une deuxième partie de la thèse, sans rapport direct avec le contexte semi-supervisé, présente des modèles multinomiaux pour la classification sur variables qualitatives. Nous avons conçu ces modèles pour répondre à des limitations des modèles multinomiaux parcimonieux proposés dans le logiciel MIXMOD. À cette occasion, nous proposons un critère type BIC qui prend en compte de manière spécifique la complexité de ces modèles multinomiaux contraints.

APA, Harvard, Vancouver, ISO, and other styles

11

Bertrand, Julie. "Pharmacogénétique en Pharmacocinétique de population : tests et sélection de modèles." Phd thesis, Université Paris-Diderot - Paris VII, 2009. http://tel.archives-ouvertes.fr/tel-00482994.

Full text

Abstract:

L'existence de polymorphismes génétiques codants pour des protéines de transport ou de métabolisme peut expliquer en partie la variabilité pharmacocinétique de certains médicaments. Les modèles non linéaires à effets mixtes (MNLEM) permettent de caractériser cette variabilité en analysant simultanément les données recueillies chez l'ensemble des patients et nécessitent moins de prélèvements que l'approche traditionnelle non-compartimentale. Du fait de la multiplicité des génotypes et de leur représentation déséquilibrée dans la population générale, nous nous sommes interrogés sur les propriétés des tests classiquement utilisés pour détecter un effet gène sur un paramètre pharmacocinétique dans le cadre des MNLEM. Dans ce contexte, nous avons évalué par simulation les propriétés de l'ANOVA, du test de Wald et du test du rapport de vraisemblance. L'impact de l'algorithme d'estimation a été pris en compte grâce à l'utilisation de plusieurs méthodes d'estimation. Nous avons ainsi mis en évidence une inflation de l'erreur de type I des tests asymptotiques, sur plusieurs protocoles expérimentaux. Nous avons alors proposé deux alternatives et montré que l'approche par permutation peut être utilisée dans ce contexte ainsi qu'une approche reposant sur la pondération de la variance d'estimation, moins coûteuse en temps de calcul. Ces résultats ont été appliqués à l'analyse de trois études pharmacogénétiques, explorant l'influence de polymorphismes génétiques sur la pharmacocinétique de l'indinavir dans l'essai COPHAR2-ANRS 111, sur la pharmacocinétique d'un antipsychotique en développement et sur la pharmacocinétique de la névirapine dans l'essai PECAN-ANRS 12154.

APA, Harvard, Vancouver, ISO, and other styles

12

Mattei, Pierre-Alexandre. "Sélection de modèles parcimonieux pour l’apprentissage statistique en grande dimension." Thesis, Sorbonne Paris Cité, 2017. http://www.theses.fr/2017USPCB051/document.

Full text

Abstract:

Le déferlement numérique qui caractérise l’ère scientifique moderne a entraîné l’apparition de nouveaux types de données partageant une démesure commune : l’acquisition simultanée et rapide d’un très grand nombre de quantités observables. Qu’elles proviennent de puces ADN, de spectromètres de masse ou d’imagerie par résonance nucléaire, ces bases de données, qualifiées de données de grande dimension, sont désormais omniprésentes, tant dans le monde scientifique que technologique. Le traitement de ces données de grande dimension nécessite un renouvellement profond de l’arsenal statistique traditionnel, qui se trouve inadapté à ce nouveau cadre, notamment en raison du très grand nombre de variables impliquées. En effet, confrontée aux cas impliquant un plus grand nombre de variables que d’observations, une grande partie des techniques statistiques classiques est incapable de donner des résultats satisfaisants. Dans un premier temps, nous introduisons les problèmes statistiques inhérents aux modelés de données de grande dimension. Plusieurs solutions classiques sont détaillées et nous motivons le choix de l’approche empruntée au cours de cette thèse : le paradigme bayésien de sélection de modèles. Ce dernier fait ensuite l’objet d’une revue de littérature détaillée, en insistant sur plusieurs développements récents. Viennent ensuite trois chapitres de contributions nouvelles à la sélection de modèles en grande dimension. En premier lieu, nous présentons un nouvel algorithme pour la régression linéaire bayésienne parcimonieuse en grande dimension, dont les performances sont très bonnes, tant sur données réelles que simulées. Une nouvelle base de données de régression linéaire est également introduite : il s’agit de prédire la fréquentation du musée d’Orsay à l’aide de données vélibs. Ensuite, nous nous penchons sur le problème de la sélection de modelés pour l’analyse en composantes principales (ACP). En nous basant sur un résultat théorique nouveau, nous effectuons les premiers calculs exacts de vraisemblance marginale pour ce modelé. Cela nous permet de proposer deux nouveaux algorithmes pour l’ACP parcimonieuse, un premier, appelé GSPPCA, permettant d’effectuer de la sélection de variables, et un second, appelé NGPPCA, permettant d’estimer la dimension intrinsèque de données de grande dimension. Les performances empiriques de ces deux techniques sont extrêmement compétitives. Dans le cadre de données d’expression ADN notamment, l’approche de sélection de variables proposée permet de déceler sans supervision des ensembles de gènes particulièrement pertinents
The numerical surge that characterizes the modern scientific era led to the rise of new kinds of data united in one common immoderation: the simultaneous acquisition of a large number of measurable quantities. Whether coming from DNA microarrays, mass spectrometers, or nuclear magnetic resonance, these data, usually called high-dimensional, are now ubiquitous in scientific and technological worlds. Processing these data calls for an important renewal of the traditional statistical toolset, unfit for such frameworks that involve a large number of variables. Indeed, when the number of variables exceeds the number of observations, most traditional statistics becomes inefficient. First, we give a brief overview of the statistical issues that arise with high-dimensional data. Several popular solutions are presented, and we present some arguments in favor of the method utilized and advocated in this thesis: Bayesian model uncertainty. This chosen framework is the subject of a detailed review that insists on several recent developments. After these surveys come three original contributions to high-dimensional model selection. A new algorithm for high-dimensional sparse regression called SpinyReg is presented. It compares favorably to state-of-the-art methods on both real and synthetic data sets. A new data set for high-dimensional regression is also described: it involves predicting the number of visitors in the Orsay museum in Paris using bike-sharing data. We focus next on model selection for high-dimensional principal component analysis (PCA). Using a new theoretical result, we derive the first closed-form expression of the marginal likelihood of a PCA model. This allows us to propose two algorithms for model selection in PCA. A first one called globally sparse probabilistic PCA (GSPPCA) that allows to perform scalable variable selection, and a second one called normal-gamma probabilistic PCA (NGPPCA) that estimates the intrinsic dimensionality of a high-dimensional data set. Both methods are competitive with other popular approaches. In particular, using unlabeled DNA microarray data, GSPPCA is able to select genes that are more biologically relevant than several popular approaches

APA, Harvard, Vancouver, ISO, and other styles

13

Lerasle, Matthieu. "Rééchantillonnage et sélection de modèles optimale pour l'estimation de la densité." Toulouse, INSA, 2009. http://eprint.insa-toulouse.fr/archive/00000290/.

Full text

Abstract:

Le principal objectif de cette thèse est d’étudier deux méthodes de calibration automatique de la pénalité pour la sélection de modèle. L’avantage de ces méthodes est double, d’une part, elles sont toujours implémentables, elles ont mˆeme souvent été utilisées dans des problèmes pratiques avec succès, d’autre part, elles sont optimales puisqu’elles permettent de sélectionner asymptotiquement le meilleur modèle. Il existe d’autres méthodes de pénalisation calculables en pratique, quand les données sont indépendantes. Néanmoins, en dehors des collections de modèles très réguliers, ces pénalités sont très pessimistes, voire dépendent de constantes inconnues comme la norme sup de la densité. De plus, quand on veut utiliser les preuves classiques pour des données mélangeantes, les pénalités que l’on obtient dépendent toujours de constantes inconnues de l’utilisateur (voir le chapitre 3). Le chapitre 2 étudie l’heuristique de pente et les pénalités par rééchantillonnage dans le cas de données indépendantes. On donne une condition suffisante pour que l’heuristique de la pente soit optimale, en utilisant l’inégalité de concentration de Talagrand pour le supremum du processus empirique. On étudie aussi l’approximation du processus empirique par sa version rééchantillonnée et on en déduit que la même condition suffit à garantir l’optimalité des méthodes par rééchantillonnage. Le chapitre 3 est consacré à l’étude de pénalités classiques quand les observations sont mélangeantes. On montre des inégalités oracles et l’adaptativité de l’estimateur sélectionné à la régularité de la densité. La pénalité dépend des coefficients de mélange qui peuvent parfois être évalués. Le chapitre 4 étend les résultats du chapitre 2 au cas de données mélangeantes. On montre ainsi que les méthodes de la pente et bootstrap sont également optimales dans ce cas, sous le même type de conditions. Ces nouvelles pénalités sont toujours calculables en pratique et le modèle sélectionné est asymptotiquement un oracle, ce qui améliore beaucoup les résultats du chapitre 3. Le chapitre 5 traite du problème des régions de confiance adaptatives. Contrairement au cas de l’estimation, cette adaptation n’est que très rarement possible. Quand elle l’est, nous construisons des régions adaptatives. En particulier, on améliore quelques résultats de concentration du chapitre 2 lorsque les données sont à valeurs réelles, notamment ceux des U-statistiques.

APA, Harvard, Vancouver, ISO, and other styles

14

Plancade, Sandra. "Estimation par sélection de modèles à partir de données partiellement observées." Paris 5, 2010. http://www.theses.fr/2010PA05S008.

Full text

Abstract:

Cette thèse regroupe des procédures d'estimation non paramétrique dans différents contextes mettant enjeu des données partiellement observées. Les estimateurs s'appuient sur la méthode de sélection de modèles initiée par Birgé et Massart pour une étude du risque L2 mais également sur une méthode de sélection de modèles ponctuelle, adaptée au risque en un point donné. La première partie de ce manuscrit est consacré à l'estimation de la densité de l'erreur de régression, et la deuxième partie à l'étude de modèles de survie : estimation du risque instantané en présent de censure à droite, et estimation de la fonction de distribution conditionnelle à partir de données censurées par intervalle, cas 1
This manuscript presents several non parametric estimation procedures in frameworks involving partially observed data. The estimators rely on the model selection method adapted to the L2 risk (following Birge and Massart procedure) and also to the risk at a given point. The first part of the manuscript is devoted to the estimation of regression error density, and the second part to survival analysis issues: estimation of the hazard rate in presence of right censoring and estimation of the conditional distribution function from interval censored data

APA, Harvard, Vancouver, ISO, and other styles

15

Baraud, Yannick. "Sélection de modèles et estimation adaptative dans différents cadres de régression." Paris 11, 1998. http://www.theses.fr/1998PA112002.

Full text

Abstract:

Cette these se consacre a l'estimation non parametrique de fonctions de regression. Plus precisement, on observe les couples (x#i, y#i) i = 1,,n contraints par la relation y#i = s(x#i) + #i. Les variables x#i sont des vecteurs de r#k, les #i des erreurs centrees supposees de meme loi et s la fonction dite de regression qu'il s'agit d'estimer. Nous etudions en particulier le modele autoregressif d'ordre k pour lequel x#i = #t(u#i,, u#i##k#+#1) et y#i = u#i#+#1. Etant donnee une collection d'espaces lineaires de dimension finie (modeles), notre strategie consiste a donner un critere de choix de modeles qui n'est fonction que des observations, et pour lequel l'estimateur des moindres carres sur le modele selectionne admet un risque quadratique proche du risque minimum sur la collection. Contrairement au cadre parametrique classique, en autorisant le nombre et la dimension des modeles a dependre de n, nous construisons ainsi des estimateurs ayant la propriete d'etre simultanement minimax sur la classe des boules de certains espaces de besov sous des conditions minimales d'integrabilite des erreurs. Sous l'hypothese a priori que la fonction s est additive, nous proposons des estimateurs additifs dont les vitesses de convergence minimax sont analogues a celles obtenues lorsque k = 1.

APA, Harvard, Vancouver, ISO, and other styles

16

Caron, François. "Inférence bayésienne pour la détermination et la sélection de modèles stochastiques." Ecole Centrale de Lille, 2006. http://www.theses.fr/2006ECLI0012.

Full text

Abstract:

On s'intéresse à l'ajout d'incertitudes supplémentaires dans les modèles de Markov cachés. L'inférence est réalisée dans un cadre bayésien à l'aide des méthodes de Monte Carlo. Dans un cadre multicapteur, on suppose que chaque capteur peut commuter entre plusieurs états de fonctionnement. Un modèle à saut original est développé et des algorithmes de Monte Carlo efficaces sont présentés pour différents types de situations, prenant en compte des données synchrones/asynchrones et le cas binaire capteur valide/défaillant. Le modèle/algorithme développé est appliqué à la localisation d'un véhicule terrestre équipé de trois capteurs, dont un récepteur GPS, potentiellement défaillant à cause de phénomènes de trajets multiples. On s'intéresse ensuite à l'estimation de la densité de probabilité des bruits d'évolution et de mesure dans les modèles de Markov cachés, à l'aide des mélanges de processus de Dirichlet. Le cas de modèles linéaires est tout d'abord étudié, et des algorithmes MCMC et de filtrage particulaire sont développés. Ces algorithmes sont testés sur trois applications différentes. Puis le cas de l'estimation des densités de probabilité des bruits dans les modèles non linéaires est étudié. On définit pour cela des processus de Dirichlet variant temporellement, permettant l'estimation en ligne d'une densité de probabilité non stationnaire
We are interested in the addition of uncertainty in hidden Markov models. The inference is made in a Bayesian framework based on Monte Carlo methods. We consider multiple sensors that may switch between several states of work. An original jump model is developed for different kind of situations, including synchronous/asynchronous data and the binary valid/invalid case. The model/algorithm is applied to the positioning of a land vehicle equipped with three sensors. One of them is a GPS receiver, whose data are potentially corrupted due to multipaths phenomena. We consider the estimation of the probability density function of the evolution and observation noises in hidden Markov models. First, the case of linear models is addressed and MCMC and particle filter algorithms are developed and applied on three different applications. Then the case of the estimation of probability density functions in nonlinear models is addressed. For that purpose, time-varying Dirichlet processes are defined for the online estimation of time-varying probability density functions

APA, Harvard, Vancouver, ISO, and other styles

17

André, Jean-Baptiste. "Niveaux de sélection chez les microparasites : virulence, coopération, mutation." Montpellier 2, 2003. http://www.theses.fr/2003MON20172.

Full text

APA, Harvard, Vancouver, ISO, and other styles

18

Sauvé, Marie. "Sélection de modèles en régression non gaussienne : applications à la sélection de variables et aux tests de survie accélérés." Paris 11, 2006. http://www.theses.fr/2006PA112201.

Full text

Abstract:

Cette thèse traite de la sélection de modèles en régression non gaussienne. Notre but est d’obtenir des informations sur une fonction s dont on n’observe qu’un certain nombre de valeurs perturbées par des bruits non nécessairement gaussiens. Dans un premier temps, nous considérons des modèles de fonctions constantes par morceaux associés à une collection de partitions de l’ensemble de définition de s. Nous déterminons un critère des moindres carrés pénalisés qui permet de sélectionner une partition dont l’estimateur associé (de type regressogramme) vérifie une inégalité de type oracle. La sélection d’un modèle de fonctions constantes par morceaux ne conduit pas en général à une bonne estimation de s, mais permet notamment de détecter les ruptures de s. Nous proposons aussi une méthode non linéaire de sélection de variables qui repose sur l’application de plusieurs procédures CART et sur la sélection d’un modèle de fonctions constantes par morceaux. Dans un deuxième temps, nous considérons des modèles de fonctions polynomiales par morceaux, dont les qualités d’approximation sont meilleures. L’objectif est d’estimer s par un polynôme par morceaux dont le degré peut varier d’un morceau à l’autre. Nous déterminons un critère pénalisé qui sélectionne une partition et une série de degrés dont l’estimateur polynomial par morceaux associé vérifie une inégalité de type oracle. Nous appliquons aussi ce résultat pour déterminer les ruptures d’une fonction affine par morceaux. Ce dernier travail est motivé par la détermination d’un intervalle de stress convenable pour les tests de survie accélérés
This thesis deals with model selection in non Gaussian regression. Our aim is to get informations on a function s given only some values perturbed by noises non necessarily Gaussian. In a first part, we consider histogram models (i. E. Classes of piecewise constant functions) associated with a collection of partitions of the set on which s is defined. We determine a penalized least squares criterion which selects a partition whose associated estimator satisfies an oracle inequality. Selecting a histogram model does not always lead to an accurate estimation of s, but allows for example to detect the change-points of s. In order to perform variable selection, we also propose a non linear method which relies on the use of CART and on histogram model selection. In a second part, we consider piecewise polynomial models, whose approximation properties are better. We aim at estimating s with a piecewise polynomial whose degree can vary from region to region. We determine a penalized criterion which selects a partition and a series of degrees whose associated piecewise polynomial estimator satisfies an oracle inequality. We also apply this result to detect the change-points of a piecewise affine function. The aim of this last work is to provide an adequate stress interval for Accelerating Life Test

APA, Harvard, Vancouver, ISO, and other styles

19

Boisbunon, Aurélie. "Sélection de modèle : une approche décisionnelle." Phd thesis, Université de Rouen, 2013. http://tel.archives-ouvertes.fr/tel-00793898.

Full text

Abstract:

Cette thèse s'articule autour de la problématique de la sélection de modèle, étudiée dans le contexte de la régression linéaire. L'objectif est de déterminer le meilleur modèle de prédiction à partir de données mesurées, c'est-à-dire le modèle réalisant le meilleur compromis entre attache aux données et complexité du modèle. La contribution principale consiste en la dérivation de critères d'évaluation de modèles basés sur des techniques de théorie de la décision, plus précisément l'estimation de coût. Ces critères reposent sur une hypothèse distributionnelle plus large que l'hypothèse classique gaussienne avec indépendance entre les observations : la famille des lois à symétrie sphérique. Cette famille nous permet à la fois de nous affranchir de l'hypothèse d'indépendance et d'ajouter une plus grande robustesse puisque nos critères ne dépendent pas de la forme spécifique de la distribution. Nous proposons également une méthode de comparaison des critères dérivés au travers d'une mesure de type Erreur quadratique (MSE), qui permet de déterminer si un critère d'évaluation de modèle est meilleur qu'un autre. La seconde contribution attaque le problème de la construction des différents modèles comparés. Les collections de modèles considérées sont celles issues des méthodes de régularisation parcimonieuses, de type Lasso. En particulier, nous nous sommes intéressés à la Pénalité Concave Minimax (MCP), qui garde la sélection du Lasso tout en corrigeant son biais d'estimation. Cette pénalité correspond cependant à un problème non différentiable et non convexe. La généralisation des outils habituels de sous-différentielles grâce aux différentielles de Clarke a permis de déterminer les conditions d'optimalité et de développer un algorithme de chemin de régularisation pour le MCP. Enfin, nous comparons nos propositions avec celles de la littérature au travers d'une étude numérique, dans laquelle nous vérifions la qualité de la sélection. Les résultats montrent notamment que nos critères obtiennent des performances comparables à ceux de la littérature, et que les critères les plus couramment utilisés en pratique (validation croisée) ne sont pas toujours parmi les plus performants.

APA, Harvard, Vancouver, ISO, and other styles

20

Dehouche, Nassim. "Management de portefeuilles de projets : modèles multicritère d'évaluation, de sélection et d'argumentation." Thesis, Paris 9, 2014. http://www.theses.fr/2014PA090017.

Full text

Abstract:

Cette thèse traite du processus d’évaluation et de sélection de projets sur la base de critères multiples. Outre la capacité du modèle à permettre une identification efficace des meilleurs projets et leur intégration à un portefeuille, l’équité et la transparence sont des considérations importantes dans la conception de modèles d’appui à ce processus. Nous proposons un cadre de travail général pour l’évaluation de projets, Il reprend les codes de l’analyse SWOT, dont de nombreuses organisations orientées projets sont familières. Nos contributions apportent des éléments de réponse à la question de « l’après SWOT », à laquelle ces organisations peuvent éprouver des difficultés à répondre. Dans ce cadre de travail, nous introduisons et discutons un modèle de préférences permettant de mesurer l’importance des critères sur deux dimensions, représentant de manière indépendante leurs capacités de conviction et d’opposition. Suivant l’évaluation et en préalable à la sélection, le filtrage consiste à écarter les projets trop inadéquats. Nous proposons un mécanisme basé sur la dominance pour effectuer cette opération. Nous proposons, enfin, deux méthodes de sélection de projets, chacune étant basée sur une procédure d’agrégation multicritère originale. La première méthode, SPADE (pour Structure de Préférence pour l’Aide à la Décision) est une approche de surclassement, destinée à des contextes où les préférences exprimées concernent essentiellement les projets individuels, et dans lesquels les décisions concernant un projet peuvent être argumentées en référence à des projets tiers. Nous garantissons la validité théorique de SPADE, en amont, ce qui permet un temps de mise en œuvre réduit et une utilisation en temps réel. En pratique, nous illustrons l’application de SPADE, en la comparant à deux autres approches d’aide multicritères à la décision, MAUT et ELECTRE, en mettant en exergue ses spécificités. La seconde méthode, RADAR (Règles d’Aide à la Décision et à l’ARgumentation) est une approche à base de règles logiques. Elle est destinée à des contextes plus contraints dans lesquels les préférences exprimées concernent à la fois les projets individuels, mais aussi le portefeuille de projets (degré de diversification, budget total, etc.). De plus, l'argumentation des décisions est ici basée exclusivement sur la qualité intrinsèque des projets en référence à une norme fixe. RADAR permet également la construction automatique de tels arguments. Nous proposons un programme linéaire en variable mixtes permettant de valider théoriquement cette approche. Cependant, sa résolution est nécessaire à chaque mise en œuvre de RADAR, ce qui limite l’application de cette approche au temps différé. Nous illustrons une telle application sur un jeu de données représentant des évaluations de projets financés par le Fond des Nations Unies pour la Démocratie (UNDEF)
Project portfolio management (PPM) involves the use of methods and tools, allowing an organization to plan, evaluate, analyze and screen the execution of a set of projects or project proposals, sharing common resources or aiming at the attainment of common objectives. Multicriteria decision aid models are useful tools to support this process, given their ability to accurately model preferences, and rationally agregate points of view. However, existing models present some lacks that limit their use outside of academic circles : (i) They neglect the non-symetrical nature of the importance of some criteria that are relevant in PPM. (ii) The black box effect makes it hard to use them for the argumentation of decisions and to gain their acceptance by users (iii) They are implicitly fitted for private/for-profit projects, which limits their use in public organizations. In this thesis, our contribution consists in proposing two multicriteria methods for supporting the activities of evaluating, selecting and arguing decision, for project portfolio management. We propose: (i) An analysis of the specific features of public and private projects and their consequences for decision support (ii) A framework that allows an independent modeling of the abilities of a criterion to oppose and convince (iii) Two transparent multicriteria agregation procedures, fitted for different decision contexts. We ensure the theoretical validity of our approaches and illustrate their applicability on real data, with satisfying results

APA, Harvard, Vancouver, ISO, and other styles

21

Harroue, Benjamin. "Approche bayésienne pour la sélection de modèles : application à la restauration d’image." Thesis, Bordeaux, 2020. http://www.theses.fr/2020BORD0127.

Full text

Abstract:

L’inversion consiste à reconstruire des objets d’intérêt à partir de données acquises au travers d’un système d’observation. Dans ces travaux, nous nous penchons sur la déconvolution d’image. Les données observées constituent une version dégradée de l’objet, altéré par le système (flou et bruit). A cause de la perte d’informations engendrée, le problème devient alors mal conditionné. Une solution est de régulariser dans un cadre bayésien : en se basant sur des modèles, on introduit de l’information a priori sur les inconnues. Se posent alors les questions suivantes : comment comparer les modèles candidats et choisir le meilleur ? Sur quel critère faut-il s’appuyer ? A quelles caractéristiques ou quantités doit-on se fier ? Ces travaux présentent une méthode de comparaison et de sélection automatique de modèles, fondée sur la théorie de la décision bayésienne. La démarche consiste à sélectionner le modèle qui maximise la probabilité a posteriori. Pour calculer ces dernières, on a besoin de connaître une quantité primordiale : l’évidence. Elle s’obtient en marginalisant la loi jointe par rapport aux inconnus : l’image et les hyperparamètres. Les dépendances complexes entre les variables et la grande dimension de l’image rendent le calcul analytique de l’intégrale impossible. On a donc recours à des méthodes numériques. Dans cette première étude, on s’intéresse au cas gaussien circulant. Cela permet, d’une part, d’avoir une expression analytique de l’intégrale sur l’image, et d’autre part, de faciliter la manipulation des matrices de covariances. Plusieurs méthodes sont mises en œuvre comme l’algorithme du Chib couplé à une chaîne de Gibbs, les power posteriors, ou encore la moyenne harmonique. Les méthodes sont ensuite comparées pour déterminer lesquelles sont les plus adéquates au problème dela restauration d’image
Inversing main goal is about reconstructing objects from data. Here, we focus on the special case of image restauration in convolution problems. The data are acquired through a altering observation system and additionnaly distorted by errors. The problem becomes ill-posed due to the loss of information. One way to tackle it is to exploit Bayesian approach in order to regularize the problem. Introducing prior information about the unknown quantities osset the loss, and it relies on stochastic models. We have to test all the candidate models, in order to select the best one. But some questions remain : how do you choose the best model? Which features or quantities should we rely on ? In this work, we propose a method to automatically compare and choose the model, based on Bayesion decision theory : objectively compare the models based on their posterior probabilities. These probabilities directly depend on the marginal likelihood or “evidence” of the models. The evidence comes from the marginalization of the jointe law according to the unknow image and the unknow hyperparameters. This a difficult integral calculation because of the complex dependancies between the quantities and the high dimension of the image. That way, we have to work with computationnal methods and approximations. There are several methods on the test stand as Harmonic Mean, Laplace method, discrete integration, Chib from Gibbs approximation or the power posteriors. Comparing is those methods is significative step to determine which ones are the most competent in image restauration. As a first lead of research, we focus on the family of Gaussian models with circulant covariance matrices to lower some difficulties

APA, Harvard, Vancouver, ISO, and other styles

22

Villers, Fanny. "Tests et sélection de modèles pour l'analyse de données protéomiques et transcriptomiques." Paris 11, 2007. http://www.theses.fr/2007PA112198.

Full text

Abstract:

Les techniques permettant de recueillir des données d'expression pour un grand nombre de gènes ou protéines se sont développées ces dernières années. L'objet de cette thèse est de contribuer à l'apport de méthodes statistiques adaptées pour traiter ces données. Une première partie est consacrée à l’analyse différentielle de données protéomiques obtenues à partir d’images d’électrophorèse. Il s’agit de détecter les protéines dont l’abondance diffère selon différentes conditions expérimentales. Dans le cas où l’on compare plus de deux conditions simultanément, l’analyse différentielle consiste à détecter les composantes non nulles de l’espérance d’un vecteur gaussien dont les composantes ne sont pas indépendantes et dont la structure de dépendance est connue. Nous proposons une approche de type "sélection de modèles" basée sur la minimisation d'un critère des moindres carrés pénalisés. Les deux autres parties de la thèse concernent les modèles graphiques gaussiens, qui peuvent être utilisés pour décrire les réseaux d’interactions entre gènes. Dans la deuxième partie, nous présentons une étude basée sur des simulations afin de comparer les performances de plusieurs méthodes d'estimation de graphe. Dans la troisième partie nous proposons un test de validation de graphe. Les biologistes ont en effet souvent une bonne connaissance des relations directes entre gènes et nous proposons de tester si le graphe qui s'en déduit est correct. Pour cela nous construisons un test de voisinage de chaque sommet du graphe. Notre procédure est basée sur le test d'une hypothèse linéaire dans un modèle de régression multivariée dont les variables explicatives sont aléatoires
The techniques for gathering data expression for a large number of genes or proteins have grown in recent years. The purpose of this thesis is to provide statistical methods appropriate to treat these data. The first part concerns the differential analysis of proteomic data obtained from bidimensional electrophoresis. The aim is to detect the proteins whose abundance differs according to the experimental condition. When we compare simultaneously more than two conditions, this comes to detect the non-zero components of the mean of a Gaussian vector whose components are not independent and whose dependence structure is known. We propose a model selection approach based on the minimization of a penalized least squares criterion. The two other parts of the thesis concern Gaussian graphical models, that can be used to desribe interactions between genes. In the second part we propose a study based on simulations to compare the performances of several methods of graph estimation. In the third part we propose a test of graph. Indeed, biologists often have a previous knowledge of the genetic network and may want to assess the quality of their model thanks to gene expression data. To this aim we constructed a procedure for testing the neighborhoods of the nodes of the graph. Our procedure is based on the test of a linear hypothesis in a Gaussian linear regression in random Gaussian design

APA, Harvard, Vancouver, ISO, and other styles

23

Khadraoui, Lobna. "Sélection de copules archimédiennes dans un modèle semi-paramétrique." Master's thesis, Université Laval, 2018. http://hdl.handle.net/20.500.11794/30251.

Full text

Abstract:

Ce travail considère un modèle linéaire semi-paramétrique dont les erreurs sont modélisées par une copule choisie parmi la famille archimédienne ou bien la copule normale. La modélisation des erreurs par une copule apporte une ﬂexibilité et permet de caractériser la structure de dépendance d’une manière simple et eﬃcace. La simplicité réside dans le fait qu’un seul paramètre α contrôle le degré de dépendance présent dans les données. L’eﬃcacité réside dans le fait que ce modèle semi-paramétrique permet de lever des hypothèses standards souvent rencontrées en statistique appliquée à savoir la normalité et l’indépendance. Après une mise en œuvre du modèle basée sur une copule nous avons proposé une étude théorique du comportement asymptotique de l’estimateur du paramètre de dépendance α en montrant sa convergence et sa normalité asymptotique sous des hypothèses classiques de régularité. L’estimation des paramètres du modèle a été réalisée en maximisant une pseudo-vraisemblance. La sélection de la meilleure copule pour un jeu de données a été faite à l’aide du critère d’Akaike. Une comparaison avec le critère de la validation croisée a été proposée également. Enﬁn, une étude numérique sur des jeux de données simulés et réels a été proposée dans la sélection.
This work considers a semi-parametric linear model with error terms modeled by a copula chosen from the Archimedean family or the normal copula. The modeling of errors by a copula provides ﬂexibility and makes it possible to characterize the dependency structure in a simple and eﬀective manner. The simplicity lies in the fact that a single parameter α controls the degree of dependency present in the data. The eﬃciency is in the fact that this semi-parametric model weakens standard assumptions often encountered in applied statistics namely normality and independence. After an implementation of the model based on a copula we proposed a theoretical study on the asymptotic behavior of the estimator of the dependence parameter α by showing its consistency and its asymptotic normality under classical assumptions of regularity. Estimation of the model parameters is performed by maximizing a pseudo-likelihood. The selection of the best copula that ﬁts the data for each case is based on the Akaike selection criterion. A comparison with the criterion of cross-validation is presented as well. Finally, a numerical study on simulated and real data sets is proposed.

APA, Harvard, Vancouver, ISO, and other styles

24

Bah, Boubacar. "Le modèle du Look-down avec sélection." Thesis, Aix-Marseille, 2012. http://www.theses.fr/2012AIXM4711/document.

Full text

Abstract:

L'objectif de la thèse est d'étudier le modèle du look-down avec sélection dans le cas d'une population composée seulement de deux types génétiques, l'un deux bénéficiant d'un avantage sélectif. Dans cette thèse, cette sélection est modélisée par un taux de mort pour les individus non avantagés. Tout d'abord, nous nous intéressons dans le cas d'une population de taille infinie. Nous montrons que le modèle est bien défini. Nous montrons aussi que dans la limite d'une population de taille infinie, la proportion d'individu d'un type donné suit la diffusion de Wright-Fisher avec sélection. Ensuite nous étudions ce modèle dans le cas d'une population de taille finie et fixée. Nous proposons deux méthodes de convergence de ce modèle fini vers la diffusion deWright-Fisher avec sélection. Enfin, une autre approche est considérée. Nous étudions le modèle de look-down dans le cas d'une population de taille infinie en remplaçant le modèle de reproduction dual du coalescent de Kingman par le modèle de reproduction dual du Lambda-coalescent. Nous montrons d'abord que le modèle est bien défini. Ensuite nous montrons que la proportion de l'un des types converge en probabilité, quand la taille N de la population tend vers l'infini, vers un processus qui est solution d'une équation différentielle stochastique dirigée par processus ponctuel de Poisson. Pour finir, nous montrons que si Lambda-coalescent descend de l'infini alors l'un des types se fixe en temps fini
The purpose of the dissertation is to study the look-down model with selection in the case of a population composed only two alleles, one of them has a selective advantage. In this thesis, this selective advantage is modelled by a death rate for the wild-type allele. In the first part, we are interested in the case of a population of infinite size. We show the model is well defined. We show convergence in probability, as the population size tends to infinity, towards the Wright-Fisher diffusion with selection. In the second part we study a variant of the simplest look-down with selection where the size of the population is finite and fixed. We propose two methods of convergence of this finite model towards the Wright-Fisher diffusion with selection. Finally, another approach is considered. We study the look-down model with selection when we replace the usual reproduction model, which is dual to Kingman's coalescent by a population model dual to the Lambda-coalescent in the case of a population of infinite size. We first show this model is well defined. We show that the proportion of one of the two types converges in probability, as the population size N tends to infinity, towards the solution of a stochastic differential equation driven by a Poisson point process. Finally, we show that one of the two types fixate in finite time if and only if the Lambda-coalescent comes down from infinity

APA, Harvard, Vancouver, ISO, and other styles

25

Feki, Yassine. "Opérationnalisation des stratégies de sélection des prestataires logistiques." Thesis, Université Laval, 2013. http://www.theses.ulaval.ca/2013/29826/29826.pdf.

Full text

APA, Harvard, Vancouver, ISO, and other styles

26

Smadi, Charline. "Modèles probabilistes de populations : branchement avec catastrophes et signature génétique de la sélection." Thesis, Paris Est, 2015. http://www.theses.fr/2015PESC1035/document.

Full text

Abstract:

Cette thèse porte sur l'étude probabiliste des réponses démographique et génétique de populations à certains événements ponctuels. Dans une première partie, nous étudions l'impact de catastrophes tuant une fraction de la population et survenant de manière répétée, sur le comportement en temps long d'une population modélisée par un processus de branchement. Dans un premier temps nous construisons une nouvelle classe de processus, les processus de branchement à états continus avec catastrophes, en les réalisant comme l'unique solution forte d'une équation différentielle stochastique. Nous déterminons ensuite les conditions d'extinction de la population. Enfin, dans les cas d'absorption presque sûre nous calculons la vitesse d'absorption asymptotique du processus. Ce dernier résultat a une application directe à la détermination du nombre de cellules infectées dans un modèle d'infection de cellules par des parasites. En effet, la quantité de parasites dans une lignée cellulaire suit dans ce modèle un processus de branchement, et les "catastrophes" surviennent lorsque la quantité de parasites est partagée entre les deux cellules filles lors des divisions cellulaires. Dans une seconde partie, nous nous intéressons à la signature génétique laissée par un balayage sélectif. Le matériel génétique d'un individu détermine (pour une grande partie) son phénotype et en particulier certains traits quantitatifs comme les taux de naissance et de mort intrinsèque, ou sa capacité d'interaction avec les autres individus. Mais son génotype seul ne détermine pas son ``adaptation'' dans le milieu dans lequel il vit : l'espérance de vie d'un humain par exemple est très dépendante de l'environnement dans lequel il vit (accès à l'eau potable, à des infrastructures médicales,...). L'approche éco-évolutive cherche à prendre en compte l'environnement en modélisant les interactions entre les individus. Lorsqu'une mutation ou une modification de l'environnement survient, des allèles peuvent envahir la population au détriment des autres allèles : c'est le phénomène de balayage sélectif. Ces événements évolutifs laissent des traces dans la diversité neutre au voisinage du locus auquel l'allèle s'est fixé. En effet ce dernier ``emmène'' avec lui des allèles qui se trouvent sur les loci physiquement liés au locus sous sélection. La seule possibilité pour un locus de ne pas être ``emmené'' est l'occurence d'une recombination génétique, qui l'associe à un autre haplotype dans la population. Nous quantifions la signature laissée par un tel balayage sélectif sur la diversité neutre. Nous nous concentrons dans un premier temps sur la variation des proportions neutres dans les loci voisins du locus sous sélection sous différents scénarios de balayages. Nous montrons que ces différents scenari évolutifs laissent des traces bien distinctes sur la diversité neutre, qui peuvent permettre de les discriminer. Dans un deuxième temps, nous nous intéressons aux généalogies jointes de deux loci neutres au voisinage du locus sous sélection. Cela nous permet en particulier de quantifier des statistiques attendues sous certains scenari de sélection, qui sont utilisées à l'heure actuelle pour détecter des événements de sélection dans l'histoire évolutive de populations à partir de données génétiques actuelles. Dans ces travaux, la population évolue suivant un processus de naissance et mort multitype avec compétition. Si un tel modèle est plus réaliste que les processus de branchement, la non-linéarité introduite par les compétitions entre individus en rend l'étude plus complexe
This thesis is devoted to the probabilistic study of demographic and genetical responses of a population to some point wise events. In a first part, we are interested in the effect of random catastrophes, which kill a fraction of the population and occur repeatedly, in populations modeled by branching processes. First we construct a new class of processes, the continuous state branching processes with catastrophes, as the unique strong solution of a stochastic differential equation. Then we describe the conditions for the population extinction. Finally, in the case of almost sure absorption, we state the asymptotical rate of absorption. This last result has a direct application to the determination of the number of infected cells in a model of cell infection by parasites. Indeed, the parasite population size in a lineage follows in this model a branching process, and catastrophes correspond to the sharing of the parasites between the two daughter cells when a division occurs. In a second part, we focus on the genetic signature of selective sweeps. The genetic material of an individual (mostly) determines its phenotype and in particular some quantitative traits, as birth and intrinsic death rates, and interactions with others individuals. But genotype is not sufficient to determine "adaptation" in a given environment: for example the life expectancy of a human being is very dependent on his environment (access to drinking water, to medical infrastructures,...). The eco-evolutive approach aims at taking into account the environment by modeling interactions between individuals. When a mutation or an environmental modification occurs, some alleles can invade the population to the detriment of other alleles: this phenomenon is called a selective sweep and leaves signatures in the neutral diversity in the vicinity of the locus where the allele fixates. Indeed, this latter "hitchhiking” alleles situated on loci linked to the selected locus. The only possibility for an allele to escape this "hitchhiking" is the occurrence of a genetical recombination, which associates it to another haplotype in the population. We quantify the signature left by such a selective sweep on the neutral diversity. We first focus on neutral proportion variation in loci partially linked with the selected locus, under different scenari of selective sweeps. We prove that these different scenari leave distinct signatures on neutral diversity, which can allow to discriminate them. Then we focus on the linked genealogies of two neutral alleles situated in the vicinity of the selected locus. In particular, we quantify some statistics under different scenari of selective sweeps, which are currently used to detect recent selective events in current population genetic data. In these works the population evolves as a multitype birth and death process with competition. If such a model is more realistic than branching processes, the non-linearity caused by competitions makes its study more complex

APA, Harvard, Vancouver, ISO, and other styles

27

Baudry, Jean-Patrick. "Sélection de modèle pour la classification non superviséeChoix du nombre de classes." Paris 11, 2009. http://www.theses.fr/2009PA112265.

Full text

Abstract:

Le cadre principal de cette thèse est la classification non supervisée, traitée par une approche statistique dans le cadre des modèles de mélange. Plus particulièrement, nous nous intéressons au choix du nombre de classes et au critère de sélection de modèle ICL. Une approche fructueuse de son étude théorique consiste à considérer un contraste adapté à la classification non supervisée : ce faisant, un nouvel estimateur ainsi que de nouveaux critères de sélection de modèle sont proposés et étudiés. Des solutions pratiques pour leur calcul s'accompagnent de retombées positives pour le calcul du maximum de vraisemblance dans les modèles de mélange. La méthode de l'heuristique de pente est appliquée pour la calibration des critères pénalisés considérés. Aussi les bases théoriques en sont-elles rappelées en détails, et deux approches pour son application sont étudiées. Une autre approche de la classification non supervisée est considérée : chaque classe peut être modélisée elle-même par un mélange. Une méthode est proposée pour répondre notamment à la question du choix des composantes à regrouper. Enfin, un critère est proposé pour permettre de lier le choix du nombre de composantes, lorsqu'il est identifié au nombre de classes, à une éventuelle classification externe connue a priori
The reported works take place in the statistical framework of model-based clustering. We particularly focus on choosing the number of classes and on the ICL model selection criterion. A fruitful approach for theoretically studying it consists of considering a contrast related to the clustering purpose. This entails the definition and study of a new estimator and new model selection criteria. Practical solutions are provided to compute them, which can also be applied to the computation of the usual maximum likelihood estimator within mixture models. The slope heuristics is applied to the calibration of the considered penalized criteria. Thus its theoretical bases are recalled in details and two approaches for its application are studied. Another approach for model-based clustering is considered: each class itself may be modeled by a Gaussian mixture. A methodology is proposed, notably to tackle the question of which components have to be merged. Finally a criterion is proposed, which enables to choose a number of components ---~when identified to the number of classes~--- related to a known external classification

APA, Harvard, Vancouver, ISO, and other styles

28

Gendre, Xavier. "Estimation par sélection de modèle en régression hétéroscédastique." Phd thesis, Université de Nice Sophia-Antipolis, 2009. http://tel.archives-ouvertes.fr/tel-00397608.

Full text

Abstract:

Cette thèse s'inscrit dans les domaines de la statistique non-asymptotique et de la théorie statistique de la sélection de modèle. Son objet est la construction de procédures d'estimation de paramètres en régression hétéroscédastique. Ce cadre reçoit un intérêt croissant depuis plusieurs années dans de nombreux champs d'application. Les résultats présentés reposent principalement sur des inégalités de concentration et sont illustrés par des applications à des données simulées.

La première partie de cette thèse consiste dans l'étude du problème d'estimation de la moyenne et de la variance d'un vecteur gaussien à coordonnées indépendantes. Nous proposons une méthode de choix de modèle basée sur un critère de vraisemblance pénalisé. Nous validons théoriquement cette approche du point de vue non-asymptotique en prouvant des majorations de type oracle du risque de Kullback de nos estimateurs et des vitesses de convergence uniforme sur les boules de Hölder.

Un second problème que nous abordons est l'estimation de la fonction de régression dans un cadre hétéroscédastique à dépendances connues. Nous développons des procédures de sélection de modèle tant sous des hypothèses gaussiennes que sous des conditions de moment. Des inégalités oracles non-asymptotiques sont données pour nos estimateurs ainsi que des propriétés d'adaptativité. Nous appliquons en particulier ces résultats à l'estimation d'une composante dans un modèle de régression additif.

APA, Harvard, Vancouver, ISO, and other styles

29

Fauchart, Emmanuelle. "Deux formalisations des processus de sélection en théorie économique." Paris 1, 1996. http://www.theses.fr/1996PA010062.

Full text

Abstract:

La thèse identifie deux mécanismes de sélection différent. La sélection peut opérer par des chocs successifs perturbant séquentiellement une structure de proportions représentant des solutions alternatives où elle peut opérer sous forme d'évaluation simultanée des performances relatives d'entités en concurrence. Alors que le premier mécanisme est indissociable de la présence de rendements croissants expliquant la convergence de la structure collective vers une structure stable, le second mécanisme peut être autant associé à des propriétés de rendements croissants que de rendements décroissants. On propose que l'action de la sélection à travers l'un ou l'autre de ces mécanismes est indissociable de l'émergence d'effets intertemporels donnant naissance à des irréversibilités. Ces irréversibilités sont la base de la fonction d'orientation et d'organisation de la sélection dans les dynamiques évolutionnaires. Ces effets intertemporels peuvent être soit individuels soit collectifs. Les effets collectifs contraignent davantage la dynamique évolutionnaire parce qu'ils reposent sur des interdépendances entre les membres de la population (d'adopteurs ou de firmes) qui impulse l'évolution. Au-delà des interdépendances intertemporelles indissociables de l'action de la sélection, d'autres facteurs orientant les dynamiques évolutionnaires sont identifiés
The thesis identifies two different mechanisms of selection : selection can perform either in the form of successive shocks perturbating a space of proportions or in the form of some simultaneous evaluation of the competing entities. Whereas the first mechanism is indissociable from increasing returns in order to make the collective structure converge towards some stable proportions, the second mechanism can be associated either with increasing or ( and) decreasing returns type of properties. We propose that the action of selection through either one of these two mechanisms is indissociable from the emergence of intertemporal effects giving rise to irreversibilities. These irreversibilities are the basis of the orientation and organization function of selection in evolutionary dynamics. These intertemporal effects can either be individual or( and) collective. Collective effects bear more irreversibilities in the dynamics because they lie on interdependencies among the members of the population (adopters or firms) impulsing the evolution. Besides intertemporal interdependencies arising from the sequencing of time, some other factors orienting evolutionary dynamics are identified

APA, Harvard, Vancouver, ISO, and other styles

30

Baey, Charlotte. "Modélisation de la variabilité inter-individuelle dans les modèles de croissance de plantes et sélection de modèles pour la prévision." Phd thesis, Ecole Centrale Paris, 2014. http://tel.archives-ouvertes.fr/tel-00985747.

Full text

Abstract:

La modélisation de la croissance des plantes a vu le jour à la fin du XXème siècle, à l'intersection de trois disciplines : l'agronomie, la botanique et l'informatique. Après un premier élan qui a donné naissance à un grand nombre de modèles, un deuxième courant a vu le jour au cours de la dernière décennie pour donner à ces modèles un formalisme mathématique et statistique. Les travaux développés dans cette thèse s'inscrivent dans cette démarche et proposent deux axes de développement, l'un autour de l'évaluation et de la comparaison de modèles, et l'autre autour de l'étude de la variabilité inter-plantes. Dans un premier temps, nous nous sommes intéressés à la capacité prédictive des modèles de croissance de plantes, en appliquant une méthodologie permettant de construire et d'évaluer des modèles qui seront utilisés comme outils prédictifs. Une première étape d'analyse de sensibilité permet d'identifier les paramètres les plus influents afin d'élaborer une version plus robuste de chaque modèle, puis les capacités prédictives des modèles sont comparées à l'aide de critères appropriés. %Cette étude a été appliquée au cas de la betterave sucrière. La deuxième partie de la thèse concerne la prise en compte de la variabilité inter-individuelle dans les populations de plantes. %Il existe en effet une forte variabilité entre plantes, d'origine génétique ou environnementale, dont il est nécessaire de tenir compte. Nous proposons dans cette thèse une approche basée sur l'utilisation de modèles (non linéaires) à effets mixtes pour caractériser cette variabilité. L'estimation paramétrique par maximum de vraisemblance nécessite l'utilisation de versions stochastiques de l'algorithme d'Espérance Maximisation basées sur des simulations de type Monte Carlo par Chaîne de Markov. Après une première application au cas de l'organogenèse chez la betterave sucrière, nous proposons une extension du modèle structure-fonction Greenlab à l'échelle de la population.%, appliqué aux cas de la betterave sucrière et du colza.

APA, Harvard, Vancouver, ISO, and other styles

31

Tran, Phuoc Nguyen. "Modèles de sélection d'interface et d'association flux/interface pour les terminaux mobiles multi-interfaces." Phd thesis, Télécom ParisTech, 2010. http://pastel.archives-ouvertes.fr/pastel-00564095.

Full text

Abstract:

La diversité des technologies d'accès radio (e.g., GPRS, UMTS, HSDPA, Wi-Fi, WiMAX, LTE ...), leur complémentarité en termes de couverture, des caractéristiques (e.g., la bande passante, QoS) et des possibilités commerciales pour les opérateurs conduisent au développement des terminaux mobiles intégrant simultanément plusieurs interfaces radio. La capacité des terminaux mobiles utilisant simultanément différentes interfaces offre de nombreux avantages intéressants, tels que l'accès permanent et omniprésent, la fiabilité, le partage de charge, l'agrégation de bande passante disponible et la sélection d'interface basée sur plusieurs critères, etc. Les terminaux mobiles avec plusieurs interfaces radio ont la possibilité de choisir la "meilleure" interface en fonction de plusieurs paramètres tels que les caractéristiques des applications, les préférences des utilisateurs, les caractéristiques du réseau, les politiques d'opérateur et les contraintes tarifaires, etc. Il devient également possible d'associer les applications aux différentes interfaces de réseau basant sur les exigences d'application. Dans cette thèse, nous abordons le problème de sélection d'interface où un terminal mobile équipé de plusieurs interfaces peut sélectionner à tout moment la meilleure interface ou la meilleure technologie d'accès selon plusieurs critères. Nous considérons le problème de décision pour la sélection d'interface. Le problème de décision est un problème très complexe. On peut avoir les différent approches pour la section d'interface (e.g., fonction de coût, fonction d'utilité, ou la politique). Chaque approche est considérée comme un angle d'attaque. Nous nous intéressons l'approche MADM qui est une approche prometteuse pour la décision avec plusieurs attributs. Nous investiguons ces méthodes dans le contexte de la sélection d'interface. L'objectif fondamental des méthodes MADM est de déterminer la solution optimale parmi plusieurs solutions. MADM comprend de nombreuses méthodes, comme SAW (Simple Additive Weighting), WP (Weighting Product) et TOPSIS (Technique for Order Preference by Similarity to Ideal Solution). Le premier objectif de ma thèse est d'étudier et d'analyser les méthodes de MADM pour le problème de sélection d'interface. La première contribution est de proposer une étude de simulation qui met en évidence des limites des méthodes de MADM dans le contexte de la sélection d'interface. Par exemple, TOPSIS a le problème "d'anomalie de classement". Ce problème se produit lorsqu'une interface à faible classement est retirée de la liste du candidat (e.g., un réseau est déconnecté), l'ordre de classement des interfaces changera anormalement. La deuxième contribution propose l'algorithme de DiA (Distance to the ideal Alternative) qui permet au terminal mobile de sélectionner dynamiquement la meilleure interface. Nous montrons que DiA n'a pas le problème "d'anomalie de classement" qui est le défaut de la méthode TOPSIS. Les résultats de simulation valident l'algorithme de DiA. La troisième contribution s'attaque au problème d'association flux/interface où un terminal mobile équipé de plusieurs interfaces doit associer une application à l'interface spécifique appropriée. Nous proposons tout d'abord une fonction d'utilité interface. Cette fonction d'utilité permet d'identifier l'interface qui satisfait des besoins d'application et économise la consommation d'énergie du terminal mobile. Nous proposons ensuite un premier modèle d'association flux/interface qui permet d'associer séquentiellement des applications aux interfaces. Les attributs de réseau tels que le délai d'accès et le coût monétaire sont également pris en compte dans le régime. L'algorithme de DiA est utilisé pour classer les interfaces basées sur les valeurs d'utilité interface et les attributs de réseau. Les résultats de simulation sont présentés pour valider le schéma proposé. De plus, nous proposons un deuxième modèle d'association flux/interface. Dans ce modèle, un terminal peut associer simultanément plusieurs applications aux interfaces de réseau. Le modèle vise à maximise l'utilité globale du terminal. Ce problème est un problème d'optimisation. En particulaire, il est lié aux problèmes d'optimisation heuristique stochastique (i.e., méta-heuristique) qui sont principalement basées sur les techniques de recherche dont les solutions et l'ordre de recherche basent sur les procédures aléatoires. En première étape, nous étudions et réalisons une étude de simulation des méthodes d'optimisation heuristique stochastique, e.g., la recherche locale, la recherche de Tabou, la méthode de recuit simulée. Nous proposons ensuite une technique de diversification orientée pour la recherche Tabou comme une amélioration. Cela permet à la recherche Tabou d'éviter de se retrouve piégée plusieurs fois dans l'optimum local et d'augmenter les performances de la recherche Tabou dans notre contexte. Les résultats de simulation montrent que la méthode modifiée a meilleure performance comparée avec les autres algorithmes méta-heuristique dans notre contexte. Nous nous dirigeons ensuite vers une approche au niveau de réseau pour le problème d'association flux/interface. Nous considérons un système des terminaux mobiles multi-interface. Chaque terminal peut associer des applications aux interfaces. Comme plusieurs terminaux en concurrence pour les ressources de réseau commun, le système est modélisé comme un jeu stratégique. Notre objectif est de trouver des stratégies d'équilibre de Nash pour le jeu. Nous avons laissé le jeu évoluer en fonction de la dynamique de Replicateur et observons si le système converge et si les points stationnaires sont des équilibres de Nash. Nous montrons que la dynamique de Replicateur est positivement corrélée et le système est un jeu potentiel. Notre système converge vers des points stationnaires qui comprennent tous les équilibres de Nash. En outre, les points stationnaires sont efficaces car ils optimisent l'utilité du système. Un point intéressant est que nos résultats sont validés pour une fonction d'utilité générale qui dépend de l'état du système. Pour valider notre modèle et démontrer que le système converge vers des équilibres de Nash, nous mettons en œuvre les scénarios de simulation en utilisant un algorithme d'apprentissage Nash avec un schéma d'allocation de bande passante spécifique ainsi que d'une fonction d'utilité qui prend en compte le niveau de satisfaction d'application et la consommation d'énergie.

APA, Harvard, Vancouver, ISO, and other styles

32

Sokolovska, Nataliya. "Contributions à l'estimation de modèles probabilistes discriminants : apprentissage semi-supervisé et sélection de caractéristiques." Phd thesis, Ecole nationale supérieure des telecommunications - ENST, 2010. http://tel.archives-ouvertes.fr/tel-00557662.

Full text

Abstract:

Dans cette thèse nous étudions l'estimation de modèles probabilistes discriminants, surtout des aspects d'apprentissage semi-supervisé et de sélection de caractéristiques. Le but de l'apprentissage semi-supervisé est d'améliorer l'efficacité de l'apprentissage supervisé en utilisant des données non étiquetées. Cet objectif est difficile à atteindre dans les cas des modèles discriminants. Les modèles probabilistes discriminants permettent de manipuler des représentations linguistiques riches, sous la forme de vecteurs de caractéristiques de très grande taille. Travailler en grande dimension pose des problèmes, en particulier computationnels, qui sont exacerbés dans le cadre de modèles de séquences tels que les champs aléatoires conditionnels (CRF). Sélectionner automatiquement les caractéristiques pertinentes s'avère alors intéressant et donne lieu à des modèles plus compacts et plus faciles à utiliser. Notre contribution est double. Nous introduisons une méthode originale et simple pour intégrer des données non étiquetées dans une fonction objectif semi-supervisé. Nous démontrons alors que l'estimateur semi-supervisé correspondant est asymptotiquement optimal. Le cas de la régression logistique est illustré par des résultats d'expériences. Nous proposons un algorithme d'estimation pour les CRF qui réalise une sélection de caractéristiques, par le truchement d'une pénalisation $L_1$. Nous présentons également les résultats d'expériences menées sur des tâches de traitement des langues, en analysant les performances en généralisation et les caractéristiques sélectionnées. Nous proposons finalement diverses pistes pour améliorer l'efficacité computationelle de cette technique.

APA, Harvard, Vancouver, ISO, and other styles

33

Saumard, Adrien. "Estimation par Minimum de Contraste Régulier et Heuristique de Pente en Sélection de Modèles." Phd thesis, Université Rennes 1, 2010. http://tel.archives-ouvertes.fr/tel-00569372.

Full text

Abstract:

Cette thèse est consacrée à l'étude théorique d'une méthode de calibration automatique des pénalités en sélection de modèles. Cette méthode se base sur une heuristique, appelée "heuristique de pente", qui stipule l'existence d'une pénalité minimale telle que la solution optimale du problème de pénalisation vaut deux fois celle-ci. En pratique, on estime la pénalité optimale en estimant préalablement la pénalité minimale, caractérisée par un changement brutal dans le comportement de la procédure de sélection de modèles autour de ce seuil de pénalisation. L'analyse théorique du phénomène de pente se base sur un contrôle à la constante près des déviations de l'excès de risque et de l'excès de risque empirique des estimateurs considérés, mesurant respectivement leur performance en prédiction et leur performance empirique. Ceci suggère en premier lieu, une forte spécification de la structure du problème étudié. Nous validons l'heuristique de pente dans un cadre général qui s'articule autour d'une notion nouvelle en M-estimation, que nous appelons "contraste régulier", et nous développons une méthodologie de preuve inédite, permettant de traiter à la fois la question des bornes supérieures et des bornes inférieures de déviation des excès de risque à modèle fixé. Nous retrouvons ainsi la plupart des résultats déjà connus sur l'heuristique de pente. En effet, nous donnons trois exemples d'estimation par minimum de contraste régulier, à savoir la régression par moindres carrés sur des modèles linéaires, l'estimation de la densité par moindres carrés sur des modèles affines et l'estimation de la densité par maximum de vraisemblance sur des ensembles convexes. Ceci nous permet d'étendre les résultats précédemment établis dans le cas de la régression à des modèles plus généraux et de valider l'heuristique de pente pour un risque non quadratique en considérant le cas de l'estimation par maximum de vraisemblance. Enfin, notre méthodologie de preuve fournit des pistes précises de recherche pour des situations non régulières, comme on en trouve en classification ou plus généralement en théorie de l'apprentissage statistique.

APA, Harvard, Vancouver, ISO, and other styles

34

Ollier, Edouard. "Sélection de modèles statistiques par méthodes de vraisemblance pénalisée pour l'étude de données complexes." Thesis, Lyon, 2017. http://www.theses.fr/2017LYSEN097.

Full text

Abstract:

Cette thèse est principalement consacrée au développement de méthodes de sélection de modèles par maximum de vraisemblance pénalisée dans le cadre de données complexes. Un premier travail porte sur la sélection des modèles linéaires généralisés dans le cadre de données stratifiées, caractérisées par la mesure d’observations ainsi que de covariables au sein de différents groupes (ou strates). Le but de l’analyse est alors de déterminer quelles covariables influencent de façon globale (quelque soit la strate) les observations mais aussi d’évaluer l’hétérogénéité de cet effet à travers les strates.Nous nous intéressons par la suite à la sélection des modèles non linéaires à effets mixtes utilisés dans l’analyse de données longitudinales comme celles rencontrées en pharmacocinétique de population. Dans un premier travail, nous décrivons un algorithme de type SAEM au sein duquel la pénalité est prise en compte lors de l’étape M en résolvant un problème de régression pénalisé à chaque itération. Dans un second travail, en s’inspirant des algorithmes de type gradient proximaux, nous simplifions l’étape M de l’algorithme SAEM pénalisé précédemment décrit en ne réalisant qu’une itération gradient proximale à chaque itération. Cet algorithme, baptisé Stochastic Approximation Proximal Gradient algorithm (SAPG), correspond à un algorithme gradient proximal dans lequel le gradient de la vraisemblance est approché par une technique d’approximation stochastique.Pour finir, nous présentons deux travaux de modélisation statistique, réalisés au cours de cette thèse
This thesis is mainly devoted to the development of penalized maximum likelihood methods for the study of complex data.A first work deals with the selection of generalized linear models in the framework of stratified data, characterized by the measurement of observations as well as covariates within different groups (or strata). The purpose of the analysis is then to determine which covariates influence in a global way (whatever the stratum) the observations but also to evaluate the heterogeneity of this effect across the strata.Secondly, we are interested in the selection of nonlinear mixed effects models used in the analysis of longitudinal data. In a first work, we describe a SAEM-type algorithm in which the penalty is taken into account during step M by solving a penalized regression problem at each iteration. In a second work, inspired by proximal gradient algorithms, we simplify the M step of the penalized SAEM algorithm previously described by performing only one proximal gradient iteration at each iteration. This algorithm, called Stochastic Approximation Proximal Gradient Algorithm (SAPG), corresponds to a proximal gradient algorithm in which the gradient of the likelihood is approximated by a stochastic approximation technique.Finally, we present two statistical modeling works realized during this thesis

APA, Harvard, Vancouver, ISO, and other styles

35

Truntzer, Caroline. "Évaluation de modèles pronostiques issus de l'analyse dutranscriptome." Phd thesis, Université Claude Bernard - Lyon I, 2007. http://tel.archives-ouvertes.fr/tel-00161161.

Full text

Abstract:

L'enjeu de l'étude du transcriptome est de proposer de nouveaux biomarqueurs pronostiques. Cette
étude soulève cependant de nombreuses questions statistiques dues à l'analyse simultanée de l'expression
de milliers de gènes pour un nombre restreint de patients. Nous nous sommes intéressés
à deux aspects de l'évaluation des modèles pronostiques issus de l'analyse du transcriptome. Dans
un premier temps, l'utilisation complémentaire de jeux de données simulés et publics nous a permis
de montrer que le choix de la méthode d'analyse la plus adaptée repose sur la manière dont ses
propriétés théoriques s'adaptent à la structure des données. Cette réflexion a été appliquée aux
analyses discriminante et inter-groupes. Dans un second temps, des simulations nous ont permis
d'estimer les contributions respectives des variables clinico-biologiques classiques et transcriptomiques
dans des modèles de survie. Les paramètres associés à la surestimation de la contribution
des biopuces ont été identifiés.

APA, Harvard, Vancouver, ISO, and other styles

36

Sidi, Zakari Ibrahim. "Sélection de variables et régression sur les quantiles." Thesis, Lille 1, 2013. http://www.theses.fr/2013LIL10081/document.

Full text

Abstract:

Ce travail est une contribution à la sélection de modèles statistiques et plus précisément à la sélection de variables dans le cadre de régression linéaire sur les quantiles pénalisée lorsque la dimension est grande. On se focalise sur deux points lors de la procédure de sélection : la stabilité de sélection et la prise en compte de variables présentant un effet de groupe. Dans une première contribution, on propose une transition des moindres carrés pénalisés vers la régression sur les quantiles (QR). Une approche de type bootstrap fondée sur la fréquence de sélection de chaque variable est proposée pour la construction de modèles linéaires (LM). Dans la majorité des cas, l’approche QR fournit plus de coefficients significatifs. Une deuxième contribution consiste à adapter certains algorithmes de la famille « Random » LASSO (Least Absolute Solution and Shrinkage Operator) au cadre de la QR et à proposer des méthodes de stabilité de sélection. Des exemples provenant de la sécurité alimentaire illustrent les résultats obtenus. Dans le cadre de la QR pénalisée en grande dimension, on établit la propriété d’effet groupement sous des conditions plus faibles ainsi que les propriétés oracles. Deux exemples de données réelles et simulées illustrent les chemins de régularisation des algorithmes proposés. La dernière contribution traite la sélection de variables pour les modèles linéaires généralisés (GLM) via la vraisemblance nonconcave pénalisée. On propose un algorithme pour maximiser la vraisemblance pénalisée pour une large classe de fonctions de pénalité non convexes. La propriété de convergence de l’algorithme ainsi que la propriété oracle de l’estimateur obtenu après une itération ont été établies. Des simulations ainsi qu’une application sur données réelles sont également présentées
This work is a contribution to the selection of statistical models and more specifically in the selection of variables in penalized linear quantile regression when the dimension is high. It focuses on two points in the selection process: the stability of selection and the inclusion of variables by grouping effect. As a first contribution, we propose a transition from the penalized least squares regression to quantiles regression (QR). A bootstrap approach based on frequency of selection of each variable is proposed for the construction of linear models (LM). In most cases, the QR approach provides more significant coefficients. A second contribution is to adapt some algorithms of "Random" LASSO (Least Absolute Shrinkage and Solution Operator) family in connection with the QR and to propose methods of selection stability. Examples from food security illustrate the obtained results. As part of the penalized QR in high dimension, the grouping effect property is established under weak conditions and the oracle ones. Two examples of real and simulated data illustrate the regularization paths of the proposed algorithms. The last contribution deals with variable selection for generalized linear models (GLM) using the nonconcave penalized likelihood. We propose an algorithm to maximize the penalized likelihood for a broad class of non-convex penalty functions. The convergence property of the algorithm and the oracle one of the estimator obtained after an iteration have been established. Simulations and an application to real data are also presented

APA, Harvard, Vancouver, ISO, and other styles

37

Bouquet, Alban. "Amélioration de l'efficacité des programmes de sélection des bovins allaitants : de nouveaux modèles d'évaluation génétique." Phd thesis, AgroParisTech, 2009. http://pastel.archives-ouvertes.fr/pastel-00005713.

Full text

Abstract:

Mis en place dans les années 1980 et au début des années 1990, les modèles d'évaluation génétique des reproducteurs bovins allaitants en ferme (IBOVAL) et en stations de contrôle individuel (CI) et sur descendance (CD) reposent sur des hypothèses simples dont le non respect est à l'origine de biais dans la prédiction des valeurs génétiques. Ces biais peuvent induire un choix non optimal des reproducteurs et réduire ainsi l'efficacité de la sélection à court terme, mais aussi à plus long terme en privilégiant les reproducteurs issus de lignées familiales bien connues. Le travail présenté dans cette thèse contribue à l'amélioration des programmes de sélection allaitants en proposant de nouveaux modèles statistiques pour quantifier et éliminer certaines sources de biais des évaluations génétiques des reproducteurs bovins allaitants. Tout d'abord, un bilan détaillé de la diversité génétique des trois principales populations bovines allaitantes françaises a été réalisé à l'aide d'analyses de pedigree des animaux des bases de sélection Blonde d'Aquitaine, Charolaise et Limousine. Cette étude a montré que la diversité génétique est encore importante dans ces populations et largement suffisante pour garantir des marges de progrès génétique dans les générations futures. Elle a également permis de caractériser les populations d'animaux nés dans les élevages sélectionneurs, vendeurs de taureaux de monte naturelle ou approvisionnant en mâles les programmes de sélection des taureaux d'insémination artificielle (IA). Cette caractérisation a jeté les bases pour proposer de nouveaux modèles d'évaluation génétique des reproducteurs de bovins allaitants. Tout d'abord, le modèle IBOVAL actuel ne prend pas en compte correctement les différences de longueurs de pedigree existant dans les populations bovines allaitantes. En effet, il suppose que les parents inconnus proviennent d'une unique population de fondateurs génétiquement homogènes et défavorise ainsi les animaux aux généalogies les plus courtes en fixant leur valeur génétique prédite sur ascendance au niveau génétique de l'ensemble des fondateurs de la race. L'introduction de groupes de parents inconnus (GPI) dans le modèle d'évaluation permet de mieux intégrer les différences de niveau génétique existant dans la population des fondateurs. Une méthode a été élaborée et validée en race Charolaise pour définir des GPI robustes et homogènes d'après les flux de reproducteurs observés au sein de la population évaluée sur les performances au sevrage des veaux. L'inclusion de GPI dans le modèle IBOVAL s'avère utile pour améliorer l'efficacité à court terme de la sélection en race Charolaise, principalement sur la voie femelle. Elle contribue à améliorer sensiblement le choix des vaches pour le renouvellement des troupeaux ayant un taux élevé d'animaux nés de parents inconnus. En revanche, cela impacte peu le choix des reproducteurs mâles destinés à une large diffusion par IA parce que ces mâles sont essentiellement issus d'élevages spécialisés dans la vente de reproducteurs où les généalogies des animaux sont bien connues sur plusieurs générations. Les programmes de sélection des taureaux d'IA s'appuient sur une succession de trois étapes séquentielles d'évaluation et sélection, d'abord en ferme puis en stations de CI et de CD. A chaque étape, une évaluation génétique est réalisée à l'aide d'un modèle unicaractère ignorant les données qui ont servi à la sélection aux étapes précédentes. Un modèle multicaractère, combinant performances enregistrées en stations et performances homologues contrôlées en ferme dans les élevages approvisionnant le schéma IA, a été proposé pour éliminer les biais dus à la sélection des mâles entrant en stations. L'utilisation de ce modèle permet d'augmenter l'efficacité de la sélection par une meilleure précision des index, mais surtout par l'élimination des,biais dans la prédiction des valeurs génétiques en stations de CI et de CD et l'amélioration de la connexion entre séries évaluées au cours du temps. Si les reclassements des reproducteurs évalués en stations sont limités intra-série, ils peuvent être en revanche très sensibles entre séries évaluées en race Blonde d'Aquitaine ou Limousine, modulant l'utilisation des reproducteurs sélectionnés intra-série et donc la diffusion à large échelle de leur semence.

APA, Harvard, Vancouver, ISO, and other styles

38

Bouquet, Alban. "Amélioration de l'efficacité des programmes de sélection des bovins allaitants : de nouveaux modèles d’évaluation génétique." Paris, AgroParisTech, 2009. http://pastel.paristech.org/5713/01/Thèse_ABouquet_14janv2010.pdf.

Full text

Abstract:

Mis en place dans les années 1980 et au début des années 1990, les modèles d’évaluation génétique des reproducteurs bovins allaitants en ferme (IBOVAL) et en stations de contrôle individuel (CI) et sur descendance (CD) reposent sur des hypothèses simples dont le non respect est à l’origine de biais dans la prédiction des valeurs génétiques. Ces biais peuvent induire un choix non optimal des reproducteurs et réduire ainsi l’efficacité de la sélection à court terme, mais aussi à plus long terme en privilégiant les reproducteurs issus de lignées familiales bien connues. Le travail présenté dans cette thèse contribue à l’amélioration des programmes de sélection allaitants en proposant de nouveaux modèles statistiques pour quantifier et éliminer certaines sources de biais des évaluations génétiques des reproducteurs bovins allaitants. Tout d’abord, un bilan détaillé de la diversité génétique des trois principales populations bovines allaitantes françaises a été réalisé à l’aide d’analyses de pedigree des animaux des bases de sélection Blonde d’Aquitaine, Charolaise et Limousine. Cette étude a montré que la diversité génétique est encore importante dans ces populations et largement suffisante pour garantir des marges de progrès génétique dans les générations futures. Elle a également permis de caractériser les populations d’animaux nés dans les élevages sélectionneurs, vendeurs de taureaux de monte naturelle ou approvisionnant en mâles les programmes de sélection des taureaux d’insémination artificielle (IA). Cette caractérisation a jeté les bases pour proposer de nouveaux modèles d’évaluation génétique des reproducteurs de bovins allaitants. Tout d’abord, le modèle IBOVAL actuel ne prend pas en compte correctement les différences de longueurs de pedigree existant dans les populations bovines allaitantes. En effet, il suppose que les parents inconnus proviennent d’une unique population de fondateurs génétiquement homogènes et défavorise ainsi les animaux aux généalogies les plus courtes en fixant leur valeur génétique prédite sur ascendance au niveau génétique de l’ensemble des fondateurs de la race. L’introduction de groupes de parents inconnus (GPI) dans le modèle d’évaluation permet de mieux intégrer les différences de niveau génétique existant dans la population des fondateurs. Une méthode a été élaborée et validée en race Charolaise pour définir des GPI robustes et homogènes d’après les flux de reproducteurs observés au sein de la population évaluée sur les performances au sevrage des veaux. L’inclusion de GPI dans le modèle IBOVAL s’avère utile pour améliorer l’efficacité à court terme de la sélection en race Charolaise, principalement sur la voie femelle. Elle contribue à améliorer sensiblement le choix des vaches pour le renouvellement des troupeaux ayant un taux élevé d’animaux nés de parents inconnus. En revanche, cela impacte peu le choix des reproducteurs mâles destinés à une large diffusion par IA parce que ces mâles sont essentiellement issus d’élevages spécialisés dans la vente de reproducteurs où les généalogies des animaux sont bien connues sur plusieurs générations. Les programmes de sélection des taureaux d’IA s’appuient sur une succession de trois étapes séquentielles d’évaluation et sélection, d’abord en ferme puis en stations de CI et de CD. A chaque étape, une évaluation génétique est réalisée à l’aide d’un modèle unicaractère ignorant les données qui ont servi à la sélection aux étapes précédentes. Un modèle multicaractère, combinant performances enregistrées en stations et performances homologues contrôlées en ferme dans les élevages approvisionnant le schéma IA, a été proposé pour éliminer les biais dus à la sélection des mâles entrant en stations. L’utilisation de ce modèle permet d’augmenter l’efficacité de la sélection par une meilleure précision des index, mais surtout par l’élimination des,biais dans la prédiction des valeurs génétiques en stations de CI et de CD et l’amélioration de la connexion entre séries évaluées au cours du temps. Si les reclassements des reproducteurs évalués en stations sont limités intra-série, ils peuvent être en revanche très sensibles entre séries évaluées en race Blonde d’Aquitaine ou Limousine, modulant l’utilisation des reproducteurs sélectionnés intra-série et donc la diffusion à large échelle de leur semence.

APA, Harvard, Vancouver, ISO, and other styles

39

Tran, Phuoc Nguyen. "Modèles de sélection d'interface et d'association de flux/interface pour les terminaux mobiles multi-homés." Phd thesis, Paris, Télécom ParisTech, 2010. https://pastel.hal.science/pastel-00564095.

Full text

Abstract:

La diversité des technologies d'accès radio (e. G. , GPRS, UMTS, HSDPA, Wi-Fi, WiMAX, LTE. . . ), leur complémentarité en termes de couverture, des caractéristiques (e. G. , la bande passante, QoS) et des possibilités commerciales pour les opérateurs conduisent au développement des terminaux mobiles intégrant simultanément plusieurs interfaces radio. La capacité des terminaux mobiles utilisant simultanément différentes interfaces offre de nombreux avantages intéressants, tels que l'accès permanent et omniprésent, la fiabilité, le partage de charge, l’agrégation de bande passante disponible et la sélection d’interface basée sur plusieurs critères, etc. Les terminaux mobiles avec plusieurs interfaces radio ont la possibilité de choisir la «meilleure» interface en fonction de plusieurs paramètres tels que les caractéristiques des applications, les préférences des utilisateurs, les caractéristiques du réseau, les politiques d'opérateur et les contraintes tarifaires, etc. Il devient également possible d'associer les applications aux différentes interfaces de réseau basant sur les exigences d'application. Dans cette thèse, nous abordons le problème de sélection d’interface où un terminal mobile équipé de plusieurs interfaces peut sélectionner à tout moment la meilleure interface ou la meilleure technologie d'accès selon plusieurs critères. Nous considérons le problème de décision pour la sélection d’interface. Le problème de décision est un problème très complexe. On peut avoir les différent approches pour la section d’interface (e. G. , fonction de coût, fonction d’utilité, ou la politique). Chaque approche est considérée comme un angle d’attaque. Nous nous intéressons à l’approche MADM qui est une approche prometteuse pour la décision avec plusieurs attributs. Nous investiguons ces méthodes dans le contexte de la sélection d’interface
The diversity of radio access technologies (e. G. , GPRS, UMTS, HSDPA,Wi-Fi, WiMAX, LTE…), their complementary in terms of coverage area, technical characteristics (e. G. , bandwidth, QoS) and commercial opportunities for the operators lead to the development of mobile terminals integrating multiple radio interfaces. The ability of mobile terminals to support various interfaces provides many interesting benefits, such as permanent and ubiquitous access, reliability, load sharing/load balancing, bandwidth aggregation, and muti-criteria interface selection. Mobile terminals with several radio interfaces have the possibility to choose the ―best‖ interface according to several parameters such as application characteristics, user preferences, network characteristics, operator policies, tariff constraints, etc. It becomes also possible to associate the applications to the available network interfaces basing mainly on application requirements. In the thesis, we tackle the interface selection issue where a mobile terminal equipped with several interfaces has to select at any time the best interface or the best access technology according to multiple criteria. We particularly focus on the decision schemes and investigate the MADM methods. The fundamental objective of the MADM methods is to determine among a finite set of alternatives the optimal one. MADM includes many methods such as Simple Additive Weighting (SAW), Weighting Product (WP), and Technique for Order Preference by Similarity to Ideal Solution (TOPSIS)

APA, Harvard, Vancouver, ISO, and other styles

40

Zulian, Marine. "Méthodes de sélection et de validation de modèles à effets mixtes pour la médecine génomique." Thesis, Institut polytechnique de Paris, 2020. http://www.theses.fr/2020IPPAX003.

Full text

Abstract:

L'étude de phénomènes biologiques complexes tels que la physiopathologie humaine, la pharmacocinétique d'un médicament ou encore sa pharmacodynamie peut être enrichie par des approches de modélisation et de simulation. Les progrès technologiques de la génétique permettent la constitution de jeux de données issues de populations plus larges et plus hétérogènes. L'enjeu est alors de développer des outils intégrant les données génomiques et phénotypiques permettant d'expliquer la variabilité inter-individuelle. Dans cette thèse, nous développons des méthodes qui permettent de prendre en compte la complexité des données biologiques et la complexité des processus sous-jacents. Des étapes de curation des covariables génomiques nous permettent de restreindre le nombre de covariables potentielles ainsi que de limiter les corrélations entre covariables. Nous proposons un algorithme de sélection de covariables dans un modèle à effets mixtes dont la structure est contrainte par le processus physiologique étudié. En particulier, nous illustrons les méthodes développées sur deux applications issues de la médecine : des données réelles d'hypertension artérielle et des données simulées du métabolisme du tramadol (opioïde)
The study of complex biological phenomena such as human pathophysiology, pharmacokinetics of a drug or its pharmacodynamics can be enriched by modelling and simulation approaches. Technological advances in genetics allow the establishment of data sets from larger and more heterogeneous populations. The challenge is then to develop tools that integrate genomic and phenotypic data to explain inter-individual variability. In this thesis, we develop methods that take into account the complexity of biological data and the complexity of underlying processes. Curation steps of genomic covariates allow us to limit the number of potential covariates and limit correlations between covariates. We propose an algorithm for selecting covariates in a mixed effects model whose structure is constrained by the physiological process. In particular, we illustrate the developed methods on two medical applications: actual high blood pressure data and simulated tramadol (opioid) metabolism data

APA, Harvard, Vancouver, ISO, and other styles

41

Lavarde, Marc. "Fiabilité des semi-conducteurs, tests accélérés, sélection de modèles définis par morceaux et détection de sur-stress." Paris 11, 2007. http://www.theses.fr/2007PA112266.

Full text

Abstract:

Cette thèse traite de l'exploitation de données accélérées et de la sélection de modèles de régression dans un domaine de hautes technologies : les semi-conducteurs. Les données recueillies à la suite d'un test accéléré sont des données de régression. L'objectif du test est d'ajuster le comportement moyen du logarithme des durées de vie à l'aide d'une fonction f, dite fonction d'accélération. Cependant les données accélérées ont parfois des comportements complexes. Afin d'adapter la modélisation à ces comportements atypiques, nous avons cherché à détecter les changements de comportement de la fonction d'accélération. Nous proposons d'utiliser une collection de modèles de régressions définis par morceaux, pour chaque modèle candidat à l'estimation nous calculons l'estimateur des moindres carrés. Et nous sélectionnons le modèle final à l'aide d'un critère des moindres carrés pénalisés. L'estimateur pénalisé est une approximation optimale du modèle réel au sens où le risque de l'estimateur pénalisé est comparable au risque minimum parmi l'ensemble des modèles candidats. De plus, nous disposons d'une borne de risque non asymptotique. Et nous avons cherché à limiter les hypothèses de modélisation afin de prendre en compte un grand nombre de cas pratiques : nous avons envisager le cas d'usure (loi de durée de vie Lognormale) et le cas de chocs (loi de durée de vie Weibull). Nous avons mis en place des outils de sélection de modèles permettant à l'ingénieur de réaliser ses études de fiabilité sans a priori sur les modèles d'accélération et d'exploiter les données issues d'essais accélérés en sur-stress
This thesis deals with the using of accelerating data and regression model selection for high technology field: semiconductor chips. The accelerating trail gives us regression frameworks. The aim of the accelerating test consists on fitting the logarithm of the lifetime through the use of some function f, called the acceleration function. However, accelerating data may have misleading and complex comportment. In order to adapt the model with such data, we have proposed to detect the changes on the comportment of the acceleration function. We have considered a collection of piecewise acceleration models candidate to the estimation. For each model candidate we have estimated the least-squares estimation. And we have selected the final estimator using a penalized criterion. The penalized estimator is optimal approximation of the reality since the quadratic risk of penalized estimator is bounded by the minimal risk upon every least-squares estimators candidates. Moreover, this oracle inequality is non asymptotic. Furthermore, we have considered classical reliability cases: the Lognormal case associating with some fatigue failure, and the Weibull case associating with some choc failure. Lastly we have implemented model selection tools in order to realise survey study without a priori on the acceleration models and to use overstress trials

APA, Harvard, Vancouver, ISO, and other styles

42

Avalos, Marta. "Modèles additifs parcimonieux." Phd thesis, Université de Technologie de Compiègne, 2004. http://tel.archives-ouvertes.fr/tel-00008802.

Full text

Abstract:

De nombreux algorithmes d'estimation fonctionnelle existent pour l'apprentissage statistique supervisé. Cependant, ils ont pour la plupart été développés dans le but de fournir des estimateurs précis, sans considérer l'interprétabilité de la solution. Les modèles additifs permettent d'expliquer les prédictions simplement, en ne faisant intervenir qu'une variable explicative à la fois, mais ils sont difficiles à mettre en ouvre. Cette thèse est consacrée au développement d'un algorithme d'estimation des modèles additifs. D'une part, leur utilisation y est simplifiée, car le réglage de la complexité est en grande partie intégré dans la phase d'estimation des paramètres. D'autre part, l'interprétabilité est favorisée par une tendance à éliminer automatiquement les variables les moins pertinentes. Des stratégies d'accélération des calculs sont également proposées. Une approximation du nombre effectif de paramètres permet l'utilisation de critères analytiques de sélection de modèle. Sa validité est testée par des simulations et sur des données réelles.

APA, Harvard, Vancouver, ISO, and other styles

43

Martinez, Marie-José. "Modèles linéaires généralisés à effets aléatoires : contributions au choix de modèle et au modèle de mélange." Phd thesis, Université Montpellier II - Sciences et Techniques du Languedoc, 2006. http://tel.archives-ouvertes.fr/tel-00388820.

Full text

Abstract:

Ce travail est consacré à l'étude des modèles linéaires généralisés à effets aléatoires (GL2M). Dans ces modèles, sous une hypothèse de distribution normale des effets aléatoires, la vraisemblance basée sur la distribution marginale du vecteur à expliquer n'est pas, en général, calculable de façon formelle. Dans la première partie de notre travail, nous revisitons différentes méthodes d'estimation non exactes par le biais d'approximations réalisées à différents niveaux selon les raisonnements. La deuxième partie est consacrée à la mise en place de critères de sélection de modèles au sein des GL2M. Nous revenons sur deux méthodes d'estimation nécessitant la construction de modèles linéarisés et nous proposons des critères basés sur la vraisemblance marginale calculée dans le modèle linéarisé obtenu à la convergence de la procédure d'estimation. La troisième et dernière partie s'inscrit dans le cadre des modèles de mélanges de GL2M. Les composants du mélange sont définis par des GL2M et traduisent différents états possibles des individus. Dans le cadre de la loi exponentielle, nous proposons une méthode d'estimation des paramètres du mélange basée sur une linéarisation spécifique à cette loi. Nous proposons ensuite une méthode plus générale puisque s'appliquant à un mélange de GL2M quelconques. Cette méthode s'appuie sur une étape de Metropolis-Hastings pour construire un algorithme de type MCEM. Les différentes méthodes développées sont testées par simulations.

APA, Harvard, Vancouver, ISO, and other styles

44

Guilloux, Agathe. "Inférence non paramétrique en statistique des durées de vie sous biais de sélection." Rennes 1, 2004. http://www.theses.fr/2004REN10058.

Full text

APA, Harvard, Vancouver, ISO, and other styles

45

Rohart, Florian. "Prédiction phénotypique et sélection de variables en grande dimension dans les modèles linéaires et linéaires mixtes." Thesis, Toulouse, INSA, 2012. http://www.theses.fr/2012ISAT0027/document.

Full text

Abstract:

Les nouvelles technologies permettent l'acquisition de données génomiques et post-génomiques de grande dimension, c'est-à-dire des données pour lesquelles il y a toujours un plus grand nombre de variables mesurées que d'individus sur lesquels on les mesure. Ces données nécessitent généralement des hypothèses supplémentaires afin de pouvoir être analysées, comme une hypothèse de parcimonie pour laquelle peu de variables sont supposées influentes. C'est dans ce contexte de grande dimension que nous avons travaillé sur des données réelles issues de l’espèce porcine et de la technologie haut-débit, plus particulièrement le métabolome obtenu à partir de la spectrométrie RMN et des phénotypes mesurés post-mortem pour la plupart. L'objectif est double : d'une part la prédiction de phénotypes d’intérêt pour la production porcine et d'autre part l'explicitation de relations biologiques entre ces phénotypes et le métabolome. On montre, grâce à une analyse dans le modèle linéaire effectuée avec la méthode Lasso, que le métabolome a un pouvoir prédictif non négligeable pour certains phénotypes importants pour la production porcine comme le taux de muscle et la consommation moyenne journalière. Le deuxième objectif est traité grâce au domaine statistique de la sélection de variables. Les méthodes classiques telles que la méthode Lasso et la procédure FDR sont investiguées et de nouvelles méthodes plus performantes sont développées : nous proposons une méthode de sélection de variables en modèle linéaire basée sur des tests d'hypothèses multiples. Cette méthode possède des résultats non asymptotiques de puissance sous certaines conditions sur le signal. De part les données annexes disponibles sur les animaux telles que les lots dans lesquels ils ont évolués ou les relations de parentés qu'ils possèdent, les modèles mixtes sont considérés. Un nouvel algorithme de sélection d'effets fixes est développé et il s'avère beaucoup plus rapide que les algorithmes existants qui ont le même objectif. Grâce à sa décomposition en étapes distinctes, l’algorithme peut être combiné à toutes les méthodes de sélection de variables développées pour le modèle linéaire classique. Toutefois, les résultats de convergence dépendent de la méthode utilisée. On montre que la combinaison de cet algorithme avec la méthode de tests multiples donne de très bons résultats empiriques. Toutes ces méthodes sont appliquées au jeu de données réelles et des relations biologiques sont mises en évidence
Recent technologies have provided scientists with genomics and post-genomics high-dimensional data; there are always more variables that are measured than the number of individuals. These high dimensional datasets usually need additional assumptions in order to be analyzed, such as a sparsity condition which means that only a small subset of the variables are supposed to be relevant. In this high-dimensional context we worked on a real dataset which comes from the pig species and high-throughput biotechnologies. Metabolomic data has been measured with NMR spectroscopy and phenotypic data has been mainly obtained post-mortem. There are two objectives. On one hand, we aim at obtaining good prediction for the production phenotypes and on the other hand we want to pinpoint metabolomic data that explain the phenotype under study. Thanks to the Lasso method applied in a linear model, we show that metabolomic data has a real prediction power for some important phenotypes for livestock production, such as a lean meat percentage and the daily food consumption. The second objective is a problem of variable selection. Classic statistical tools such as the Lasso method or the FDR procedure are investigated and new powerful methods are developed. We propose a variable selection method based on multiple hypotheses testing. This procedure is designed to perform in linear models and non asymptotic results are given under a condition on the signal. Since supplemental data are available on the real dataset such as the batch or the family relationships between the animals, linear mixed models are considered. A new algorithm for fixed effects selection is developed, and this algorithm turned out to be faster than the usual ones. Thanks to its structure, it can be combined with any variable selection methods built for linear models. However, the convergence property of this algorithm depends on the method that is used. The multiple hypotheses testing procedure shows good empirical results. All the mentioned methods are applied to the real data and biological relationships are emphasized

APA, Harvard, Vancouver, ISO, and other styles

46

Thouvenot, Vincent. "Estimation et sélection pour les modèles additifs et application à la prévision de la consommation électrique." Thesis, Université Paris-Saclay (ComUE), 2015. http://www.theses.fr/2015SACLS184/document.

Full text

Abstract:

L'électricité ne se stockant pas aisément, EDF a besoin d'outils de prévision de consommation et de production efficaces. Le développement de nouvelles méthodes automatiques de sélection et d'estimation de modèles de prévision est nécessaire. En effet, grâce au développement de nouvelles technologies, EDF peut étudier les mailles locales du réseau électrique, ce qui amène à un nombre important de séries chronologiques à étudier. De plus, avec les changements d'habitude de consommation et la crise économique, la consommation électrique en France évolue. Pour cette prévision, nous adoptons ici une méthode semi-paramétrique à base de modèles additifs. L'objectif de ce travail est de présenter des procédures automatiques de sélection et d'estimation de composantes d'un modèle additif avec des estimateurs en plusieurs étapes. Nous utilisons du Group LASSO, qui est, sous certaines conditions, consistant en sélection, et des P-Splines, qui sont consistantes en estimation. Nos résultats théoriques de consistance en sélection et en estimation sont obtenus sans nécessiter l'hypothèse classique que les normes des composantes non nulles du modèle additif soient bornées par une constante non nulle. En effet, nous autorisons cette norme à pouvoir converger vers 0 à une certaine vitesse. Les procédures sont illustrées sur des applications pratiques de prévision de consommation électrique nationale et locale.Mots-clés: Group LASSO, Estimateurs en plusieurs étapes, Modèle Additif, Prévision de charge électrique, P-Splines, Sélection de variables
French electricity load forecasting encounters major changes since the past decade. These changes are, among others things, due to the opening of electricity market (and economical crisis), which asks development of new automatic time adaptive prediction methods. The advent of innovating technologies also needs the development of some automatic methods, because we have to study thousands or tens of thousands time series. We adopt for time prediction a semi-parametric approach based on additive models. We present an automatic procedure for covariate selection in a additive model. We combine Group LASSO, which is selection consistent, with P-Splines, which are estimation consistent. Our estimation and model selection results are valid without assuming that the norm of each of the true non-zero components is bounded away from zero and need only that the norms of non-zero components converge to zero at a certain rate. Real applications on local and agregate load forecasting are provided.Keywords: Additive Model, Group LASSO, Load Forecasting, Multi-stage estimator, P-Splines, Variables selection

APA, Harvard, Vancouver, ISO, and other styles

47

Jin, Yinfu. "Identification Les paramètres des sols et sélection de modèles de comportement en utilisant des algorithmes génétiques." Thesis, Ecole centrale de Nantes, 2016. http://www.theses.fr/2016ECDN0017.

Full text

Abstract:

Le sujet de la thèse concerne l'identification des paramètres des sols et sélection de modèles de comportement en utilisant des algorithmes génétiques. Tout d'abord, une étude comparative sur l'identification des paramètres par différentes méthodes d'optimisation est effectuée. Ensuite, un algorithme génétique réel codé (RCGA) est conçu pour améliorer la performance d’un algorithme génétique ( GA ) dans l'identification des paramètres du sol. Par la suite, le RCGA est utilisé pour construire la formulation de la prédiction de la compressibilité des argiles remaniés basée sur la régression polynomiale évolutive (EPR) en utilisant l’indice des vides initial e0, la limite de liquidité wL et l’indice de plasticité IP. Ensuite, une procédure efficace pour identifier les paramètres d'argiles structurées est proposé e en employant le RCGA avec un modèle élastoviscoplastique anisotrope. Une procédure de validation est menée ainsi que des applications démontrant que la procédure est utile pratiquement avec une réduction du coût des essais au laboratoire. Enfin, le choix d'un modèle approprié pour les sable s avec les caractéristiques nécessaires en fonction des essais classiques et un moyen facile d'identifier les paramètres pour les applications géotechniques est discuté en utilisant le RCGA et différents modèles de sable. L’écrouissage plastique non - linéaire, l'implémentation d e la li g ne d'état critique avec l’effet d’enchevêtrement , les types et nombres d’essais et le niveau de déformation nécessaire sont discutés pour la sélection et l'utilisation des modèles de sable
The subject of this thesis is the identification of soil parameters and the selection of constitutive models using genetic algorithms. First, various optimization methods for identifying soil parameters are studied. Then, a real - coded genetic algorithm (RCGA) has been developed to improve the performance of genetic algorithms (GA) for identifying soil parameters. Subsequently, the RCG A is employed to construct a formula for predicting the compressibility of remolded clays by using an evolutionary polynomial regression ( EPR ) based on the initial void ratio e 0 , the liquid limit w L and the plastic index I P . Then, an efficient procedure fo r identifying the necessary parameters of soft structured clay s is propose d by employing the enhanced RCGA coupled with an advanced anisotropic elasto - viscoplastic model. This approach is then validated and several applications are developed to demonstrate that the procedure can be used with a reduction of the testing cost . F inally , an appropriate model of sand with the necessary features based on conventional tests and with an easy way of identifying parameters for geotechnical applications by employ ing th e RCGA and different sand models is selected. A discussion on nonlinear plastic stress - strain hardening , the incorporation of the critical state concept with interlocking effect , test types and numbers , and necessary strain level for the selection and use of sand models concludes the thesis

APA, Harvard, Vancouver, ISO, and other styles

48

Bourguignon, Pierre Yves Vincent. "Parcimonie dans les modèles Markoviens et application à l'analyse des séquences biologiques." Thesis, Evry-Val d'Essonne, 2008. http://www.theses.fr/2008EVRY0042.

Full text

Abstract:

Les chaînes de Markov constituent une famille de modèle statistique incontournable dans de nombreuses applications, dont le spectre s'étend de la compression de texte à l'analyse des séquences biologiques. Un problème récurrent dans leur mise en oeuvre face à des données réelles est la nécessité de compromettre l'ordre du modèle, qui conditionne la complexité des interactions modélisées, avec la quantité d'information fournies par les données, dont la limitation impacte négativement la qualité des estimations menées. Les arbres de contexte permettent une granularité fine dans l'établissement de ce compromis, en permettant de recourir à des longueurs de mémoire variables selon le contexte rencontré dans la séquence. Ils ont donné lieu à des outils populaires tant pour l'indexation des textes que pour leur compression (Context Tree Maximisation – CTM - et Context Tree Weighting - CTW). Nous proposons une extension de cette classe de modèles, en introduisant les arbres de contexte parcimonieux, obtenus par fusion de noeuds issus du même parent dans l'arbre. Ces fusions permettent une augmentation radicale de la granularité de la sélection de modèle, permettant ainsi de meilleurs compromis entre complexité du modèle et qualité de l'estimation, au prix d'une extension importante de la quantité de modèles mise en concurrence. Cependant, grâce à une approche bayésienne très similaire à celle employée dans CTM et CTW, nous avons pu concevoir une méthode de sélection de modèles optimisant de manière exacte le critère bayésien de sélection de modèles tout en bénéficiant d'une programmation dynamique. Il en résulte un algorithme atteignant la borne inférieure de la complexité du problème d'optimisation, et pratiquement tractable pour des alphabets de taille inférieure à 10 symboles. Diverses démonstrations de la performance atteinte par cette procédure sont fournies en dernière partie
Markov chains, as a universal model accounting for finite memory, discrete valued processes, are omnipresent in applied statistics. Their applications range from text compression to the analysis of biological sequences. Their practical use with finite samples, however, systematically require to draw a compromise between the memory length of the model used, which conditions the complexity of the interactions the model may capture, and the amount of information carried by the data, whose limitation negatively impacts the quality of estimation. Context trees, as an extension of the model class of Markov chains, provide the modeller with a finer granularity in this model selection process, by allowing the memory length to vary across contexts. Several popular modelling methods are based on this class of models, in fields such as text indexation of text compression (Context Tree Maximization and Context Tree Weighting). We propose an extension of the models class of context trees, the Parcimonious context trees, which further allow the fusion of sibling nodes in the context tree. They provide the modeller with a yet finer granularity to perform the model selection task, at the cost of an increased computational cost for performing it. Thanks to a bayesian approach of this problem borrowed from compression techniques, we succeeded at desiging an algorithm that exactly optimizes the bayesian criterion, while it benefits from a dynamic programming scheme ensuring the minimisation of the computational complexity of the model selection task. This algorithm is able to perform in reasonable space and time on alphabets up to size 10, and has been applied on diverse datasets to establish the good performances achieved by this approach

APA, Harvard, Vancouver, ISO, and other styles

49

Mellah, Kohi Meryem. "Modèle de caractérisation d'une bibliothèque CMOS : définition d'une sélection optimale d'éléments." Montpellier 2, 1995. http://www.theses.fr/1995MON20156.

Full text

Abstract:

Nous presentons dans ce travail une methode d'evaluation des performances des portes cmos, permettant de definir une strategie d'utilisation des elements d'une bibliotheque. Nous montrons qu'en utilisant un style regulier d'implantation, associe a une strategie de dimensionnement, nous pouvons modeliser les performances des portes logiques avec une precision proche de celle obtenue par caracterisation directe des performances des masques d'implantation. A partir des lois de caracterisation obtenues, le cout et l'efficacite des portes peuvent alors etre definis par rapport a leur dimensionnement, en mettant en evidence les parametres associes au layout et a la technologie. La notion de limite de charge est introduite et calculee pour chaque porte. Cette notion permet de definir les conditions d'utilisation des differents elements de la bibliotheque et de developper une strategie d'acceleration basee sur l'evaluation des facteurs de charge et leur comparaison a cette valeur limite. Cette strategie permet de faire le meilleur choix de selection des portes en fonction des retards imposes le long des chemins critiques. Ces resultats sont ensuite appliques a des bibliotheques de cellules standards. L'illustration avec des bibliotheques un micron montre comment interpreter, pour chaque element, les coefficients des lois de caracterisation en terme d'efficacite de portes. Les exemples d'application donnes sur la prediction des performances au niveau logique et pour la validation de la strategie d'acceleration illustrent l'efficacite de la methode proposee. La synthese de tous les resultats obtenus doit permettre de definir les conditions de realisation d'une bibliotheque de cellules optimales en terme de meilleur choix de portes

APA, Harvard, Vancouver, ISO, and other styles

50

Bekara, Maïza. "Optimisation de critères de choix de modèles pour un faible nombre de données." Paris 11, 2004. http://www.theses.fr/2004PA112139.

Full text

Abstract:

Dans ce travail, nous proposons un critère de choix de modèles fondé sur la divergence symétrique de Kullback. Le critère proposé, noté KICc, est une version améliorée du critère asymptotique KIC (Cavanaugh, Statistics and Probability Letters, vol. 42, 1999) pour un faible nombre de données. KICc est un estimateur exactement non biaisé pour les modèles de régression linéaires et approximativement non biaisé pour les modèles autorégressives et les modèles de régression non linéaires. Les deux critères KIC et KICc sont développés sous l'hypothèse que le modèle générateur est correctement spécifié ou sur-paramétré par le modèle candidat. Nous étudions, dans le cas où cette hypothèse n'est pas vérifiée, les propriétés du biais des deux estimateurs KIC et KICc et la qualité des modèles qu'ils sélectionnent. Nous considérons aussi le PKIC, une extension du critère KICc dans un cadre de modélisation où les données d'intérêt, appelées données futures, sont indirectement observées ou manquantes. Le KICc est proposé pour résoudre le problème de débruitage d'un signal déterministe noyé dans du bruit en utilisant une projection sur une base orthogonale. La séparation sous espaces signal et bruit est faite en retenant la base minimisant le critère KICc. Finalement, nous proposons une optimisation calculatoire d'un critère de sélection de modèles fondé sur le principe de la validation croisée et en utilisant la densité prédictive bayésienne comme modèle probabiliste pour les données futures. Le critère proposé, noté CVBPD, est un critère de sélection de modèles consistant pour les modèles de régression linéaire
In this work we propose a model selection criterion based on Kullback's symmetric divergence. The developed criterion, called KICc is a bias corrected version of the asymptotic criterion KIC (Cavanaugh, Statistics and Probability Letters, vol. 42, 1999). The correction is of particular use when the sample size is small or when the number of fitted parameters is moderate to large fraction of the sample size. KICc is an exactly unbiased estimator for linear regression models and appreciatively unbiased for autoregressive and nonlinear regression models. The two criteria KIC and KICc are developed under the assumption that the true model is correctly specified or overfitted by the candidate models. We investigate the bias properties and the model selection performance of the two criteria in the underfitted case. An extension of KICc, called PKIC is also developed for the case of future experiment where date of interest is missing or indirectly observed. The KICc is implemented to solve the problem of denoising by using orthogonal projection and thresholding. The threshold is obtained as the absolute value of the kth largest coefficient that minimizes KICc. Finally, we propose a computational optimization of a cross validation based model selection criterion that uses the Bayesian predictive density as candidate model and marginal likelihood as a cost function. The developed criterion, CVBPD, is a consistent model selection criterion for linear regression

APA, Harvard, Vancouver, ISO, and other styles

We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!