Log in

Relevant bibliographies by topics / Modèle bayésien non paramétrique / Dissertations / Theses

To see the other types of publications on this topic, follow the link: Modèle bayésien non paramétrique.

Dissertations / Theses on the topic 'Modèle bayésien non paramétrique'

Author: Grafiati

Published: 25 May 2024

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Modèle bayésien non paramétrique.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Rivoirard, Vincent. "Estimation bayésienne non paramétrique." Phd thesis, Université Paris-Diderot - Paris VII, 2002. http://tel.archives-ouvertes.fr/tel-00002149.

Full text

Abstract:

Dans le cadre d'une analyse par ondelettes, nous nous intéressons à l'étude statistique d'une classe particulière d'espaces de Lorentz : les espaces de Besov faibles qui apparaissent naturellement dans le contexte de la théorie maxiset. Avec des hypothèses de type "bruit blanc gaussien", nous montrons, grâce à des techniques bayésiennes, que les vitesses minimax des espaces de Besov forts ou faibles sont les mêmes. Les distributions les plus défavorables que nous exhibons pour chaque espace de Besov faible sont construites à partir des lois de Pareto et diffèrent en cela de celles des espaces de Besov forts. Grâce aux simulations de ces distributions, nous construisons des représentations visuelles des "ennemis typiques". Enfin, nous exploitons ces distributions pour bâtir une procédure d'estimation minimax, de type "seuillage" appelée ParetoThresh, que nous étudions d'un point de vue pratique. Dans un deuxième temps, nous nous plaçons sous le modèle hétéroscédastique de bruit blanc gaussien et sous l'approche maxiset, nous établissons la sous-optimalité des estimateurs linéaires par rapport aux procédures adaptatives de type "seuillage". Puis, nous nous interrogeons sur la meilleure façon de modéliser le caractère "sparse" d'une suite à travers une approche bayésienne. À cet effet, nous étudions les maxisets des estimateurs bayésiens classiques - médiane, moyenne - associés à une modélisation construite sur des densités à queues lourdes. Les espaces maximaux pour ces estimateurs sont des espaces de Lorentz, et coïncident avec ceux associés aux estimateurs de type "seuillage". Nous prolongeons de manière naturelle ce résultat en obtenant une condition nécessaire et suffisante sur les paramètres du modèle pour que la loi a priori se concentre presque sûrement sur un espace de Lorentz précis.

APA, Harvard, Vancouver, ISO, and other styles

2

Sodjo, Jessica. "Modèle bayésien non paramétrique pour la segmentation jointe d'un ensemble d'images avec des classes partagées." Thesis, Bordeaux, 2018. http://www.theses.fr/2018BORD0152/document.

Full text

Abstract:

Ce travail porte sur la segmentation jointe d’un ensemble d’images dans un cadre bayésien.Le modèle proposé combine le processus de Dirichlet hiérarchique (HDP) et le champ de Potts.Ainsi, pour un groupe d’images, chacune est divisée en régions homogènes et les régions similaires entre images sont regroupées en classes. D’une part, grâce au HDP, il n’est pas nécessaire de définir a priori le nombre de régions par image et le nombre de classes, communes ou non.D’autre part, le champ de Potts assure une homogénéité spatiale. Les lois a priori et a posteriori en découlant sont complexes rendant impossible le calcul analytique d’estimateurs. Un algorithme de Gibbs est alors proposé pour générer des échantillons de la loi a posteriori. De plus,un algorithme de Swendsen-Wang généralisé est développé pour une meilleure exploration dela loi a posteriori. Enfin, un algorithme de Monte Carlo séquentiel a été défini pour l’estimation des hyperparamètres du modèle.Ces méthodes ont été évaluées sur des images-test et sur des images naturelles. Le choix de la meilleure partition se fait par minimisation d’un critère indépendant de la numérotation. Les performances de l’algorithme sont évaluées via des métriques connues en statistiques mais peu utilisées en segmentation d’image
This work concerns the joint segmentation of a set images in a Bayesian framework. The proposed model combines the hierarchical Dirichlet process (HDP) and the Potts random field. Hence, for a set of images, each is divided into homogeneous regions and similar regions between images are grouped into classes. On the one hand, thanks to the HDP, it is not necessary to define a priori the number of regions per image and the number of classes, common or not.On the other hand, the Potts field ensures a spatial consistency. The arising a priori and a posteriori distributions are complex and makes it impossible to compute analytically estimators. A Gibbs algorithm is then proposed to generate samples of the distribution a posteriori. Moreover,a generalized Swendsen-Wang algorithm is developed for a better exploration of the a posteriori distribution. Finally, a sequential Monte Carlo sampler is defined for the estimation of the hyperparameters of the model.These methods have been evaluated on toy examples and natural images. The choice of the best partition is done by minimization of a numbering free criterion. The performance are assessed by metrics well-known in statistics but unused in image segmentation

APA, Harvard, Vancouver, ISO, and other styles

3

Elvira, Clément. "Modèles bayésiens pour l’identification de représentations antiparcimonieuses et l’analyse en composantes principales bayésienne non paramétrique." Thesis, Ecole centrale de Lille, 2017. http://www.theses.fr/2017ECLI0016/document.

Full text

Abstract:

Cette thèse étudie deux modèles paramétriques et non paramétriques pour le changement de représentation. L'objectif des deux modèles diffère. Le premier cherche une représentation en plus grande dimension pour gagner en robustesse. L'objectif est de répartir uniformément l’information d’un signal sur toutes les composantes de sa représentation en plus grande dimension. La recherche d'un tel code s'exprime comme un problème inverse impliquant une régularisation de type norme infinie. Nous proposons une formulation bayésienne du problème impliquant une nouvelle loi de probabilité baptisée démocratique, qui pénalise les fortes amplitudes. Deux algorithmes MCMC proximaux sont présentés pour approcher des estimateurs bayésiens. La méthode non supervisée présentée est appelée BAC-1. Des expériences numériques illustrent les performances de l’approche pour la réduction de facteur de crête. Le second modèle identifie un sous-espace pertinent de dimension réduite à des fins de modélisation. Mais les méthodes probabilistes proposées nécessitent généralement de fixer à l'avance la dimension du sous-espace. Ce travail introduit BNP-PCA, une version bayésienne non paramétrique de l'analyse en composantes principales. La méthode couple une loi uniforme sur les bases orthonormales à un a priori non paramétrique de type buffet indien pour favoriser une utilisation parcimonieuse des composantes principales et aucun réglage n'est nécessaire. L'inférence est réalisée à l'aide des méthodes MCMC. L'estimation de la dimension du sous-espace et le comportement numérique de BNP-PCA sont étudiés. Nous montrons la flexibilité de BNP-PCA sur deux applications
This thesis proposes Bayesian parametric and nonparametric models for signal representation. The first model infers a higher dimensional representation of a signal for sake of robustness by enforcing the information to be spread uniformly. These so called anti-sparse representations are obtained by solving a linear inverse problem with an infinite-norm penalty. We propose in this thesis a Bayesian formulation of anti-sparse coding involving a new probability distribution, referred to as the democratic prior. A Gibbs and two proximal samplers are proposed to approximate Bayesian estimators. The algorithm is called BAC-1. Simulations on synthetic data illustrate the performances of the two proposed samplers and the results are compared with state-of-the art methods. The second model identifies a lower dimensional representation of a signal for modelisation and model selection. Principal component analysis is very popular to perform dimension reduction. The selection of the number of significant components is essential but often based on some practical heuristics depending on the application. Few works have proposed a probabilistic approach to infer the number of significant components. We propose a Bayesian nonparametric principal component analysis called BNP-PCA. The proposed model involves an Indian buffet process to promote a parsimonious use of principal components, which is assigned a prior distribution defined on the manifold of orthonormal basis. Inference is done using MCMC methods. The estimators of the latent dimension are theoretically and empirically studied. The relevance of the approach is assessed on two applications

APA, Harvard, Vancouver, ISO, and other styles

4

Autin, Florent. "Point de vue maxiset en estimation non paramétrique." Phd thesis, Université Paris-Diderot - Paris VII, 2004. http://tel.archives-ouvertes.fr/tel-00008542.

Full text

Abstract:

Dans le cadre d'une analyse par ondelettes, nous étudions les propriétés statistiques de diverses classes de procédures. Plus précisément, nous cherchons à déterminer les espaces maximaux (maxisets) sur lesquels ces procédures atteignent une vitesse de convergence donnée. L'approche maxiset nous permet alors de donner une explication théorique à certains phénomènes observés en pratique et non expliqués par l'approche minimax. Nous montrons en effet que les estimateurs de seuillage aléatoire sont plus performants que ceux de seuillage déterministe. Ensuite, nous prouvons que les procédures de seuillage par groupes, comme certaines procédures d'arbre (proches de la procédure de Lepski) ou de seuillage par blocs, ont de meilleures performances au sens maxiset que les procédures de seuillage individuel. Par ailleurs, si les maxisets des estimateurs Bayésiens usuels construits sur des densités à queues lourdes sont de même nature que ceux des estimateurs de seuillage dur, nous montrons qu'il en est de même pour ceux des estimateurs Bayésiens construits à partir de densités Gaussiennes à grande variance et dont les performances numériques sont très bonnes.

APA, Harvard, Vancouver, ISO, and other styles

5

Naulet, Zacharie. "Développement d'un modèle particulaire pour la régression indirecte non paramétrique." Thesis, Paris Sciences et Lettres (ComUE), 2016. http://www.theses.fr/2016PSLED057/document.

Full text

Abstract:

Cette thèse porte sur les statistiques bayésiennes non paramétriques. La thèse est divisée en une introduction générale et trois parties traitant des aspects relativement différents des approches par mélanges (échantillonage, asymptotique, problème inverse). Dans les modèles de mélanges, le paramètre à inférer depuis les données est une fonction. On définit une distribution a priori sur un espace fonctionnel abstrait au travers d'une intégrale stochastique d'un noyau par rapport à une mesure aléatoire. Habituellement, les modèles de mélanges sont surtout utilisés dans les problèmes d'estimation de densités de probabilité. Une des contributions de ce manuscrit est d'élargir leur usage aux problèmes de régressions.Dans ce contexte, on est essentiellement concernés par les problèmes suivants:- Echantillonage de la distribution a posteriori- Propriétés asymptotiques de la distribution a posteriori- Problèmes inverses, et particulièrement l'estimation de la distribution de Wigner à partir de mesures de Tomographie Quantique Homodyne
This dissertation deals with Bayesian nonparametric statistics, in particular nonparametric mixture models. The manuscript is divided into a general introduction and three parts on rather different aspects of mixtures approaches (sampling, asymptotic, inverse problem). In mixture models, the parameter to infer from the data is a function. We set a prior distribution on an abstract space of functions through a stochastic integral of a kernel with respect to a random measure. Usually, mixture models were used primilary in probability density function estimation problems. One of the contributions of the present manuscript is to use them in regression problems.In this context, we are essentially concerned with the following problems :- Sampling of the posterior distribution- Asymptotic properties of the posterior distribution- Inverse problems, in particular the estimation of the Wigner distribution from Quantum Homodyne Tomography measurements

APA, Harvard, Vancouver, ISO, and other styles

6

Gayraud, Ghislaine. "Vitesses et procédures statistiques minimax dans des problèmes d'estimation et des tests d'hypothèses." Habilitation à diriger des recherches, Université de Rouen, 2007. http://tel.archives-ouvertes.fr/tel-00207687.

Full text

Abstract:

Mes travaux s'articulent autour de trois thématiques.
La première thèmatique porte sur la résolution via l'approche minimax de divers problèmes d'estimation et de tests d'hypothèses dans un cadre non-paramétrique.
En statistique Bayésienne non-paramétrique, je me suis intéressée à un problème d'estimation d'ensembles à niveau. Les résultats obtenus résultent de l'étude des propriétés asymptotiques d'estimation Bayésienne d'ensembles à niveau. Ce sont des résultats généraux au sens où la consistance et la vitesse de convergence de l'estimateur Bayésien sont établies pour une large classe de lois a priori.
La troisième thématique concerne un problème d'estimation paramétrique dans un modèle de déconvolution aveugle bruitée : il s'agit de restituer la loi du signal entrant. La consistance ainsi que la distribution asymptotique d'une nouvelle procédure d'estimation sont établies.

APA, Harvard, Vancouver, ISO, and other styles

7

Okabe, Shu. "Modèles faiblement supervisés pour la documentation automatique des langues." Electronic Thesis or Diss., université Paris-Saclay, 2023. http://www.theses.fr/2023UPASG091.

Full text

Abstract:

Face à la menace d'extinction de la moitié des langues parlées aujourd'hui d'ici la fin du siècle, la documentation des langues est un domaine de la linguistique notamment consacré à la collecte, annotation et archivage de données. Dans ce contexte, la documentation automatique des langues vise à outiller les linguistes pour faciliter différentes étapes de la documentation, à travers des approches de traitement automatique du langage.Dans le cadre du projet de documentation automatique CLD2025, cette thèse s'intéresse principalement à deux tâches : la segmentation en mots, identifiant les frontières des mots dans une transcription non segmentée d'une phrase enregistrée, ainsi que la génération de gloses interlinéaires, prédisant des annotations linguistiques pour chaque unité de la phrase. Pour la première, nous améliorons les performances des modèles bayésiens non paramétriques utilisés jusque là à travers une supervision faible, en nous appuyant sur des ressources disponibles de manière réaliste lors de la documentation, comme des phrases déjà segmentées ou des lexiques. Comme nous observons toujours une tendance de sur-segmentation dans nos modèles, nous introduisons un second niveau de segmentation : les morphèmes. Nos expériences avec divers types de modèles de segmentation à deux niveaux indiquent une qualité de segmentation sensiblement meilleure ; nous constatons, par ailleurs, les limites des approches uniquement statistiques pour différencier les mots des morphèmes.La seconde tâche concerne la génération de gloses, soit grammaticales, soit lexicales. Comme ces dernières ne peuvent pas être prédites en se basant seulement sur les données d'entraînement, notre modèle statistique d'étiquetage de séquences fait moduler, pour chaque phrase, les étiquettes possibles et propose une approche compétitive avec les modèles neuronaux les plus récents
In the wake of the threat of extinction of half of the languages spoken today by the end of the century, language documentation is a field of linguistics notably dedicated to the recording, annotation, and archiving of data. In this context, computational language documentation aims to devise tools for linguists to ease several documentation steps through natural language processing approaches.As part of the CLD2025 computational language documentation project, this thesis focuses mainly on two tasks: word segmentation to identify word boundaries in an unsegmented transcription of a recorded sentence and automatic interlinear glossing to predict linguistic annotations for each sentence unit.For the first task, we improve the performance of the Bayesian non-parametric models used until now through weak supervision. For this purpose, we leverage realistically available resources during documentation, such as already-segmented sentences or dictionaries. Since we still observe an over-segmenting tendency in our models, we introduce a second segmentation level: the morphemes. Our experiments with various types of two-level segmentation models indicate a slight improvement in the segmentation quality. However, we also face limitations in differentiating words from morphemes, using statistical cues only. The second task concerns the generation of either grammatical or lexical glosses. As the latter cannot be predicted using training data solely, our statistical sequence-labelling model adapts the set of possible labels for each sentence and provides a competitive alternative to the most recent neural models

APA, Harvard, Vancouver, ISO, and other styles

8

Vernet, Elodie Edith. "Modèles de mélange et de Markov caché non-paramétriques : propriétés asymptotiques de la loi a posteriori et efficacité." Thesis, Université Paris-Saclay (ComUE), 2016. http://www.theses.fr/2016SACLS418/document.

Full text

Abstract:

Les modèles latents sont très utilisés en pratique, comme en génomique, économétrie, reconnaissance de parole... Comme la modélisation paramétrique des densités d’émission, c’est-à-dire les lois d’une observation sachant l’état latent, peut conduire à de mauvais résultats en pratique, un récent intérêt pour les modèles latents non paramétriques est apparu dans les applications. Or ces modèles ont peu été étudiés en théorie. Dans cette thèse je me suis intéressée aux propriétés asymptotiques des estimateurs (dans le cas fréquentiste) et de la loi a posteriori (dans le cadre Bayésien) dans deux modèles latents particuliers : les modèles de Markov caché et les modèles de mélange. J’ai tout d’abord étudié la concentration de la loi a posteriori dans les modèles non paramétriques de Markov caché. Plus précisément, j’ai étudié la consistance puis la vitesse de concentration de la loi a posteriori. Enfin je me suis intéressée à l’estimation efficace du paramètre de mélange dans les modèles semi paramétriques de mélange
Latent models have been widely used in diverse fields such as speech recognition, genomics, econometrics. Because parametric modeling of emission distributions, that is the distributions of an observation given the latent state, may lead to poor results in practice, in particular for clustering purposes, recent interest in using non parametric latent models appeared in applications. Yet little thoughts have been given to theory in this framework. During my PhD I have been interested in the asymptotic behaviour of estimators (in the frequentist case) and the posterior distribution (in the Bayesian case) in two particuliar non parametric latent models: hidden Markov models and mixture models. I have first studied the concentration of the posterior distribution in non parametric hidden Markov models. More precisely, I have considered posterior consistency and posterior concentration rates. Finally, I have been interested in efficient estimation of the mixture parameter in semi parametric mixture models

APA, Harvard, Vancouver, ISO, and other styles

9

Mismer, Romain. "Convergence et spike and Slab Bayesian posterior distributions in some high dimensional models." Thesis, Sorbonne Paris Cité, 2019. http://www.theses.fr/2019USPCC064.

Full text

Abstract:

On s'intéresse d'abord au modèle de suite gaussienne parcimonieuse. Une approche bayésienne empirique sur l'a priori Spike and Slab permet d'obtenir la convergence à vitesse minimax du moment d'ordre 2 a posteriori pour des Slabs Cauchy et on prouve un résultat de sous-optimalité pour un Slab Laplace. Un meilleur choix de Slab permet d'obtenir la constante exacte. Dans le modèle d'estimation de densité, un a priori arbre de Polya tel que les variables de l'arbre ont une distribution de type Spike and Slab donne la convergence à vitesse minimax et adaptative pour la norme sup de la loi a posteriori et un théorème Bernstein-von Mises non paramétrique
The first main focus is the sparse Gaussian sequence model. An Empirical Bayes approach is used on the Spike and Slab prior to derive minimax convergence of the posterior second moment for Cauchy Slabs and a suboptimality result for the Laplace Slab is proved. Next, with a special choice of Slab convergence with the sharp minimax constant is derived. The second main focus is the density estimation model using a special Polya tree prior where the variables in the tree construction follow a Spike and Slab type distribution. Adaptive minimax convergence in the supremum norm of the posterior distribution as well as a nonparametric Bernstein-von Mises theorem are obtained

APA, Harvard, Vancouver, ISO, and other styles

10

Li, Shuxian. "Modélisation spatio-temporelle pour l'esca de la vigne à l'échelle de la parcelle." Thesis, Bordeaux, 2015. http://www.theses.fr/2015BORD0313/document.

Full text

Abstract:

L'esca de la vigne fait partie des maladies de dépérissement incurables dont l'étiologie n'est pas complément élucidée. Elle représente un des problèmes majeurs en viticulture. L'objectif général de cette thèse est d'améliorer la compréhension des processus épidémiques et des facteurs de risque. Pour ce faire, nous avons mené une étude quantitative du développement spatio-temporel de l'esca à l'échelle de la parcelle. Dans un premier temps, pour détecter d'éventuelles corrélations spatiales entre les cas de maladie, des tests statistiques non paramétriques sont appliqués aux données spatio-temporelles d'expression foliaires de l'esca pour 15 parcelles du bordelais. Une diversité de profils spatiaux, allant d'une distribution aléatoire à fortement structurée est trouvée. Dans le cas de structures très agrégées, les tests n'ont pas montré d'augmentation significative de la taille des foyers, ni de propagation secondaire locale à partir de ceps symptomatiques, suggérant un effet de l'environnement dans l'explication de cette agrégation. Dans le but de modéliser l'occurrence des symptômes foliaires, nous avons développé des modèles logistiques hiérarchiques intégrant à la fois des covariables exogènes liées à l'environnement et des covariables de voisinage de ceps déjà malades mais aussi un processus latent pour l'auto-corrélation spatio-temporelle. Les inférences bayésiennes sont réalisées en utilisant la méthode INLA (Inverse Nested Laplace Approximation). Les résultats permettent de conforter l'hypothèse du rôle significatif des facteurs environnementaux dans l'augmentation du risque d'occurrence des symptômes. L'effet de propagation de l'esca à petite échelle à partir de ceps déjà atteints situés sur le rang ou hors rang n'est pas montré. Un modèle autologistique de régression, deux fois centré, qui prend en compte de façon plus explicite la structure spatio-temporelle de voisinage, est également développé. Enfin, une méthode géostatistique d'interpolation de données de nature anisotropique atypique est proposée. Elle permet d'interpoler la variable auxiliaire de résistivité électrique du sol pour estimer à l'échelle de chaque plante de la parcelle, la réserve en eau du sol disponible pour la vigne. Les méthodes géostatistique et spatio-temporelles développées dans cette thèse ouvrent des perspectives pour identifier les facteurs de risques et prédire le développement de l'esca de la vigne dans des contextes agronomiques variés
Esca grapevine disease is one of the incurable dieback disease with the etiology not completely elucidated. It represents one of the major threats for viticulture around the world. To better understand the underlying process of esca spread and the risk factors of this disease, we carried out quantitative analyses of the spatio-temporal development of esca at vineyard scale. In order to detect the spatial correlation among the diseased vines, the non-parametric statistical tests were applied to the spatio-temporal data of esca foliar symptom expression for 15 vineyards in Bordeaux region. Among vineyards, a large range of spatial patterns, from random to strongly structured, were found. In the vineyards with strongly aggregated patterns, no significant increase in the size of cluster and local spread from symptomatic vines was shown, suggesting an effect of the environment in the explanation of this aggregation. To model the foliar symptom occurrence, we developed hierarchical logistic regression models by integrating exogenous covariates, covariates of neighboring symptomatic vines already diseased, and also a latent process with spatio-temporal auto-correlation. The Bayesian inferences of these models were performed by INLA (Inverse Nested Laplace Approximation) approach. The results confirmed the effect of environmental factors on the occurrence risk of esca symptom. The secondary locally spread of esca from symptomatic vines located on the same row or out of row was not shown. A two-step centered auto-logistic regression model, which explicitly integrated the spatio-temporal neighboring structure, was also developed. At last, a geostatistical method was proposed to interpolate data with a particular anisotropic structure. It allowed interpolating the ancillary variable, electrical resistivity of soil, which were used to estimate the available soil water content at vine-scale. These geostatistical methods and spatio-temporal statistical methods developed in this thesis offered outlook to identify risk factors, and thereafter to predict the development of esca grapevine disease in different agronomical contexts

APA, Harvard, Vancouver, ISO, and other styles

11

Löser, Kevin. "Apprentissage non-supervisé de la morphologie des langues à l’aide de modèles bayésiens non-paramétriques." Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLS203/document.

Full text

Abstract:

Un problème central contribuant à la grande difficulté du traitement du langage naturel par des méthodes statistiques est celui de la parcimonie des données, à savoir le fait que dans un corpus d'apprentissage donné, la plupart des évènements linguistiques n'ont qu'un nombre d'occurrences assez faible, et que par ailleurs un nombre infini d'évènements permis par une langue n'apparaitront nulle part dans le corpus. Les modèles neuronaux ont déjà contribué à partiellement résoudre le problème de la parcimonie en inférant des représentations continues de mots. Ces représentations continues permettent de structurer le lexique en induisant une notion de similarité sémantique ou syntaxique entre les mots. Toutefois, les modèles neuronaux actuellement les plus répandus n'offrent qu'une solution partielle au problème de la parcimonie, notamment par le fait que ceux-ci nécessitent une représentation distribuée pour chaque mot du vocabulaire, mais sont incapables d'attribuer une représentation à des mots hors vocabulaire. Ce problème est particulièrement marqué dans des langues morphologiquement riches, ou des processus de formation de mots complexes mènent à une prolifération des formes de mots possibles, et à une faible coïncidence entre le lexique observé lors de l’entrainement d’un modèle, et le lexique observé lors de son déploiement. Aujourd'hui, l'anglais n'est plus la langue majoritairement utilisée sur le Web, et concevoir des systèmes de traduction automatique pouvant appréhender des langues dont la morphologie est très éloignée des langues ouest-européennes est un enjeu important. L’objectif de cette thèse est de développer de nouveaux modèles capables d’inférer de manière non-supervisée les processus de formation de mots sous-jacents au lexique observé, afin de pouvoir de pouvoir produire des analyses morphologiques de nouvelles formes de mots non observées lors de l’entraînement
A crucial issue in statistical natural language processing is the issue of sparsity, namely the fact that in a given learning corpus, most linguistic events have low occurrence frequencies, and that an infinite number of structures allowed by a language will not be observed in the corpus. Neural models have already contributed to solving this issue by inferring continuous word representations. These continuous representations allow to structure the lexicon by inducing semantic or syntactic similarity between words. However, current neural models only partially solve the sparsity issue, due to the fact that they require a vectorial representation for every word in the lexicon, but are unable to infer sensible representations for unseen words. This issue is especially present in morphologically rich languages, where word formation processes yield a proliferation of possible word forms, and little overlap between the lexicon observed during model training, and the lexicon encountered during its use. Today, several languages are used on the Web besides English, and engineering translation systems that can handle morphologies that are very different from western European languages has become a major stake. The goal of this thesis is to develop new statistical models that are able to infer in an unsupervised fashion the word formation processes underlying an observed lexicon, in order to produce morphological analyses of new unseen word forms

APA, Harvard, Vancouver, ISO, and other styles

12

Hadrich, Ben Arab Atizez. "Étude des fonctions B-splines pour la fusion d'images segmentées par approche bayésienne." Thesis, Littoral, 2015. http://www.theses.fr/2015DUNK0385/document.

Full text

Abstract:

Dans cette thèse nous avons traité le problème de l'estimation non paramétrique des lois de probabilités. Dans un premier temps, nous avons supposé que la densité inconnue f a été approchée par un mélange de base B-spline quadratique. Puis, nous avons proposé un nouvel estimateur de la densité inconnue f basé sur les fonctions B-splines quadratiques, avec deux méthodes d'estimation. La première est base sur la méthode du maximum de vraisemblance et la deuxième est basée sur la méthode d'estimation Bayésienne MAP. Ensuite, nous avons généralisé notre étude d'estimation dans le cadre du mélange et nous avons proposé un nouvel estimateur du mélange de lois inconnues basé sur les deux méthodes d'estimation adaptées. Dans un deuxième temps, nous avons traité le problème de la segmentation statistique semi supervisée des images en se basant sur le modèle de Markov caché et les fonctions B-splines. Nous avons montré l'apport de l'hybridation du modèle de Markov caché et les fonctions B-splines en segmentation statistique bayésienne semi supervisée des images. Dans un troisième temps, nous avons présenté une approche de fusion basée sur la méthode de maximum de vraisemblance, à travers l'estimation non paramétrique des probabilités, pour chaque pixel de l'image. Nous avons ensuite appliqué cette approche sur des images multi-spectrales et multi-temporelles segmentées par notre algorithme non paramétrique et non supervisé
In this thesis we are treated the problem of nonparametric estimation probability distributions. At first, we assumed that the unknown density f was approximated by a basic mixture quadratic B-spline. Then, we proposed a new estimate of the unknown density function f based on quadratic B-splines, with two methods estimation. The first is based on the maximum likelihood method and the second is based on the Bayesian MAP estimation method. Then we have generalized our estimation study as part of the mixture and we have proposed a new estimator mixture of unknown distributions based on the adapted estimation of two methods. In a second time, we treated the problem of semi supervised statistical segmentation of images based on the hidden Markov model and the B-sline functions. We have shown the contribution of hybridization of the hidden Markov model and B-spline functions in unsupervised Bayesian statistical image segmentation. Thirdly, we presented a fusion approach based on the maximum likelihood method, through the nonparametric estimation of probabilities, for each pixel of the image. We then applied this approach to multi-spectral and multi-temporal images segmented by our nonparametric and unsupervised algorithm

APA, Harvard, Vancouver, ISO, and other styles

13

Du, Rocher Martin. "Méthode de Denton et modèle non-paramétrique d'étalonnage." Mémoire, Université de Sherbrooke, 2009. http://savoirs.usherbrooke.ca/handle/11143/4831.

Full text

Abstract:

À l'heure actuelle, les modèles d'étalonnages sont basés soit sur un modèle de régression ou sur le principe de préservation de mouvement. Le principe de préservation de mouvement à l'inconvénient de ne pas tenir compte de l'erreur sur les observations de basse fréquence. Les modèles de régression n'ont pas ce désavantage, mais s'avèrent difficiles à modéliser. Pour cette raison, on suppose généralement un modèle simple conduisant à un résultat similaire à celui qu'offre le principe de préservation de mouvement. L'objectif de ce mémoire est donc de généraliser l'approche basé sur le principe de préservation de mouvement à un modèle non-paramétrique qui prend en charge l'erreur des mesures de basses fréquences. Pour cette problèmatique, on considère une série annuelle et une série infra-annuelle qui est typiquement soit mensuelle ou trimestrielle. Pour ces objets, le principe de préservation de mouvement vise à trouver une nouvelle série infra-annuelle cohérente avec sa série annuelle qui soit la plus"proche" de la série infra-annuelle originale. L'approche non-paramétrique consiste alors à définir une métrique tenant compte de toutes les sources d'informations. Au point de vu théorique, cette approche est hautement similaire au problème de spline d'ajustement sur lequel on s'appuie afin de justifier les résultats théoriques.

APA, Harvard, Vancouver, ISO, and other styles

14

Raoux, Jean-Jacques. "Modélisation non-linéaire des composants électroniques : du modèle analytique au modèle tabulaire paramétrique." Limoges, 1995. http://www.theses.fr/1995LIMO0006.

Full text

Abstract:

Le but de notre travail est la modelisation electrique des composants actifs. Nous avons envisage deux types d'approches. La premiere est une approche analytique qui necessite la mise en uvre d'une methode d'optimisation. Nous avons choisi la methode du recuit simule qui permet de simuler un processus de minimisation d'une fonction en mettant en uvre le critere de metropolis-boltzmann. La seconde approche est plus abstraite: elle consiste a determiner, a partir de tables issues des mesures, des equations respectant un certain nombre de contraintes. On obtient un modele par table. Les methodes d'interpolation ne peuvent convenir pour notre probleme car les erreurs de mesures peuvent induire des erreurs importantes sur les derivees. Nous avons donc mis au point une methode de modelisation a partir de splines d'approximation exprimees dans la base des b-splines et dont les deux principales etapes sont d'une part le developpement d'un algorithme autoadaptatif permettant d'optimiser la repartition des mesures dans l'intervalle d'etude et d'autre part une approche parametrique du probleme. L'integration du modele dans des simulateurs montre la fiabilite de celui-ci et son association au concept de circuit parametrique equivalent permet de simplifier et d'accelerer la resolution de l'equation d'equilibrage harmonique

APA, Harvard, Vancouver, ISO, and other styles

15

Mohdeb, Zaher. "Tests d'hypothèses linéaires dans un modèle de régression non paramétrique." Versailles-St Quentin en Yvelines, 1999. http://www.theses.fr/1999VERS0003.

Full text

Abstract:

Cette thèse est consacrée à la construction de tests d'hypothèses sur la fonction de régression f, d'un modèle de régression non paramétrique. Dans une première partie, on construit des tests d'hypothèses sur les coefficients de Fourier de f. De tels tests peuvent être utilisés pour comparer deux signaux bruites dans une bande donnée de fréquences. Les statistiques de test que nous utilisons, s'expriment en fonction des coefficients de Fourier empiriques de f. La deuxième partie porte sur le test de l'hypothèse f est un élément de e ou e est un espace vectoriel de dimension finie. Nous proposons deux statistiques de test $$r2 n et $$m 2 n basées sur deux approximations différentes de la distance dans l 2. La première est obtenue en estimant cette distance par la distance empirique des observations à l'espace e. La seconde est construite à l'aide des observations convenablement corrigées. Dans cette partie, nous supposons que les fonctions considérées sont holderiennes d'ordre strictement plus grand que 1/2 et nous obtenons le comportement asymptotique en loi de chacune des deux statistiques proposées. La troisième partie est une extension de la deuxième au cas où les fonctions sont Riemann-intégrables ; le comportement en loi de la statistique $$r2 n est alors sensiblement différent de celui obtenu dans la partie précédente, puisque l'on constate, dans le résultat limite, L'apparition d'un terme non négligeable. Cependant, ce terme supplémentaire est explicite et permet donc la construction de différents tests

APA, Harvard, Vancouver, ISO, and other styles

16

Arbel, Julyan. "Contributions à la statistique bayésienne non-paramétrique." Phd thesis, Université Paris Dauphine - Paris IX, 2013. http://tel.archives-ouvertes.fr/tel-01067718.

Full text

Abstract:

La thèse est divisée en deux parties portant sur deux aspects relativement différents des approches bayésiennes non-paramétriques. Dans la première partie, nous nous intéressons aux propriétés fréquentistes (asymptotiques) de lois a posteriori pour des paramètres appartenant à l'ensemble des suites réelles de carré sommable. Dans la deuxième partie, nous nous intéressons à des approches non-paramétriques modélisant des données d'espèces et leur diversité en fonction de certaines variables explicatives, à partir de modèles qui utilisent des mesures de probabilité aléatoires.

APA, Harvard, Vancouver, ISO, and other styles

17

Bartcus, Marius. "Bayesian non-parametric parsimonious mixtures for model-based clustering." Thesis, Toulon, 2015. http://www.theses.fr/2015TOUL0010/document.

Full text

Abstract:

Cette thèse porte sur l’apprentissage statistique et l’analyse de données multi-dimensionnelles. Elle se focalise particulièrement sur l’apprentissage non supervisé de modèles génératifs pour la classiﬁcation automatique. Nous étudions les modèles de mélanges Gaussians, aussi bien dans le contexte d’estimation par maximum de vraisemblance via l’algorithme EM, que dans le contexte Bayésien d’estimation par Maximum A Posteriori via des techniques d’échantillonnage par Monte Carlo. Nous considérons principalement les modèles de mélange parcimonieux qui reposent sur une décomposition spectrale de la matrice de covariance et qui oﬀre un cadre ﬂexible notamment pour les problèmes de classiﬁcation en grande dimension. Ensuite, nous investiguons les mélanges Bayésiens non-paramétriques qui se basent sur des processus généraux ﬂexibles comme le processus de Dirichlet et le Processus du Restaurant Chinois. Cette formulation non-paramétrique des modèles est pertinente aussi bien pour l’apprentissage du modèle, que pour la question diﬃcile du choix de modèle. Nous proposons de nouveaux modèles de mélanges Bayésiens non-paramétriques parcimonieux et dérivons une technique d’échantillonnage par Monte Carlo dans laquelle le modèle de mélange et son nombre de composantes sont appris simultanément à partir des données. La sélection de la structure du modèle est eﬀectuée en utilisant le facteur de Bayes. Ces modèles, par leur formulation non-paramétrique et parcimonieuse, sont utiles pour les problèmes d’analyse de masses de données lorsque le nombre de classe est indéterminé et augmente avec les données, et lorsque la dimension est grande. Les modèles proposés validés sur des données simulées et des jeux de données réelles standard. Ensuite, ils sont appliqués sur un problème réel diﬃcile de structuration automatique de données bioacoustiques complexes issues de signaux de chant de baleine. Enﬁn, nous ouvrons des perspectives Markoviennes via les processus de Dirichlet hiérarchiques pour les modèles Markov cachés
This thesis focuses on statistical learning and multi-dimensional data analysis. It particularly focuses on unsupervised learning of generative models for model-based clustering. We study the Gaussians mixture models, in the context of maximum likelihood estimation via the EM algorithm, as well as in the Bayesian estimation context by maximum a posteriori via Markov Chain Monte Carlo (MCMC) sampling techniques. We mainly consider the parsimonious mixture models which are based on a spectral decomposition of the covariance matrix and provide a ﬂexible framework particularly for the analysis of high-dimensional data. Then, we investigate non-parametric Bayesian mixtures which are based on general ﬂexible processes such as the Dirichlet process and the Chinese Restaurant Process. This non-parametric model formulation is relevant for both learning the model, as well for dealing with the issue of model selection. We propose new Bayesian non-parametric parsimonious mixtures and derive a MCMC sampling technique where the mixture model and the number of mixture components are simultaneously learned from the data. The selection of the model structure is performed by using Bayes Factors. These models, by their non-parametric and sparse formulation, are useful for the analysis of large data sets when the number of classes is undetermined and increases with the data, and when the dimension is high. The models are validated on simulated data and standard real data sets. Then, they are applied to a real diﬃcult problem of automatic structuring of complex bioacoustic data issued from whale song signals. Finally, we open Markovian perspectives via hierarchical Dirichlet processes hidden Markov models

APA, Harvard, Vancouver, ISO, and other styles

18

Prendes, Jorge. "New statistical modeling of multi-sensor images with application to change detection." Thesis, Université Paris-Saclay (ComUE), 2015. http://www.theses.fr/2015SACLC006/document.

Full text

Abstract:

Les images de télédétection sont des images de la surface de la Terre acquises par des satellites ou des avions. Ces images sont de plus en plus disponibles et leur technologies évoluent rapidement. On peut observer une amélioration des capteurs existants, mais de nouveaux types de capteurs ont également vu le jour et ont montré des propriétés intéressantes pour le traitement d'images. Ainsi, les images multispectrales et radar sont devenues très classiques.La disponibilité de différents capteurs est très intéressante car elle permet de capturer une grande variété de propriétés des objets. Ces propriétés peuvent être exploitées pour extraire des informations plus riches sur les objets. Une des applications majeures de la télédétection est la détection de changements entre des images multi-temporelles (images de la même scène acquise à des instants différents). Détecter des changements entre des images acquises par des capteurs homogènes est un problème classique. Mais le problème de la détection de changements entre images acquises par des capteurs hétérogènes est un problème beaucoup plus difficile.Avoir des méthodes de détection de changements adaptées aux images issues de capteurs hétérogènes est nécessaire pour le traitement de catastrophes naturelles. Des bases de données constituées d'images optiques sont disponible, mais il est nécessaire d'avoir de bonnes conditions climatiques pour les acquérir. En revanche, les images radar sont accessibles rapidement quelles que soient les conditions climatiques et peuvent même être acquises de nuit. Ainsi, détecter des changements entre des images optiques et radar est un problème d'un grand intérêt en télédétection.L'intérêt de cette thèse est d'étudier des méthodes statistiques de détention de changements adaptés aux images issues de capteurs hétérogènes.Chapitre 1 rappelle ce qu'on entend par une image de télédétection et résume rapidement quelques méthodes de détection de changements disponibles dans la littérature. Les motivations à développer des méthodes de détection de changements adaptées aux images hétérogènes et les difficultés associiées sont présentés.Chapitre 2 étudie les propriétés statistiques des images en l'absence de changements. Un modèle de mélange de lois adapté aux ces images est introduit. La performance des méthodes classiques de détection de changements est également étudiée. Dans plusieurs cas, ce modèle permet d'expliquer certains défauts de certaines méthodes de la literature.Chapitre 3 étudie les propriétés des paramètres du modèle introduit au chapitre 2 en faisant l'hypothèse qu'ils appartiennent à une variété en l'absence de changements. Cette hypothèse est utilisée pour définir une mesure de similarité qui permet d'éviter les défauts des approches statistiques classiques. Une méthode permettant d'estimer cette mesure de similarité est présentée. Enfin, la stratégie de détection de changements basée sur cette mesure est validée à l'aide d'images synthétiques.Chapitre 4 étudie un algorithme Bayésien non-paramétrique (BNP) qui permet d'améliorer l'estimation de la variété introduite au chapitre 3, qui est basé sur un processus de restaurant Chinois (CRP) et un champs de Markov qui exploite la corrélation spatiale entre des pixels voisins de l'image. Une nouvelle loi a priori de Jeffrey pour le paramètre de concentration de ce CRP est définit. L'estimation des paramètres de ce nouveau modèle est effectuée à l'aide d'un échantillonneur de Gibbs de type "collapsed Gibbs sampler". La stratégie de détection de changement issue de ce modèle non-paramétrique est validée à l'aide d'images synthétiques.Le dernier chapitre est destiné à la validation des algorithmes de détection de changements développés sur des jeux d'images réelles montrant des résultats encourageant pour tous les cas d'étude. Le modèle BNP permet d'obtenir de meilleurs performances que le modèle paramétrique, mais ceci se fait au prix d'une complexité calculatoire plus importante
Remote sensing images are images of the Earth surface acquired from satellites or air-borne equipment. These images are becoming widely available nowadays and its sensor technology is evolving fast. Classical sensors are improving in terms of resolution and noise level, while new kinds of sensors are proving to be useful. Multispectral image sensors are standard nowadays and synthetic aperture radar (SAR) images are very popular.The availability of different kind of sensors is very advantageous since it allows us to capture a wide variety of properties of the objects contained in a scene. These properties can be exploited to extract richer information about these objects. One of the main applications of remote sensing images is the detection of changes in multitemporal datasets (images of the same area acquired at different times). Change detection for images acquired by homogeneous sensors has been of interest for a long time. However the wide range of different sensors found in remote sensing makes the detection of changes in images acquired by heterogeneous sensors an interesting challenge.Accurate change detectors adapted to heterogeneous sensors are needed for the management of natural disasters. Databases of optical images are readily available for an extensive catalog of locations, but, good climate conditions and daylight are required to capture them. On the other hand, SAR images can be quickly captured, regardless of the weather conditions or the daytime. For these reasons, optical and SAR images are of specific interest for tracking natural disasters, by detecting the changes before and after the event.The main interest of this thesis is to study statistical approaches to detect changes in images acquired by heterogeneous sensors. Chapter 1 presents an introduction to remote sensing images. It also briefly reviews the different change detection methods proposed in the literature. Additionally, this chapter presents the motivation to detect changes between heterogeneous sensors and its difficulties.Chapter 2 studies the statistical properties of co-registered images in the absence of change, in particular for optical and SAR images. In this chapter a finite mixture model is proposed to describe the statistics of these images. The performance of classical statistical change detection methods is also studied by taking into account the proposed statistical model. In several situations it is found that these classical methods fail for change detection.Chapter 3 studies the properties of the parameters associated with the proposed statistical mixture model. We assume that the model parameters belong to a manifold in the absence of change, which is then used to construct a new similarity measure overcoming the limitations of classic statistical approaches. Furthermore, an approach to estimate the proposed similarity measure is described. Finally, the proposed change detection strategy is validated on synthetic images and compared with previous strategies.Chapter 4 studies Bayesian non parametric algorithm to improve the estimation of the proposed similarity measure. This algorithm is based on a Chinese restaurant process and a Markov random field taking advantage of the spatial correlations between adjacent pixels of the image. This chapter also defines a new Jeffreys prior for the concentration parameter of this Chinese restaurant process. The estimation of the different model parameters is conducted using a collapsed Gibbs sampler. The proposed strategy is validated on synthetic images and compared with the previously proposed strategy. Finally, Chapter 5 is dedicated to the validation of the proposed change detection framework on real datasets, where encouraging results are obtained in all cases. Including the Bayesian non parametric model into the change detection strategy improves change detection performance at the expenses of an increased computational cost

APA, Harvard, Vancouver, ISO, and other styles

19

Dallaire, Patrick. "Bayesian nonparametric latent variable models." Doctoral thesis, Université Laval, 2016. http://hdl.handle.net/20.500.11794/26848.

Full text

Abstract:

L’un des problèmes importants en apprentissage automatique est de déterminer la complexité du modèle à apprendre. Une trop grande complexité mène au surapprentissage, ce qui correspond à trouver des structures qui n’existent pas réellement dans les données, tandis qu’une trop faible complexité mène au sous-apprentissage, c’est-à-dire que l’expressivité du modèle est insuffisante pour capturer l’ensemble des structures présentes dans les données. Pour certains modèles probabilistes, la complexité du modèle se traduit par l’introduction d’une ou plusieurs variables cachées dont le rôle est d’expliquer le processus génératif des données. Il existe diverses approches permettant d’identifier le nombre approprié de variables cachées d’un modèle. Cette thèse s’intéresse aux méthodes Bayésiennes nonparamétriques permettant de déterminer le nombre de variables cachées à utiliser ainsi que leur dimensionnalité. La popularisation des statistiques Bayésiennes nonparamétriques au sein de la communauté de l’apprentissage automatique est assez récente. Leur principal attrait vient du fait qu’elles offrent des modèles hautement flexibles et dont la complexité s’ajuste proportionnellement à la quantité de données disponibles. Au cours des dernières années, la recherche sur les méthodes d’apprentissage Bayésiennes nonparamétriques a porté sur trois aspects principaux : la construction de nouveaux modèles, le développement d’algorithmes d’inférence et les applications. Cette thèse présente nos contributions à ces trois sujets de recherches dans le contexte d’apprentissage de modèles à variables cachées. Dans un premier temps, nous introduisons le Pitman-Yor process mixture of Gaussians, un modèle permettant l’apprentissage de mélanges infinis de Gaussiennes. Nous présentons aussi un algorithme d’inférence permettant de découvrir les composantes cachées du modèle que nous évaluons sur deux applications concrètes de robotique. Nos résultats démontrent que l’approche proposée surpasse en performance et en flexibilité les approches classiques d’apprentissage. Dans un deuxième temps, nous proposons l’extended cascading Indian buffet process, un modèle servant de distribution de probabilité a priori sur l’espace des graphes dirigés acycliques. Dans le contexte de réseaux Bayésien, ce prior permet d’identifier à la fois la présence de variables cachées et la structure du réseau parmi celles-ci. Un algorithme d’inférence Monte Carlo par chaîne de Markov est utilisé pour l’évaluation sur des problèmes d’identification de structures et d’estimation de densités. Dans un dernier temps, nous proposons le Indian chefs process, un modèle plus général que l’extended cascading Indian buffet process servant à l’apprentissage de graphes et d’ordres. L’avantage du nouveau modèle est qu’il admet les connections entres les variables observables et qu’il prend en compte l’ordre des variables. Nous présentons un algorithme d’inférence Monte Carlo par chaîne de Markov avec saut réversible permettant l’apprentissage conjoint de graphes et d’ordres. L’évaluation est faite sur des problèmes d’estimations de densité et de test d’indépendance. Ce modèle est le premier modèle Bayésien nonparamétrique permettant d’apprendre des réseaux Bayésiens disposant d’une structure complètement arbitraire.
One of the important problems in machine learning is determining the complexity of the model to learn. Too much complexity leads to overfitting, which finds structures that do not actually exist in the data, while too low complexity leads to underfitting, which means that the expressiveness of the model is insufficient to capture all the structures present in the data. For some probabilistic models, the complexity depends on the introduction of one or more latent variables whose role is to explain the generative process of the data. There are various approaches to identify the appropriate number of latent variables of a model. This thesis covers various Bayesian nonparametric methods capable of determining the number of latent variables to be used and their dimensionality. The popularization of Bayesian nonparametric statistics in the machine learning community is fairly recent. Their main attraction is the fact that they offer highly flexible models and their complexity scales appropriately with the amount of available data. In recent years, research on Bayesian nonparametric learning methods have focused on three main aspects: the construction of new models, the development of inference algorithms and new applications. This thesis presents our contributions to these three topics of research in the context of learning latent variables models. Firstly, we introduce the Pitman-Yor process mixture of Gaussians, a model for learning infinite mixtures of Gaussians. We also present an inference algorithm to discover the latent components of the model and we evaluate it on two practical robotics applications. Our results demonstrate that the proposed approach outperforms, both in performance and flexibility, the traditional learning approaches. Secondly, we propose the extended cascading Indian buffet process, a Bayesian nonparametric probability distribution on the space of directed acyclic graphs. In the context of Bayesian networks, this prior is used to identify the presence of latent variables and the network structure among them. A Markov Chain Monte Carlo inference algorithm is presented and evaluated on structure identification problems and as well as density estimation problems. Lastly, we propose the Indian chefs process, a model more general than the extended cascading Indian buffet process for learning graphs and orders. The advantage of the new model is that it accepts connections among observable variables and it takes into account the order of the variables. We also present a reversible jump Markov Chain Monte Carlo inference algorithm which jointly learns graphs and orders. Experiments are conducted on density estimation problems and testing independence hypotheses. This model is the first Bayesian nonparametric model capable of learning Bayesian learning networks with completely arbitrary graph structures.

APA, Harvard, Vancouver, ISO, and other styles

20

Roget-Vial, Céline. "deux contributions à l'étude semi-paramétrique d'un modèle de régression." Phd thesis, Université Rennes 1, 2003. http://tel.archives-ouvertes.fr/tel-00008730.

Full text

Abstract:

Cette thèse s'intéresse à deux modèles de régression semi-paramétrique permettant de contourner le problème classique du "fléau de la dimension" inhérent aux approches non-paramétriques usuelles. La première partie du travail concerne l'étude d'un modèle de régression dit partiellement linéaire ; le but est d'identifier les régresseurs qui composent la partie non-linéaire de la fonction de régression ainsi que d'estimer tous les paramètres du modèle. Pour ce faire nous définissons des quantités caractéristiques du modèle qui mesurent la linéarité des régresseurs puis nous développons un test du nombre de composantes non-linéaires basé sur cette mesure. La seconde partie porte sur l'étude d'un modèle dit à direction révélatrice unique et consiste à estimer, via des propriétés géométriques, l'axe du modèle et d'en déduire un test convergent et puissant sous une suite d'alternatives locales.

APA, Harvard, Vancouver, ISO, and other styles

21

Viallon, Vivian. "Processus empiriques, estimation non paramétrique et données censurées." Phd thesis, Université Pierre et Marie Curie - Paris VI, 2006. http://tel.archives-ouvertes.fr/tel-00119260.

Full text

Abstract:

La théorie des processus empiriques joue un rôle central en statistique, puisqu'elle concerne l'ensemble des résultats limites généraux se rapportant aux échantillons aléatoires. En particulier, des lois uniformes du logarithme ont permis d'aborder de manière systématique la convergence en norme sup des estimateurs à noyau. Dans cette thèse, nous obtenons premièrement des lois fonctionnelles uniformes du logarithme pour les incréments du processus des quantiles normé, qui permettent d'établir des propriétés nouvelles des estimateurs basés sur les k-plus proches voisins. Le même type de résultat est ensuite obtenu pour les incréments du processus empirique de Kaplan-Meier, conduisant naturellement à des lois du logarithme uniformes pour des estimateurs de la densité et du taux de mortalité en présence de censure à droite. Dans le cas de la régression multivariée, des lois analogues sont obtenues pour des estimateurs à noyau, notamment dans le cas censuré. Enfin, nous développons un estimateur non paramétrique de la régression sous l'hypothèse du modèle additif dans le cas de censure à droite, permettant de se défaire du fléau de la dimension. Cet estimateur repose essentiellement sur la méthode d'intégration marginale.

APA, Harvard, Vancouver, ISO, and other styles

22

Dellagi, Hatem. "Estimations paramétrique et non paramétrique des données manquantes : application à l'agro-climatologie." Paris 6, 1994. http://www.theses.fr/1994PA066546.

Full text

Abstract:

Dans ce travail nous proposons deux méthodes d'estimation des données manquantes. Dans le cas de l'estimation paramétrique et afin de résoudre le problème par la prévision, nous exploitons l'estimateur décale (E. D) de la partie autorégressive d'un modèle ARMA scalaire pour estimer la matrice de covariance In dont la consistance forte est prouvée sous des conditions ayant l'avantage de s'exprimer en fonction des trajectoires et identifier les coefficients de la partie moyenne mobile et la variance du bruit blanc. En analyse des correspondances et afin d'estimer les données manquantes d'un tableau de correspondance, le problème se résout complètement dans le cas d'une seule donnée manquante. L'existence est prouvée dans le cas où il y en a plusieurs, par contre l'unicité étant délicate, une combinaison linéaire entre les données manquantes est obtenue à partir de la formule de la trace dont la minimisation assure l'homogénéité du tableau de correspondance, nous établirons sous le même critère la reconstitution d'une donnée d'origine à partir du codage linéaire par morceaux

APA, Harvard, Vancouver, ISO, and other styles

23

Elamine, Abdallah Bacar. "Régression non-paramétrique pour variables fonctionnelles." Thesis, Montpellier 2, 2010. http://www.theses.fr/2010MON20017.

Full text

Abstract:

Cette thèse se décompose en quatre parties auxquelles s'ajoute une présentation. Dans un premier temps, on expose les outils mathématiques essentiels à la compréhension des prochains chapitres. Dans un deuxième temps, on s'intéresse à la régression non paramétrique locale pour des données fonctionnelles appartenant à un espace de Hilbert. On propose, tout d'abord, un estimateur de l'opérateur de régression. La construction de cet estimateur est liée à la résolution d'un problème inverse linéaire. On établit des bornes de l'erreur quadratique moyenne (EQM) de l'estimateur de l'opérateur de régression en utilisant une décomposition classique. Cette EQM dépend de la fonction de petite boule de probabilité du régresseur au sujet de laquelle des hypothèses de type Gamma-variation sont posées. Dans le chapitre suivant, on reprend le travail élaboré dans le précédent chapitre en se plaçant dans le cadre de données fonctionnelles appartenant à un espace semi-normé. On établit des bornes de l'EQM de l'estimateur de l'opérateur de régression. Cette EQM peut être vue comme une fonction de la fonction de petite boule de probabilité. Dans le dernier chapitre, on s'intéresse à l'estimation de la fonction auxiliaire associée à la fonction de petite boule de probabilité. D'abord, on propose un estimateur de cette fonction auxiliare. Ensuite, on établit la convergence en moyenne quadratique et la normalité asymptotique de cet estimateur. Enfin, par des simulations, on étudie le comportement de de cet estimateur au voisinage de zéro
This thesis is divided in four sections with an additionnal presentation. In the first section, We expose the essential mathematics skills for the comprehension of the next sections. In the second section, we adress the problem of local non parametric with functional inputs. First, we propose an estimator of the unknown regression function. The construction of this estimator is related to the resolution of a linear inverse problem. Using a classical method of decomposition, we establish a bound for the mean square error (MSE). This bound depends on the small ball probability of the regressor which is assumed to belong to the class of Gamma varying functions. In the third section, we take again the work done in the preceding section by being situated in the frame of data belonging to a semi-normed space with infinite dimension. We establish bound for the MSE of the regression operator. This MSE can be seen as a function of the small ball probability function. In the last section, we interest to the estimation of the auxiliary function. Then, we establish the convergence in mean square and the asymptotic normality of the estimator. At last, by simulations, we study the bahavour of this estimator in a neighborhood of zero

APA, Harvard, Vancouver, ISO, and other styles

24

Agbodan, Dago. "Nomination persistante dans un modèle paramétrique : identification non-ambigue͏̈ et appariement générique d'entités topologiques." Poitiers, 2002. http://www.theses.fr/2002POIT2313.

Full text

Abstract:

Les modèles paramétriques ont une structure duale où une représentation abstraite (la spécification paramétrique) référence une représentation explicite (la géométrie). Le problème de la nomination persistante est de maintenir les références entre ces deux représentations afin de pouvoir réévaluer la seconde à partir de la première, malgré les modifications. Il s'agit d'identifier une entité dans un modèle initial puis de la retrouver dans un modèle réévalué. Nous proposons de représenter dans un graphe les évolutions des coques et faces des objets modélisés. Chaque entité référencée par la spécification est caractérisée en termes des nœuds du graphe, et d'un lien vers la géométrie courante. La mise en correspondance des graphes initial et réévalué, ainsi que leur parcours à la recherche d'éléments communs, permettent de réévaluer les références et donc de maintenir le lien entre la spécification et la géométrie dans l'objet réévalué, assurant de la sorte une nomination persistante
Parametric models have a dual structure where an abstract representation (the parametric specification) references an explicit representation (the geometry). The persistent naming problem is to maintain the references between these two representations in order to be able to reevaluate the second starting from the first, in spite of modifications. The problem is to identify an entity in an initial model, then to find it in a reevaluated model. We propose to represent evolutions of the shells and faces of the modeled objects in a graph. Each entity referenced by the specification is characterized in terms of the graph nodes, and by a link to the current geometry. Matching the initial graph and a reevaluated graph throughout a revaluation, and then, searching common elements in these graphs, allows us to interpret the references and thus to maintain the link between the parametric specification and the geometry in the reevaluated object, ensuring a persistent naming

APA, Harvard, Vancouver, ISO, and other styles

25

Maillou, Balbine. "Caractérisation et identification non-paramétrique des non-linéarités de suspensions de haut-parleurs." Thesis, Le Mans, 2015. http://www.theses.fr/2015LEMA1028.

Full text

Abstract:

Ce travail de thèse porte sur le comportement mécanique en basses fréquences de l'équipage mobile du haut-parleur électrodynamique, et plus spécifiquement de ses suspensions. Les propriétés des suspensions sont difficiles à identifier du fait de l'assemblage géométrique mis en oeuvre et du fait des matériaux employés, à l'origine de comportements viscoélastiques non-linéaires. En régime linéaire, le modèle de Thiele et Small permet une bonne description du comportement du haut-parleur, l'équipage mobile étant modélisé par un système masse-ressort-amortissement linéaire. En régime non-linéaire, ce modèle n'est plus suffisant et la démarche adoptée est celle de l'identification de systèmes non-linéaires, outil d'aide à la modélisation analytique. Un modèle sans a priori physique est choisi : le modèle « Hammerstein Généralisé ». Son identification requiert l'acquisition de signaux expérimentaux. Un banc de mesure a donc été élaboré et permet de caractériser l'équipage mobile découplé du moteur magnétique, lorsqu'il est soumis à un déplacement axial de grande amplitude et imposé par un pot vibrant. Le pot vibrant étant lui-même non-linéaire, une nouvelle méthode d'identification du modèle « Hammerstein Généralisé » a été développée, adaptée à la configuration de systèmes non-linéaires en série. Enfin, les paramètres d'un modèle dit de «Thiele et Small étendu» sont déduits à partir des paramètres du modèle «Hammerstein Généralisé» et permettent de mettre en évidence l'évolution de la raideur et de l'amortissement avec la fréquence d'excitation et le déplacement de la membrane, ainsi que la dépendance des phénomènes observés avec le niveau d'excitation
This thesis deals with the low frequencies mechanical behavior of the electrodynamic loudspeaker moving part, and especially with the suspensions, whose properties are among the most difficult to identify because of both assembly geometry and intrinsic materials, leading to nonlinear viscoelastic behaviors. In small signal domain, the Thiele and Small model describes the behavior of the whole loudspeaker with a good fit, the moving part behavior being modeled by a simple linear mass-spring system, with mass, damping and stiffness parameters. In large-signal domain, this model is no longer sufficient. Our approach is then to perform nonlinear system identification as a tool helping to improve analytical models. A model without physical knowledge is chosen : « Generalized Hammerstein ». Its identification requires the acquisition of experimental signals. A multi sensor experimental set up were so carried out and allows to characterize the whole moving part of a loudspeaker, without magnetic motor, attached to a rigid stand and excited with high axial displacement values, by means of a shaker. Shaker being itself a nonlinear device, a new method of « Generalized Hammerstein » model identification was developped, dedicated to nonlinear systems in series. Finally, parameters of an «expanded Thiele and Small» model are derived from the «Generalized Hammerstein» model parameters. This allows to highlight the evolution of the stiffness and damping with the frequency of excitation, with the displacement of the membrane, as well as the dependence of observed phenomena with the excitation level

APA, Harvard, Vancouver, ISO, and other styles

26

Sansonnet, Laure. "Inférence non-paramétrique pour des interactions poissoniennes." Phd thesis, Université Paris Sud - Paris XI, 2013. http://tel.archives-ouvertes.fr/tel-00835427.

Full text

Abstract:

L'objet de cette thèse est d'étudier divers problèmes de statistique non-paramétrique dans le cadre d'un modèle d'interactions poissoniennes. De tels modèles sont, par exemple, utilisés en neurosciences pour analyser les interactions entre deux neurones au travers leur émission de potentiels d'action au cours de l'enregistrement de l'activité cérébrale ou encore en génomique pour étudier les distances favorisées ou évitées entre deux motifs le long du génome. Dans ce cadre, nous introduisons une fonction dite de reproduction qui permet de quantifier les positions préférentielles des motifs et qui peut être modélisée par l'intensité d'un processus de Poisson. Dans un premier temps, nous nous intéressons à l'estimation de cette fonction que l'on suppose très localisée. Nous proposons une procédure d'estimation adaptative par seuillage de coefficients d'ondelettes qui est optimale des points de vue oracle et minimax. Des simulations et une application en génomique sur des données réelles provenant de la bactérie E. coli nous permettent de montrer le bon comportement pratique de notre procédure. Puis, nous traitons les problèmes de test associés qui consistent à tester la nullité de la fonction de reproduction. Pour cela, nous construisons une procédure de test optimale du point de vue minimax sur des espaces de Besov faibles, qui a également montré ses performances du point de vue pratique. Enfin, nous prolongeons ces travaux par l'étude d'une version discrète en grande dimension du modèle précédent en proposant une procédure adaptative de type Lasso.

APA, Harvard, Vancouver, ISO, and other styles

27

Vincent, Thomas. "Modèles hémodynamiques spatiaux adaptatifs pour l'imagerie cérébrale fonctionnelle." Paris 11, 2010. http://www.theses.fr/2010PA112365.

Full text

Abstract:

Les approches développées dans cette thèse s'inscrivent au sein des méthodes d'analyse en imagerie cérébrale fonctionnelle (ICF) cherchant à caractériser la spécialisation des structures cérébrales. La technique centrale d'ICF fut l'imagerie par résonance magnétique fonctionnelle (IRMf) qui fournit une mesure indirecte, hémodynamique, de l'activité neuronale. Les méthodes d'analyse portant sur ces données se divisent classiquement en : (i) une tâche de localisation des activations et (ii) une tâche d'estimation de la fonction de réponse hémodynamique (FRH) faisant le lien entre les stimulations du paradigme et le signal d'IRMf observé. Cette thèse traitent les tâches (i) et (ii) simultanément en un modèle de détection-estimation conjointe (DEC), respectant l'interdépendance évidente de ces deux processus. L'approche DEC a été ici étendue pour exprimer un modèle de corrélation spatiale sur les niveaux de réponse locaux associées à la FRH, rendant l'approche mutli-variée tant pour la détection que pour l'estimation. Dans le cadre bayésien, cette modélisation s'opère par l'expression d'un a priori par champ de Markov discret faisant intervenir un facteur de régularisation. Un traitement du cerveau entier non-supervisé pour ce paramètre a été mis en place, prenant en compte l'hétérogénéité des géométries des régions cérébrales. L'approche est validée sur la surface corticale, mais également dans le volume à travers plusieurs analyses de groupe dans des conditions d'acquisition différentes. Ces dernières ont permis d'évaluer l'impact de la méthode en terme de significativité des activations ainsi que son positionnement par rapport à l'approche classique
The approaches developed in this PhD take place in the analysis of functional brain imaging seeking the characterization of brain structures specialization. The central modality was functional magnetic resonance imaging (fMRI) which provides an indirect, hemodynamic, measure of the neural activity. Data analysis methods are conventionally divided into: (i) a localization task of activations and (ii) an estimation task i. E. Characterizing the hemodynamic response function (HRF) linking the stimulations provided by the paradigm to the observed fMRI signal. This PhD addresses the tasks (i) and (ii) simultaneously in a joint detection-estimation model (JDE), respecting the obvious interdependence of these two processes. The JDE approach here has been extended to express a model of spatial correlation on the local response level associated with the HRF, enabling the approach to be multivariate for the detection as well as the estimation tasks. In the Bayesian framework, this modeling is achieved by the expression of a prior discrete Markov field involving a regularization factor. The unsupervised treatment regarding this parameter for the whole brain has been developed by adaptively taking into account the heterogeneity of the geometries of brain regions. The approach is validated on the cortical surface, but also in the volume through several group analyses with different acquisition conditions. These were used to assess the impact of the method in terms of significance of activation and its positioning relative to the traditional approach

APA, Harvard, Vancouver, ISO, and other styles

28

Taupin, Marie-Luce. "Estimation semi-paramétrique pour le modèle de régression non linéaire avec erreurs sur les variables." Paris 11, 1998. http://www.theses.fr/1998PA112004.

Full text

Abstract:

Dans un modele de regression non lineaire avec erreurs sur les variables, on suppose les variables explicatives sont des variables aleatoires reelles independantes, de densite inconnue, qui sont observees a une erreur additive independantes et gaussienne pres. La fonction de regression est connue a une parametre fini-dimensionnel pres. L'objectif est d'estimer ce parametre dans ce modele semi-parametrique. Nous procedons en deux etapes. Le chapitre 2 est consacree a l'estimation de fonctionnelles lineaires integrales d'une densite dans le modele de convolution. En particulier nous etablissons une borne inferieure du risque quadratique minimax pour l'estimation d'une densite en un point sur la classe des densites obtenues par convolution avec la densite gaussienne standard. Dans le chapitre 3, en utilisant les resultats precedents, nous proposons un critere des moindres carres modifie, base sur l'estimation d'une esperance conditionnelle dependant de la densite inconnue des variables explicatives. Nous montrons que l'estimateur obtenu par minimisation du critere ainsi construit est consistant et que sa vitesse de convergence est d'autant plus rapide que la fonction de regression admet de fortes proprietes de regularite (par rapport aux variables explicatives), et qu'elle est generalement plus lente que la vitesse parametrique n#1#/#2. Neanmoins elle est d'ordre (log n)#r/n pour un certain nombre de fonctions de regressions admettant un prolongement analytique sur le plan complexe.

APA, Harvard, Vancouver, ISO, and other styles

29

Gauzère, Franck. "Approche non-paramétrique pour un modèle 3 états avec censures par intervalles : application à la dépendance." Bordeaux 2, 2000. http://www.theses.fr/2000BOR28709.

Full text

APA, Harvard, Vancouver, ISO, and other styles

30

Guin, Ophélie. "Méthodes bayésiennes semi-paramétriques d'extraction et de sélection de variables dans le cadre de la dendroclimatologie." Phd thesis, Université Paris Sud - Paris XI, 2011. http://tel.archives-ouvertes.fr/tel-00636704.

Full text

Abstract:

Selon le Groupe Intergouvernemental d'experts sur l'Évolution du Climat (GIEC), il est important de connaitre le climat passé afin de replacer le changement climatique actuel dans son contexte. Ainsi, de nombreux chercheurs ont travaillé à l'établissement de procédures permettant de reconstituer les températures ou les précipitations passées à l'aide d'indicateurs climatiques indirects. Ces procédures sont généralement basées sur des méthodes statistiques mais l'estimation des incertitudes associées à ces reconstructions reste une difficulté majeure. L'objectif principal de cette thèse est donc de proposer de nouvelles méthodes statistiques permettant une estimation précise des erreurs commises, en particulier dans le cadre de reconstructions à partir de données sur les cernes d'arbres.De manière générale, les reconstructions climatiques à partir de mesures de cernes d'arbres se déroulent en deux étapes : l'estimation d'une variable cachée, commune à un ensemble de séries de mesures de cernes, et supposée climatique puis l'estimation de la relation existante entre cette variable cachée et certaines variables climatiques. Dans les deux cas, nous avons développé une nouvelle procédure basée sur des modèles bayésiens semi- paramétriques. Tout d'abord, concernant l'extraction du signal commun, nous proposons un modèle hiérarchique semi-paramétrique qui offre la possibilité de capturer les hautes et les basses fréquences contenues dans les cernes d'arbres, ce qui était difficile dans les études dendroclimatologiques passées. Ensuite, nous avons développé un modèle additif généralisé afin de modéliser le lien entre le signal extrait et certaines variables climatiques, permettant ainsi l'existence de relations non-linéaires contrairement aux méthodes classiques de la dendrochronologie. Ces nouvelles méthodes sont à chaque fois comparées aux méthodes utilisées traditionnellement par les dendrochronologues afin de comprendre ce qu'elles peuvent apporter à ces derniers.

APA, Harvard, Vancouver, ISO, and other styles

31

Viallefont, Valérie. "Analyses bayesiennes du choix de modèles en épidémiologie : sélection de variables et modélisation de l'hétérogénéité pour des évènements." Paris 11, 2000. http://www.theses.fr/2000PA11T023.

Full text

Abstract:

Cette thèse se décompose en deux parties qui traitent la question du choix modèles dans deux problématiques différentes. Dans la première partie, on s'intéresse, pour les modèles de régression logis multivariée, à différentes stratégies de sélection de variables associées à l'apparition d'une maladie. Les méthodes les plus fréquemment mises en œuvre à l'heure actuelle consistent à sélectionner certaines variables dans un modèle final unique, modèle dans lequel sont ensuite estimés les paramètres et leur variance. Différents critères de sélection existent et la plupart d'entre eux reposent sur une comparaison du degré de signification de tests à une valeur seuil. On s'intéresse aux performances auc performances de ces approches par rapport à celles d'une méthode bayésienne dans laquelle on considère tout un ensemble de modèles. A chaque modèle est associé sa probabilité a posteriori. Cette approche permet d'estimer la probabilité de l'existence d'une association entre chaque variable et l'apparition de la maladie, et de calculer des estimations globale des paramètres. Deux schémas de simulations sont envisagés pour cette comparaison : l'un évoque un cas d'école où l'on s'intéresse à un facteur de risque en présence d'un unique facteur de confusion potentiel, l'autre caractérise une enquête épidémiologique avec un grand nombre de facteurs de risque possibles. Les critères de comparaison portent sur le biais moyen dans l'estimation des coefficients, les pourcentages d’erreurs de première et seconde espèces ou leur équivalent bayésien, et l'expression du degré d'incertitude. La méthode bayésienne fournit notamment une appréciation plus explicite de l'incertitude sur les conclusions. Dans la deuxième partie, on s'intéresse au cas où des données relatives à des événements rares présentent une trop forte hétérogénéité pour être modélisées par une seule distribution de Poisson. On fait alors l'hypothèse qu'elles sont issues de mélange de distributions de Poisson. On propose d'estimer conjointement, dans un modèle hiérarchique bayésien, le nombre de composantes du mélange et les proportions et paramètres de chacune, par les méthodes de Monte Carlo par Chaîne de Markov (MCMC). L'estimation du nombre de composantes nécessite que la dimension de l'espace des paramètres puisse varier : pour ceci on utilise le principe du "Saut Reversible". On illustre la difficulté de trouver une loi a priori faiblement informative pour les paramètres de Poisson en étudiant la sensibilité des résultats au choix de cette loi a priori et de ses paramètres. On propose différentes transformations lors du changement de dimension de l'espace des paramètres et on s'intéresse à leur influence sur les performances de l'algorithme, notamment son caractère mélangeant. Enfin on écrit deux modèles, de prise en compte de covariables, dont l'effet est soit homogène soit hétérogène sur les composantes du mélange. Les comparaisons sont menées sur des jeux de données simulés, et le modèle est finalement illustré sur des données réelles de nature épidémiologique concernant des cas de cancers digestifs en France, puis des données d'accidents de la route
This dissertation has two separated parts. In the first part, we compare different strategies for variable selection in a multivariate logistic regression model. Covariate and confounder selection in case-control studies is often carried out using either a two-step method or a stepwise variable selection method. Inference is then carried out conditionally on the selected model, but this ignores the madel uncertainty implicit in the variable selection process, and so underestimates uncertainty about relative risks. It is well known, and showed again in our study, that the ρ-values computed after variable selection can greatly overstate the strength of conclusions. We propose Bayesian Model Averaging as a formal way of taking account of madel uncertainty in a logistic regression context. The BMA methods, that allows to take into account several models, each being associated with its posterior probability, yields an easily interpreted summary, the posterior probability that a variable is a risk factor, and its estimate averaged over the set of models. We conduct two comparative simulations studies : the first one has a simple design including only one risk factor and one confounder, the second one mimics a epidemiological cohort study dataset, with a large number of potential risk factors. Our criteria are the mean bias, the rate of type I and type II errors, and the assessment of uncertainty in the results, which is bath more accurate and explicit under the BMA analysis. The methods are applied and compared in the context of a previously published case-control study of cervical cancer. The choice of the prior distributions are discussed. In the second part, we focus on the modelling of rare events via a Poisson distribution, that sometimes reveals substantial over-dispersion, indicating that sorme un explained discontinuity arises in the data. We suggest to madel this over-dispersion by a Poisson mixture. In a hierarchical Bayesian model, the posterior distributions of he unknown quantities in the mixture (number of components, weights, and Poisson parameters) can be estimated by MCMC algorithms, including reversible jump algothms which allows to vary the dimension of the mixture. We focus on the difficulty of finding a weakly informative prior for the Poisson parameters : different priors are detailed and compared. Then, the performances of different maves created for changing dimension are investigated. The model is extended by the introduction of covariates, with homogeneous or heterogeneous effect. Simulated data sets are designed for the different comparisons, and the model is finally illustrated in two different contexts : an ecological analysis of digestive cancer mortality along the coasts of France, and a dataset concerning counts of accidents in road-junctions

APA, Harvard, Vancouver, ISO, and other styles

32

Moumouni, Kairou. "Etude et conception d'un modèle mixte sémiparamétrique stochastique pour l'analyse des données longitudinales environnementales." Rennes 2, 2005. http://www.theses.fr/2005REN20052.

Full text

Abstract:

Cette thèse porte sur la recherche d'un modèle statistique adapté à l'analyse de données longitudinales rencontrées dans le domaine environnemental. L'approche générale est basée sur le modèle linéaire mixte stochastique. Nous proposons une extension de ce modèle par l'utilisation des techniques sémiparamétriques, en particulier les splines cubiques pénalisées. Des méthodes d'estimation adaptées au modèle mixte sémiparamétrique stochastique sont proposées. Des simulations sont ensuite effectuées pour l'évaluation des performances des estimateurs construits. Dans une deuxième partie, une extension de la méthode d'influence locale de Cook au modèle mixte modifié est proposée, elle fournit une analyse de sensibilité permettant de détecter les effets de certaines perturbations sur les composantes structurelles du modèle. Quelques propriétés asymptotiques de la matrice d'influence locale sont exhibées. Enfin, le modèle proposé est appliqué à deux jeux de données réelles : une analyse des données de concentrations de nitrates issues de différentes stations de mesures d'un bassin versant, puis une analyse de la pollution bactériologiques d'eaux de baignades
This thesis is dealing with the analysis of longitudinal data that can be encountered in environmental studies. The general approach is based on the stochastic linear mixed model, that we extend using semiparametric techniques, such as penalized cubic splines. First, estimation methods are developed for the semiparametric stochastic mixed model, and then a simulation study is performed to measure the performances of the parameter estimates. In a second part, we propose an extension of the Cook's local influence method, in order to produce a sensibility analysis of our model and detect the effect of the perturbation of the structural components of the model. Some asymptotic properties of the local influence matrix are exhibited. Finally, the proposed model is applied to two real datasets : first, the analysis of nitrate concentration measurements in different locations of a watershed ; second, the analysis of bacteriological pollution of coastal bathing waters

APA, Harvard, Vancouver, ISO, and other styles

33

Lesquoy-de, Turckheim Élisabeth. "Tests non paramétriques et rééchantillonnage : le modèle de Cox périodique." Paris 11, 1987. http://www.theses.fr/1987PA112474.

Full text

Abstract:

Cette thèse comporte trois parties. La première est l'étude de deux tests non paramétriques définis par rééchantillonnage. Leur puissance est estimée de façon fortement consistante, par simulation. L'un permet de comparer deux distributions dans un dispositif en blocs 2 x 2, l'autre de tester l'indépendance de deux temps de survie censurés. La deuxième partie adapte le modèle de régression de Cox à un processus ponctuel dont l'intensité de base est périodique et les régresseurs des processus prévisibles, ergodiques et
The first part proposes two nonparametric test defined by a simulation. One compares two distributions functions in a two-by-two black design, the other tests the independence of two censored survival times. The second part is an adaptation of Cox's regression model to a counting process having a periodic underlying intensity and predictable processes as regressors. These processes are ergodic and ϕ-mixing. The underlying intensity is estimated using either an empirical distribution-type estimate or a histogram-type estimate. These two estimates are asymptotically Gaussian and equivalent, as well as the associated regression parameters estimates. Finally, the model is applied to the analysis of a feeding pattern. The third part is a. Modelling of the kinetics of drought rhizogenesis of Sinapis alba

APA, Harvard, Vancouver, ISO, and other styles

34

Libengue, Dobele-kpoka Francial Giscard Baudin. "Méthode non-paramétrique des noyaux associés mixtes et applications." Thesis, Besançon, 2013. http://www.theses.fr/2013BESA2007/document.

Full text

Abstract:

Nous présentons dans cette thèse, l'approche non-paramétrique par noyaux associés mixtes, pour les densités àsupports partiellement continus et discrets. Nous commençons par rappeler d'abord les notions essentielles d'estimationpar noyaux continus (classiques) et noyaux associés discrets. Nous donnons la définition et les caractéristiques desestimateurs à noyaux continus (classiques) puis discrets. Nous rappelons aussi les différentes techniques de choix deparamètres de lissage et nous revisitons les problèmes de supports ainsi qu'une résolution des effets de bord dans le casdiscret. Ensuite, nous détaillons la nouvelle méthode d'estimation de densités par les noyaux associés continus, lesquelsenglobent les noyaux continus (classiques). Nous définissons les noyaux associés continus et nous proposons laméthode mode-dispersion pour leur construction puis nous illustrons ceci sur les noyaux associés non-classiques de lalittérature à savoir bêta et sa version étendue, gamma et son inverse, gaussien inverse et sa réciproque le noyau dePareto ainsi que le noyau lognormal. Nous examinons par la suite les propriétés des estimateurs qui en sont issus plusprécisément le biais, la variance et les erreurs quadratiques moyennes ponctuelles et intégrées. Puis, nous proposons unalgorithme de réduction de biais que nous illustrons sur ces mêmes noyaux associés non-classiques. Des études parsimulations sont faites sur trois types d’estimateurs à noyaux lognormaux. Par ailleurs, nous étudions lescomportements asymptotiques des estimateurs de densité à noyaux associés continus. Nous montrons d'abord lesconsistances faibles et fortes ainsi que la normalité asymptotique ponctuelle. Ensuite nous présentons les résultats desconsistances faibles et fortes globales en utilisant les normes uniformes et L1. Nous illustrons ceci sur trois typesd’estimateurs à noyaux lognormaux. Par la suite, nous étudions les propriétés minimax des estimateurs à noyauxassociés continus. Nous décrivons d'abord le modèle puis nous donnons les hypothèses techniques avec lesquelles noustravaillons. Nous présentons ensuite nos résultats minimax tout en les appliquant sur les noyaux associés non-classiquesbêta, gamma et lognormal. Enfin, nous combinons les noyaux associés continus et discrets pour définir les noyauxassociés mixtes. De là, les outils d'unification d'analyses discrètes et continues sont utilisés, pour montrer les différentespropriétés des estimateurs à noyaux associés mixtes. Une application sur un modèle de mélange des lois normales et dePoisson tronquées est aussi donnée. Tout au long de ce travail, nous choisissons le paramètre de lissage uniquementavec la méthode de validation croisée par les moindres carrés
We present in this thesis, the non-parametric approach using mixed associated kernels for densities withsupports being partially continuous and discrete. We first start by recalling the essential concepts of classical continuousand discrete kernel density estimators. We give the definition and characteristics of these estimators. We also recall thevarious technical for the choice of smoothing parameters and we revisit the problems of supports as well as a resolutionof the edge effects in the discrete case. Then, we describe a new method of continuous associated kernels for estimatingdensity with bounded support, which includes the classical continuous kernel method. We define the continuousassociated kernels and we propose the mode-dispersion for their construction. Moreover, we illustrate this on the nonclassicalassociated kernels of literature namely, beta and its extended version, gamma and its inverse, inverse Gaussianand its reciprocal, the Pareto kernel and the kernel lognormal. We subsequently examine the properties of the estimatorswhich are derived, specifically, the bias, variance and the pointwise and integrated mean squared errors. Then, wepropose an algorithm for reducing bias that we illustrate on these non-classical associated kernels. Some simulationsstudies are performed on three types of estimators lognormal kernels. Also, we study the asymptotic behavior of thecontinuous associated kernel estimators for density. We first show the pointwise weak and strong consistencies as wellas the asymptotic normality. Then, we present the results of the global weak and strong consistencies using uniform andL1norms. We illustrate this on three types of lognormal kernels estimators. Subsequently, we study the minimaxproperties of the continuous associated kernel estimators. We first describe the model and we give the technicalassumptions with which we work. Then we present our results that we apply on some non-classical associated kernelsmore precisely beta, gamma and lognormal kernel estimators. Finally, we combine continuous and discrete associatedkernels for defining the mixed associated kernels. Using the tools of the unification of discrete and continuous analysis,we show the different properties of the mixed associated kernel estimators. All through this work, we choose thesmoothing parameter using the least squares cross-validation method

APA, Harvard, Vancouver, ISO, and other styles

35

Le, Thi Xuan Mai. "Estimation semi-paramétrique et application à l’évaluation de la biomasse d'anchois." Thesis, Toulouse, INSA, 2010. http://www.theses.fr/2010ISAT0006/document.

Full text

Abstract:

Notre étude est motivée par un problème d'évaluation de la biomasse, c'est à dire de la densité des œufs d'anchois à l'instant de ponte dans le golfe de Biscay-Gascogne. Les données sont les densités, c'est à dire les poids d' œufs d'anchois par unité de surface dans le golfe, collectées lors de la campagne d'échantillonnage de 1994. Le problème consiste à estimer la densité des œufs d'anchois au moment de leur ponte et le taux de mortalité. Jusqu'à présent, ce problème a été résolu en ajustant les données précédentes à un modèle classique de mortalité exponentielle. Notre analyse montre que ce modèle n'est pas adapté aux données à cause de la grande variation spatial de la densité d'œufs au moment de ponte. Or pour les données considérées, les densités A(tj,kj) des œufs au moment de ponte diffèrent de façon aléatoire selon les zones géographiques de kj ponte. Nous proposons de modéliser les A(tj,kj) comme un échantillon issu d'une variable aléatoire d'espérance a0 et ayant une densité de probabilité fA, ce qui conduit au modèle de mortalité étendue (EEM) suivant : Y (tj,kj) = A (tj,kj) e-z0tj +e(tj,kj) Le problème que nous avons à étudier alors est d'estimer les paramètres du modèle et la densité fA. Nous résolvons ce problème en deux étapes; nous commençons par estimer les paramètres par des techniques de régression, puis nous estimons la densité fA en combinant l'estimation non-paramétrique de densité, avec l'estimation du paramètre z0 et avec éventuellement une déconvolution de densités. Les résultats des études en simulations que nous réalisons corroborent les résultats théorique de la consistance
The motivation of this study is to evaluate the anchovy biomass, that is estimate the egg densities at the spawning time and the mortality rate. The data are the anchovy egg densities that are the egg weights by area unit, collected in the Gascogne bay. The problem we are faced is to estimate from these data the egg densities at the spawning time. Until now, this is done by using the classical exponential mortality model. However, such model is inadequate for the data under consideration because of the great spatial variability of the egg densities at the spawning time. They are samples of generated by a r.v whose mathematical expectation is a0 and the probability density function is fA. Therefore, we propose an extended exponential mortality model Y (tj,kj) = A (tj,kj) e-z0tj +e(tj,kj) where A(tj,kj) and e(tj,kj) are i.i.d, with the random variables A and e being assumed to be independent. Then the problem consists in estimating the mortality rate and the probability density of the random variable . We solve this semiparametric estimation problem in two steps. First, we estimate the mortality rate by fitting an exponential mortality model to averaged data. Second, we estimate the density fA by combining nonparametric estimation method with deconvolution technique and estimate the parameter z0. Theoretical results of consistence of these estimates are corroborated by simulation studies

APA, Harvard, Vancouver, ISO, and other styles

36

Gendre, Xavier. "Estimation par sélection de modèle en régression hétéroscédastique." Phd thesis, Université de Nice Sophia-Antipolis, 2009. http://tel.archives-ouvertes.fr/tel-00397608.

Full text

Abstract:

Cette thèse s'inscrit dans les domaines de la statistique non-asymptotique et de la théorie statistique de la sélection de modèle. Son objet est la construction de procédures d'estimation de paramètres en régression hétéroscédastique. Ce cadre reçoit un intérêt croissant depuis plusieurs années dans de nombreux champs d'application. Les résultats présentés reposent principalement sur des inégalités de concentration et sont illustrés par des applications à des données simulées.

La première partie de cette thèse consiste dans l'étude du problème d'estimation de la moyenne et de la variance d'un vecteur gaussien à coordonnées indépendantes. Nous proposons une méthode de choix de modèle basée sur un critère de vraisemblance pénalisé. Nous validons théoriquement cette approche du point de vue non-asymptotique en prouvant des majorations de type oracle du risque de Kullback de nos estimateurs et des vitesses de convergence uniforme sur les boules de Hölder.

Un second problème que nous abordons est l'estimation de la fonction de régression dans un cadre hétéroscédastique à dépendances connues. Nous développons des procédures de sélection de modèle tant sous des hypothèses gaussiennes que sous des conditions de moment. Des inégalités oracles non-asymptotiques sont données pour nos estimateurs ainsi que des propriétés d'adaptativité. Nous appliquons en particulier ces résultats à l'estimation d'une composante dans un modèle de régression additif.

APA, Harvard, Vancouver, ISO, and other styles

37

Vitse, Matthieu. "Réduction de modèle pour l'analyse paramétrique de l'endommagement dans les structures en béton armé." Thesis, Université Paris-Saclay (ComUE), 2016. http://www.theses.fr/2016SACLN055/document.

Full text

Abstract:

Ces travaux de thèse sont consacrés au développement d'un algorithme de résolution de problèmes non-linéaires pour lesquels il existe une variabilité sur certains paramètres du modèle ou du chargement définis par leur intervalle de définition. Le cadre d'étude est le projet SINAPS@, qui a pour but d'évaluer les incertitudes dans les structures de génie civil, et de quantifier leur influence sur la réponse mécanique globale d’une structure sujette à un aléa sismique. Contrairement aux approches statistiques ou probabilistes classiques, une résolution déterministique est privilégiée dans notre étude. Cependant, afin de réduire le coût de calcul de cette famille de problèmes, une approche de type réduction de modèle PGD est mise en place, pour laquelle les paramètres incertains sont considérés comme des variables supplémentaires du problème. Cette méthode est mise en place au sein de l'algorithme LATIN, qui utilise une approche itérative pour résoudre le caractère non-linéaire des équations rencontrées lors de la résolution du problème mécanique. Ces travaux présentent donc l'extension de l'algorithme classique temps-espace LATIN-PGD à des problèmes paramétriques, pour lesquels les paramètres sont considérés comme des variables additionnelles dans la définition des quantités d’intérêt, ainsi que l'application de cette méthode à un modèle endommageant avec refermeture de fissure, présentant une variabilité à la fois sur des paramètres matériaux et sur l'amplitude du chargement. La faisabilité de ce couplage est illustrée par des exemples numériques sur des structures en béton armé pour divers types de chargement cycliques (traction—compression, flexion)
This thesis is dedicated to the development of an algorithm for the resolution of nonlinear problems for which there is a variability on some of the model parameters or on the loading conditions, which are only described by their intervals of variation. This study is part of the SINAPS@ project, which aims at evaluating the uncertainties in civil engineering structures and to quantify their influence on the global mechanical response of a structure to a seismic hazard. Unlike statistical or probabilistic approaches, we rely here on a deterministic approach. However, in order to reduce the computation cost of such problems, a PGD-based reduced-order modeling approach is implemented, for which the uncertain parameters are considered as additional variables of the problem. This method was implemented into the LATIN algorithm, which uses an iterative approach to solve the nonlinear aspect of the equations of the mechanical problem. This work present the extension of the classical time-space LATIN—PGD algorithm to parametric problems for which the parameters are considered as additional variables in the definition of the quantities of interest, as well as the application of such method to a damage model with unilateral effect, highlighting a variability on both material parameters and the loading amplitude. The feasibility of such coupling is illustrated on numerical examples for reinforced concrete structures subjected to different types of cyclic loading conditions (tension—compression, bending)

APA, Harvard, Vancouver, ISO, and other styles

38

Tran, Gia-Lac. "Advances in Deep Gaussian Processes : calibration and sparsification." Electronic Thesis or Diss., Sorbonne université, 2020. https://accesdistant.sorbonne-universite.fr/login?url=https://theses-intra.sorbonne-universite.fr/2020SORUS410.pdf.

Full text

Abstract:

L'intégration des Convolutional Neural Networks (CNNs) et des GPs est une solution prometteuse pour améliorer le pouvoir de représentation des méthodes contemporaines. Dans notre première étude, nous utilisons des diagrammes de fiabilité pour montrer que les combinaisons actuelles de cnns et GPs sont mal calibrées, ce qui donne lieu à des prédictions trop confiantes. En utilisant des Random Feature et la technique d'inférence variationnelle, nous proposons une nouvelle solution correctement calibrée pour combinaisons des CNNs et des GPs. Nous proposons également une extension intuitive de cette solution, utilisant des Structured Random Features afin d'améliorer la précision du modèle et réduire la complexité des calculs. En termes de coût de calcul, la complexité du GPs exact est cubique en la taille de l'ensemble d'entrainement, ce qui le rend inutilisable lorsque celle-ci dépasse quelques milliers d'éléments. Afin de faciliter l'extension des GPs à des quantités massives de données, nous sélectionnons un petit ensemble de points actifs ou points d'induction par une distillation globale à partir de toutes les observations. Nous utilisons ensuite ces points actifs pour faire des prédictions. Plusieurs travaux similaires se basent sur l'étude Titsias et al en 2009 [5] and Hensman et al en 2015 [6]. Cependant, il est encore difficile de traiter le cas général, et il est toujours possible que le nombre de points actifs requis dépasse un budget de calcul donné. Dans notre deuxième étude, nous proposons Sparse-within-Sparse Gaussian Processes (SWSGP) qui permet l'approximation avec un grand nombre de points inducteurs sans cout de calcul prohibitif
Gaussian Processes (GPs) are an attractive specific way of doing non-parametric Bayesian modeling in a supervised learning problem. It is well-known that GPs are able to make inferences as well as predictive uncertainties with a firm mathematical background. However, GPs are often unfavorable by the practitioners due to their kernel's expressiveness and the computational requirements. Integration of (convolutional) neural networks and GPs are a promising solution to enhance the representational power. As our first contribution, we empirically show that these combinations are miscalibrated, which leads to over-confident predictions. We also propose a novel well-calibrated solution to merge neural structures and GPs by using random features and variational inference techniques. In addition, these frameworks can be intuitively extended to reduce the computational cost by using structural random features. In terms of computational cost, the exact Gaussian Processes require the cubic complexity to training size. Inducing point-based Gaussian Processes are a common choice to mitigate the bottleneck by selecting a small set of active points through a global distillation from available observations. However, the general case remains elusive and it is still possible that the required number of active points may exceed a certain computational budget. In our second study, we propose Sparse-within-Sparse Gaussian Processes which enable the approximation with a large number of inducing points without suffering a prohibitive computational cost

APA, Harvard, Vancouver, ISO, and other styles

39

Lacour, Claire. "Estimation non paramétrique adaptative pour les chaînes de Markov et les chaînes de Markov cachées." Phd thesis, Université René Descartes - Paris V, 2007. http://tel.archives-ouvertes.fr/tel-00180107.

Full text

Abstract:

Dans cette thèse, on considère une chaîne de Markov $(X_i)$ à espace d'états continu que l'on suppose récurrente positive et stationnaire. L'objectif est d'estimer la densité de transition $\Pi$ définie par $\Pi(x,y)dy=P(X_{i+1}\in dy|X_i=x)$. On utilise la sélection de modèles pour construire des estimateurs adaptatifs. On se place dans le cadre minimax sur $L^2$ et l'on s'intéresse aux vitesses de convergence obtenues lorsque la densité de transition est supposée régulière. Le risque intégré de nos estimateurs est majoré grâce au contrôle de processus empiriques par une inégalité de concentration de Talagrand. Dans une première partie, on suppose que la chaîne est directement observée. Deux estimateurs différents sont présentés, l'un par quotient, l'autre minimisant un contraste moindres carrés et prenant également en compte l'anisotropie du problème. Dans une deuxième partie, on aborde le cas d'observations bruitées $Y_1,\dots, Y_{n+1}$ où $Y_i=X_i+\varepsilon_i$ avec $(\varepsilon_i)$ un bruit indépendant de la chaîne $(X_i)$. On généralise à ce cas les deux estimateurs précédents. Des simulations illustrent les performances des estimateurs.

APA, Harvard, Vancouver, ISO, and other styles

40

Clertant, Matthieu. "Semi-parametric bayesian model, applications in dose finding studies." Thesis, Paris 6, 2016. http://www.theses.fr/2016PA066230/document.

Full text

Abstract:

Les Phases I sont un domaine des essais cliniques dans lequel les statisticiens ont encore beaucoup à apporter. Depuis trente ans, ce secteur bénéficie d'un intérêt croissant et de nombreuses méthodes ont été proposées pour gérer l'allocation séquentielle des doses aux patients intégrés à l'étude. Durant cette Phase, il s'agit d'évaluer la toxicité, et s'adressant à des patients gravement atteints, il s'agit de maximiser les effets curatifs du traitement dont les retours toxiques sont une conséquence. Parmi une gamme de doses, on cherche à déterminer celle dont la probabilité de toxicité est la plus proche d'un seuil souhaité et fixé par les praticiens cliniques. Cette dose est appelée la MTD (maximum tolerated dose). La situation canonique dans laquelle sont introduites la plupart des méthodes consiste en une gamme de doses finie et ordonnée par probabilité de toxicité croissante. Dans cette thèse, on introduit une modélisation très générale du problème, la SPM (semi-parametric methods), qui recouvre une large classe de méthodes. Cela permet d'aborder des questions transversales aux Phases I. Quels sont les différents comportements asymptotiques souhaitables? La MTD peut-elle être localisée? Comment et dans quelles circonstances? Différentes paramétrisations de la SPM sont proposées et testées par simulations. Les performances obtenues sont comparables, voir supérieures à celles des méthodes les plus éprouvées. Les résultats théoriques sont étendus au cas spécifique de l'ordre partiel. La modélisation de la SPM repose sur un traitement hiérarchique inférentiel de modèles satisfaisant des contraintes linéaires de paramètres inconnus. Les aspects théoriques de cette structure sont décrits dans le cas de lois à supports discrets. Dans cette circonstance, de vastes ensembles de lois peuvent aisément être considérés, cela permettant d'éviter les cas de mauvaises spécifications
Phase I clinical trials is an area in which statisticians have much to contribute. For over 30 years, this field has benefited from increasing interest on the part of statisticians and clinicians alike and several methods have been proposed to manage the sequential inclusion of patients to a study. The main purpose is to evaluate the occurrence of dose limiting toxicities for a selected group of patients with, typically, life threatening disease. The goal is to maximize the potential for therapeutic success in a situation where toxic side effects are inevitable and increase with increasing dose. From a range of given doses, we aim to determine the dose with a rate of toxicity as close as possible to some threshold chosen by the investigators. This dose is called the MTD (maximum tolerated dose). The standard situation is where we have a finite range of doses ordered with respect to the probability of toxicity at each dose. In this thesis we introduce a very general approach to modeling the problem - SPM (semi-parametric methods) - and these include a large class of methods. The viewpoint of SPM allows us to see things in, arguably, more relevant terms and to provide answers to questions such as asymptotic behavior. What kind of behavior should we be aiming for? For instance, can we consistently estimate the MTD? How, and under which conditions? Different parametrizations of SPM are considered and studied theoretically and via simulations. The obtained performances are comparable, and often better, to those of currently established methods. We extend the findings to the case of partial ordering in which more than one drug is under study and we do not necessarily know how all drug pairs are ordered. The SPM model structure leans on a hierarchical set-up whereby certain parameters are linearly constrained. The theoretical aspects of this structure are outlined for the case of distributions with discrete support. In this setting the great majority of laws can be easily considered and this enables us to avoid over restrictive specifications than can results in poor behavior

APA, Harvard, Vancouver, ISO, and other styles

41

Caouder, Nathalie. "Régression non-linéaire paramétrique : etude de méthodes pour détecter des écarts au modèle. Maquette de système expert pour l'estimation des paramètres." Paris 7, 1993. http://www.theses.fr/1993PA077132.

Full text

Abstract:

Dans de nombreux domaines d'application, les modeles de regression non-lineaire sont d'une grande utilite lors de l'ajustement d'une courbe a un lot de donnees. Le sujet principal de la these est la construction de tests d'adequation dans un modele de regression non-lineaire parametrique a erreurs independantes et variance heterogene. Les ecarts au modele concernent un mauvais choix de la fonction d'esperance des observations, ou de la fonction de variance des observations, ou les deux. Par analogie aux methodes developpees dans les modeles de regression lineaire, la demarche du praticien consiste a diagnostiquer d'eventuels ecarts au modele en examinant les graphiques des residus. Une etude asymptotique et le traitement d'exemples ne permettent pas de valider l'utilisation de ces methodes. Partant des travaux de white, zwanzig, bickel, des statistiques de test basees sur des combinaisons lineaires des carres des residus, et sur des differences entre deux estimateurs des parametres ont ete proposees. Leurs proprietes reposent sur celles des estimateurs (robustesse,. . . ), et sur les alternatives considerees. Ces alternatives traduisent que le modele est faux, sans preciser de modele(s) concurrent(s). Les resultats des simulations confirment les calculs asymptotiques et permettent d'enoncer quelques regles de diagnostic. La seconde partie de la these etudie la faisabilite d'un systeme informatique apportant aux experimentateurs l'aide methodologique necessaire pour estimer les parametres du modele. La technologie systeme expert est choisie en raison de l'evolution rapide de la connaissance statistique d'une part, et de la nature heuristique de l'expertise (difficile a representer sous forme procedurale), d'autre part. Une maquette de systeme expert est realisee et offre une aide pour le choix de la methode d'estimation et pour l'interpretation des resultats au cours de la procedure numerique du calcul de l'estimateur. La maquette est testee sur des exemples choisis dans la litterature pour les problemes qu'ils posent (forte non-linearite, grande variabilite des observations. . . ). Ce travail a permis de stocker dans un systeme informatique le savoir-faire des statisticiens et de le faire partager aux utilisateurs, non specialistes en general du domaine statistique

APA, Harvard, Vancouver, ISO, and other styles

42

Batou, Anas. "Identification des forces stochastiques appliquées à un système dynamique non linéaire en utilisant un modèle numérique incertain et des réponses expérimentales." Phd thesis, Université Paris-Est, 2008. http://tel.archives-ouvertes.fr/tel-00472080.

Full text

Abstract:

Ces travaux ont été développés dans le contexte de l'analyse vibratoire des assemblages combustibles. Ce type de structure est très complexe et a, du fait de sa géométrie, une très forte densité modale. Ainsi, afin de calculer la réponse d'une telle structure, une modélisation simplifiée est préférable. L'objectif est d'identifier des forces stochastiques induites par l'écoulement en utilisant un modèle numérique incertain et des réponses expérimentales. Pour ce problème, 4 sources d'incertitudes sont à prendre en considération : (1) Les incertitudes de modèle induites par les simplifications du modèle. (2) Les incertitudes sur les forces induites par les fluctuations statistiques de la pression turbulent. (3) Les incertitudes concernant la modélisation des forces stochastiques. (4) Les incertitudes induites par les erreurs de mesures. Les forces stochastiques ainsi identifiées sont appliquées sur le modèle simplifié stochastique pour calculer des statistiques sur les quantités d'intérêt

APA, Harvard, Vancouver, ISO, and other styles

43

Poilleux-Milhem, Hélène. "Test de validation adaptatif dans un modèle de régression : modélisation et estimation de l'effet d'une discontinuité du couvert végétal sur la dispersion du pollen de colza." Paris 11, 2002. http://www.theses.fr/2002PA112297.

Full text

Abstract:

L'étude de la dissémination de trans-gènes dans l'environnement constitue l'une des parties de la thèse. Plusieurs modélisations paramétriques de la fonction de dispersion de pollen ont déjà été élaborées en milieu homogène (plantes émettant du pollen marqué entourées de plantes identiques non marquées). Afin de prédire la "pollution génétique" dans des dispositifs de cultures variés, il convient de tenir compte de l'effet d'une discontinuité dans une culture ( e. G. Une route traversant un champ) sur la dispersion du pollen. Cet effet est modélisé et estimé pour deux expériences en champ sur le colza. Il correspond alors à une accélération de la dispersion du pollen qui dépend de la largeur de la discontinuité. Des méthodes graphiques de diagnostic ont permis de conclure que la modélisation par des fonctions constantes par morceaux, de la décroissance de la fonction de dispersion individuelle et de l'effet de la discontinuité, est celle ajustant au mieux les données. Avant d'utiliser les modèles paramétriques pour prédire la pollution génétique, il est indispensable de disposer d'outils de validation. Aussi nous proposons un test de validation de modèle paramétrique dans un cadre de régression non linéaire, les observations étant gaussiennes, indépendantes et de même variance. Ce test ne nécessite aucune connaissance a priori sur la fonction de régression et la variance des observations. Il généralise les tests d'hypothèses linéaires élaborés par Baraud et al (Ann. Statist. 2003, Vol. 31) au cadre non linéaire. Il est asymptotiquement de niveau α et asymptotiquement puissant sur une classe de fonctions que nous avons caractérisée. Il atteint la vitesse de séparation optimale au sens adaptatif minimax pour des classes de fonctions höldériennes, isotropes ou anisotropes. La vitesse de séparation pour des alternatives directionnelles est proche de la vitesse paramétrique. Une étude de simulation valide la procédure à distance finie
This thesis framework is the spread of genetically modified organisms in the environment. Several parametric models of the individual pollen dispersal distribution have already been proposed for homogeneous experiments (plants emitting marked pollen surrounded by the same unmarked plants). In order to predict the "genetic pollution" in an agricultural landscape, a discontinuity effect on pollen flows in a cultivated area (e. G. A road crosses a field) has to be taken into account. This effect was modelled and estimated: according to the size of the discontinuity, it may correspond to a significant acceleration of the pollen flow. Graphical diagnosis methods show that the modelling of the individual pollen dispersal distribution and of the discontinuity effect, is best fitting the data when using constant piecewise functions. Prior to using parametric models to predict genetic pollution, goodness-of-fit tools are essential. We therefore propose a goodness-of-fit test in a nonlinear Gaussian regression model, where the errors are independent and identically distributed. This test does not require any knowledge on the regression function and on the variance of the observations. It generalises the linear hypothesis tests proposed by Baraud et al (Ann. Statist. 2003, Vol. 31) to the nonlinear hypothesis. It is asymptotically of level α and a set of functions over which it is asymptotically powerful is characterized. It is rate optimal among adaptive procedures over isotropic and anisotropic Hölder classes of alternatives. It is consistent against directional alternatives that approach the null hypothesis at a rate close to the parametric rate. According to a simulation study, this test is powerful even for fixed sample sizes

APA, Harvard, Vancouver, ISO, and other styles

44

Verdière, Nathalie. "Identifiabilité de systèmes d'équations aux dérivées partielles semi-discrétisées et applications à l'identifiabilité paramétrique de modèles en pharmacocinétique et en pollution." Phd thesis, Université de Technologie de Compiègne, 2005. http://tel.archives-ouvertes.fr/tel-00011838.

Full text

Abstract:

Avant d'estimer les paramètres intervenant dans des systèmes dynamiques, linéaires ou non-linéaires, contrôlés ou non contrôlés, il est important d'effectuer une étude d'identifiabilité, c'est à dire si, à partir des données expérimentales, les paramètres étudiés sont uniques ou non. Plusieurs méthodes ont été développées ces dernières années, en particulier une qui est basée sur l'algèbre différentielle. Celle-ci a conduit à un algorithme utilisant le package Diffalg implémenté sous Maple et permettant de tester l'identifiabilité de systèmes d'équations différentielles. Les résultats obtenus à partir de cette étude permettent de mettre en place des méthodes numériques pour obtenir une première estimation des paramètres, ceci sans aucune connaissance à priori de leur valeur. Cette première estimation peut alors être utilisée comme point de départ d'algorithmes itératifs spécialisés dans l'étude des problèmes mal posés : la régularisation de Tikhonov.
Dans cette thèse, deux modèles non linéaires en pharmacocinétique de type Michaelis-Menten ont tout d'abord été étudiés. Ensuite, nous nous sommes intéressés à un modèle de pollution décrit par une équation aux dérivées partielles parabolique. Le terme source à identifier était modélisé par le produit de la fonction débit avec la masse de Dirac, de support la position de la source polluante. Le but du travail était de fournir une première estimation de la source polluante. Après avoir obtenu l'identifiabilité du problème continu, nous avons étudié l'identifiabilité d'un problème approché en nous appuyant sur les méthodes d'algèbre différentielle. Celui-ci a été obtenu en approchant la masse de Dirac par une fonction gaussienne et en discrétisant ensuite le système en espace. Les résultats d'identifiabilité ont été obtenus quel que soit le nombre de points de discrétisation en espace. De cette étude théorique, nous en avons déduit des algorithmes numériques donnant une première estimation des paramètres à identifier.

APA, Harvard, Vancouver, ISO, and other styles

45

Godard, Pierre. "Unsupervised word discovery for computational language documentation." Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLS062/document.

Full text

Abstract:

La diversité linguistique est actuellement menacée : la moitié des langues connues dans le monde pourraient disparaître d'ici la fin du siècle. Cette prise de conscience a inspiré de nombreuses initiatives dans le domaine de la linguistique documentaire au cours des deux dernières décennies, et 2019 a été proclamée Année internationale des langues autochtones par les Nations Unies, pour sensibiliser le public à cette question et encourager les initiatives de documentation et de préservation. Néanmoins, ce travail est coûteux en temps, et le nombre de linguistes de terrain, limité. Par conséquent, le domaine émergent de la documentation linguistique computationnelle (CLD) vise à favoriser le travail des linguistes à l'aide d'outils de traitement automatique. Le projet Breaking the Unwritten Language Barrier (BULB), par exemple, constitue l'un des efforts qui définissent ce nouveau domaine, et réunit des linguistes et des informaticiens. Cette thèse examine le problème particulier de la découverte de mots dans un flot non segmenté de caractères, ou de phonèmes, transcrits à partir du signal de parole dans un contexte de langues très peu dotées. Il s'agit principalement d'une procédure de segmentation, qui peut également être couplée à une procédure d'alignement lorsqu'une traduction est disponible. En utilisant deux corpus en langues bantoues correspondant à un scénario réaliste pour la linguistique documentaire, l'un en Mboshi (République du Congo) et l'autre en Myene (Gabon), nous comparons diverses méthodes monolingues et bilingues de découverte de mots sans supervision. Nous montrons ensuite que l'utilisation de connaissances linguistiques expertes au sein du formalisme des Adaptor Grammars peut grandement améliorer les résultats de la segmentation, et nous indiquons également des façons d'utiliser ce formalisme comme outil de décision pour le linguiste. Nous proposons aussi une variante tonale pour un algorithme de segmentation bayésien non-paramétrique, qui utilise un schéma de repli modifié pour capturer la structure tonale. Pour tirer parti de la supervision faible d'une traduction, nous proposons et étendons, enfin, une méthode de segmentation neuronale basée sur l'attention, et améliorons significativement la performance d'une méthode bilingue existante
Language diversity is under considerable pressure: half of the world’s languages could disappear by the end of this century. This realization has sparked many initiatives in documentary linguistics in the past two decades, and 2019 has been proclaimed the International Year of Indigenous Languages by the United Nations, to raise public awareness of the issue and foster initiatives for language documentation and preservation. Yet documentation and preservation are time-consuming processes, and the supply of field linguists is limited. Consequently, the emerging field of computational language documentation (CLD) seeks to assist linguists in providing them with automatic processing tools. The Breaking the Unwritten Language Barrier (BULB) project, for instance, constitutes one of the efforts defining this new field, bringing together linguists and computer scientists. This thesis examines the particular problem of discovering words in an unsegmented stream of characters, or phonemes, transcribed from speech in a very-low-resource setting. This primarily involves a segmentation procedure, which can also be paired with an alignment procedure when a translation is available. Using two realistic Bantu corpora for language documentation, one in Mboshi (Republic of the Congo) and the other in Myene (Gabon), we benchmark various monolingual and bilingual unsupervised word discovery methods. We then show that using expert knowledge in the Adaptor Grammar framework can vastly improve segmentation results, and we indicate ways to use this framework as a decision tool for the linguist. We also propose a tonal variant for a strong nonparametric Bayesian segmentation algorithm, making use of a modified backoff scheme designed to capture tonal structure. To leverage the weak supervision given by a translation, we finally propose and extend an attention-based neural segmentation method, improving significantly the segmentation performance of an existing bilingual method

APA, Harvard, Vancouver, ISO, and other styles

46

Coudin, Élise. "Inférence exacte et non paramétrique dans les modèles de régression et les modèles structurels en présence d'hétéroscédasticité de forme arbitraire." Thèse, Paris, EHESS, 2007. http://hdl.handle.net/1866/1506.

Full text

APA, Harvard, Vancouver, ISO, and other styles

47

Le, Corff Sylvain. "Estimations pour les modèles de Markov cachés et approximations particulaires : Application à la cartographie et à la localisation simultanées." Phd thesis, Telecom ParisTech, 2012. http://tel.archives-ouvertes.fr/tel-00773405.

Full text

Abstract:

Dans cette thèse, nous nous intéressons à l'estimation de paramètres dans les chaînes de Markov cachées dans un cadre paramétrique et dans un cadre non paramétrique. Dans le cas paramétrique, nous imposons des contraintes sur le calcul de l'estimateur proposé : un premier volet de cette thèse est l'estimation en ligne d'un paramètre au sens du maximum de vraisemblance. Le fait d'estimer en ligne signifie que les estimations doivent être produites sans mémoriser les observations. Nous proposons une nouvelle méthode d'estimation en ligne pour les chaînes de Markov cachées basée sur l'algorithme Expectation Maximization appelée Block Online Expectation Maximization (BOEM). Cet algorithme est défini pour des chaînes de Markov cachées à espace d'état et espace d'observations généraux. La consistance de l'algorithme ainsi que des vitesses de convergence en probabilité ont été prouvées. Dans le cas d'espaces d'états généraux, l'implémentation numérique de l'algorithme BOEM requiert d'introduire des méthodes de Monte Carlo séquentielles - aussi appelées méthodes particulaires - pour approcher des espérances conditionnelles sous des lois de lissage qui ne peuvent être calculées explicitement. Nous avons donc proposé une approximation Monte Carlo de l'algorithme BOEM appelée Monte Carlo BOEM. Parmi les hypothèses nécessaires à la convergence de l'algorithme Monte Carlo BOEM, un contrôle de la norme Lp de l'erreur d'approximation Monte Carlo explicite en fonction du nombre d'observations T et du nombre de particules N est nécessaire. Par conséquent, une seconde partie de cette thèse a été consacrée à l'obtention de tels contrôles pour plusieurs méthodes de Monte Carlo séquentielles : l'algorithme Forward Filtering Backward Smoothing et l'algorithme Forward Filtering Backward Simulation. Ensuite, nous considérons des applications de l'algorithme Monte Carlo BOEM à des problèmes de cartographie et de localisation simultanées. Ces problèmes se posent lorsqu'un mobile se déplace dans un environnement inconnu. Il s'agit alors de localiser le mobile tout en construisant une carte de son environnement. Enfin, la dernière partie de cette thèse est relative à l'estimation non paramétrique dans les chaînes de Markov cachées. Le problème considéré a été très peu étudié et nous avons donc choisi de l'aborder dans un cadre précis. Nous supposons que la chaîne (Xk) est une marche aléatoire sur un sous-espace compact de Rm dont la loi des incréments est connue à un facteur d'échelle a près. Nous supposons également que, pour tout k, Yk est une observation dans un bruit additif gaussien de f(Xk), où f est une fonction à valeurs dans Rl que nous cherchons à estimer. Le premier résultat que nous avons établi est l'identifiabilité du modèle statistique considéré. Nous avons également proposé une estimation de la fonction f et du paramètre a à partir de la log-vraisemblance par paires des observations. Nous avons prouvé la convergence en probabilité de ces estimateurs lorsque le nombre d'observations utilisées tend vers l'infini.

APA, Harvard, Vancouver, ISO, and other styles

48

Koladjo, Babagnidé François. "Estimation non paramétrique du nombre d'espèces : Application à l'étude de la faune ichtyologique du bassin du fleuve Ouëmé." Thesis, Paris 11, 2013. http://www.theses.fr/2013PA112153.

Full text

Abstract:

Ce manuscrit est structuré en deux parties. La première partie composée des chapitres 2à 4 aborde le problème d'estimation du nombre de classes dans une population avec une application en écologie. La deuxième partie, correspondant au chapitre 5,concerne la mise en oeuvre de méthodes statistiques pour analyser des données de pêche. Dans la première partie, nous considérons une population hétérogène subdiviséeen plusieurs classes. À partir d'un échantillon, les effectifs d'individus observés parclasse, encore appelés abondances, sont utilisés pour estimer le nombre total declasses dans la population. Dans la littérature consacrée à l'estimation du nombrede classes, les méthodes basées sur un mélange de distributions de Poisson semblentêtre les plus performantes (voir par exemple les travaux de Chao and Bunge (2002)dans le cadre paramétrique et celui de Wang and Lindsay (2005) dans un cadrenon paramétrique). La mise en oeuvre de ces approches sur des données réellesmet en évidence que la distribution des abondances peut être approchée par unedistribution convexe. Nous proposons une approche non paramétrique pour estimerla distribution des abondances sous contrainte de convexité. Cette contrainte définitun cadre théorique d'estimation d'une densité discrète. Le problème d'estimation dunombre de classes est donc abordé en deux volets. Nous montrons d'une part l'existenceet l'unicité d'un estimateur d'une densité discrète sous la contrainte de convexité.Sous cette contrainte, nous démontrons qu'une densité discrète s'écrit comme un mélange de densités triangulaires. À partir de l'algorithme de réduction du supportproposé par Groeneboom et al. (2008), nous proposons un algorithme exact pourestimer les proportions dans le mélange. D'autre part, la procédure d'estimationd'une densité discrète convexe nous sert de cadre pour l'estimation de la distributiontronquée en zéro des observations d'abondance. L'estimation de la loi tronquée obtenue est ensuite prolongée en zéro pour estimer la probabilité qu'une classe ne soit pasobservée. Ce prolongement en zéro est fait de façon à annuler la proportion dela première composante dans le mélange de densités triangulaires. Nousaboutissons à une estimation du nombre de classes à l'aide d'un modèle binomial ensupposant que chaque classe apparaît dans un échantillon par une épreuve deBernoulli. Nous montrons la convergence en loi de l'estimateur proposé. Sur le plan pratique, une application aux données réelles en écologie est présentée. La méthode est ensuite comparée à d'autres méthodes concurrentes à l'aide de simulations. La seconde partie présente l'analyse des données de pêche collectées dans le fleuveOuémé au Bénin. Nous proposons une démarche statistique permettant de regrouperles espèces selon leur profil temporel d'abondances, d'estimer le stock d'une espèceainsi que leur capturabilité par les engins de pêche artisanale
This manuscript is structured in two parts. The #rst part composed of Chapters 2to 4 deals with the problem of estimating the number of classes in a population withan application in ecology. The second part, corresponding to Chapter 5, concernsthe application of statistical methods to analyze fisheries data.In the first part, we consider a heterogeneous population split into several classes.From a sample, the numbers of observed individuals per class, also called abun-dances, are used to estimate the total number of classes in the population. In theliterature devoted to the number of classes estimation, methods based on a mix-ture of Poisson distributions seem to be the most effcient (see for example the workof Chao and Bunge (2002) in the parametric framework and that of Wang and Lind-say (2005) in a non-parametric framework). Applications of these approaches to realdata show that the distribution of abundances can be approximated by a convexdistribution. We propose a non-parametric approach to estimate the distribution ofabundances under the constraint of convexity. This constraint defines a theoreticalframework for estimating a discrete density. The problem of estimating the numberof classes is then tackled in two steps.We show on the one hand the existence and uniqueness of an estimator of adiscrete density under the constraint of convexity. Under this constraint, we provethat a discrete density can be written as a mixture of triangular distributions. Usingthe support reduction algorithm proposed by Groeneboom et al. (2008), we proposean exact algorithm to estimate the proportions in the mixture.On the other hand, the estimation procedure of a discrete convex density is usedto estimate the zero-truncated distribution of the observed abundance data. Thezero-truncated distribution estimate is then extended at zero to derive an estimateof the probability that a class is not observed. This extension is made so as tocancel the first component in the mixture of triangular distributions. An estimateof the total number of classes is obtained through a binomial model assuming thateach class appears in a sample by a Bernoulli trial. We show the convergence inlaw of the proposed estimator. On practical view, an application to real ecologicaldata is presented. The method is then compared to other concurrent methods usingsimulations.The second part presents the analysis of fisheries data collected on the Ouémériver in Benin. We propose a statistical approach for grouping species accordingto their temporal abundance profile, to estimate the stock of a species and theircatchability by artisanal fishing gears

APA, Harvard, Vancouver, ISO, and other styles

49

Dalalyan, Arnak. "Contribution à la statistique des diffusions. Estimation semiparamétrique et efficacité au second ordre.Agrégation et réduction de dimension pour le modèle de régression." Habilitation à diriger des recherches, Université Pierre et Marie Curie - Paris VI, 2007. http://tel.archives-ouvertes.fr/tel-00192080.

Full text

Abstract:

Ce texte constitue une synthèse de mes travaux de recherche menés depuis 2000 en statistique mathématique. Ces travaux s'articulent autour de 4 thèmes: la statistique non paramétrique pour les processus de diffusion, efficacité au second ordre pour l'estimation semiparamétrique, agrégation par des poids exponentiels et réduction de dimension pour la régression non paramétrique.
Le premier chapitre contient une description générale des résultats obtenus en les replaçant dans un contexte historique et en présentant les motivations qui nous ont animées pour étudier ces problèmes. J'y décris également de façon informelle les idées clés des démonstrations.

Au second chapitre, je présente les définitions principales nécessaires pour énoncer de façon rigoureuse les résultats les plus importants. Ce chapitre contient également une discussion plus formelle permettant de mettre en lumière certains aspects théoriques et pratiques de nos résultats.

APA, Harvard, Vancouver, ISO, and other styles

50

Antic, Julie. "Méthodes non-paramétriques en pharmacocinétique et/ou pharmacodynamie de population." Toulouse 3, 2009. http://thesesups.ups-tlse.fr/935/.

Full text

Abstract:

La thèse étudie les méthodes non-paramétriques (NP) d'estimation de la distribution des effets aléatoires d'un modèle non-linéaire à effets mixtes. L'objectif est d'évaluer l'intérêt de ces méthodes pour les analyses Pharmacocinétiques (PK) et/ou Pharmacodynamiques (PD) de population, dans l'industrie Pharmaceutique. Dans un premier temps, la thèse fait le point sur les propriétés statistiques de quatre méthodes NP importantes. De plus, elle évalue leurs performances pratiques grâce des études de simulation inspirées d'analyses PK de population. L'intérêt des méthodes NP est établi, en théorie et en pratique. Les méthodes NP sont ensuite évaluées pour l'analyse PK/PD de population d'un médicament antidiabétique. L'objectif est d'évaluer la capacité des méthodes à détecter une sous-population de patients non-répondeurs au traitement. Des études de simulation montrent que deux méthodes NP semblent plus aptes à détecter cette sous-population. La dernière partie de la thèse est consacrée à la recherche d'algorithmes stochastiques permettant d'améliorer le calcul des méthodes NP. Un algorithme de gradient stochastique perturbé est proposé
This thesis studies non-parametric (NP) methods for the estimation of random-effects' distribution in non-linear mixed effect models. The objective is to evaluate the interest of these methods for population Pharmacokinetics (PK) and/or Pharmacodynamics (PD) analyses within Pharmaceutical industry. In a first step, the thesis reviews the statistical properties of four important NP methods. Besides, their practical performances are evaluated using some simulation studies, inspired from population PK analyses. The interest of NP methods is established in theory and in practice. NP methods are then for the population PK/PD analysis of an anti-diabetic drug. The aim is to evaluate the methods abilities to detect a sub-population of nonresponder patients. Some simulation studies show that two NP methods seem more capable of detecting this sub-population. The last part of the thesis is dedicated to the research of stochastic algorithms that improve the computation of NP methods. A perturbed stochastic gradient algorithm is proposed

APA, Harvard, Vancouver, ISO, and other styles

We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!