To see the other types of publications on this topic, follow the link: Inférence sélective.

Dissertations / Theses on the topic 'Inférence sélective'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 31 dissertations / theses for your research on the topic 'Inférence sélective.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Yadegari, Iraj. "Prédiction, inférence sélective et quelques problèmes connexes." Thèse, Université de Sherbrooke, 2017. http://hdl.handle.net/11143/10167.

Full text
Abstract:
Nous étudions le problème de l'estimation de moyenne et de la densité prédictive d'une population sélectionnée, en obtenant de nouveaux développements qui incluent l'analyse de biais, la décomposition du risque et les problèmes avec restrictions sur les paramètres (chapitre 2). Nous proposons des estimateurs de densité prédictive efficaces en termes de pertes Kullback-Leibler et Hellinger (chapitre 3) améliorant les procédures de plug-in via une perte duale et via une d'expansion de variance. Enfin, nous présentons les résultats de l'amélioration de l'estimateur du maximum de vraisemblance (EMV) d'une moyenne normale bornée pour une classe de fonctions de perte, y compris la perte normale réfléchie, avec des implications pour l'estimation de densité prédictive. A savoir, nous donnons des conditions sur la perte et la largeur de l'espace paramétrique pour lesquels l'estimateur de Bayes par rapport à la loi a priori uniforme sur la frontière domine la EMV.
Abstract : We study the problem of point estimation and predictive density estimation of the mean of a selected population, obtaining novel developments which include bias analysis, decomposition of risk, and problems with restricted parameters (Chapter 2). We propose efficient predictive density estimators in terms of Kullback-Leibler and Hellinger losses (Chapter 3) improving on plug-in procedures via a dual loss and via a variance expansion scheme. Finally (Chapter 4), we present findings on improving on the maximum likelihood estimator (MLE) of a bounded normal mean under a class of loss functions, including reflected normal loss, with implications for predictive density estimation. Namely, we give conditions on the loss and the width of the parameter space for which the Bayes estimator with respect to the boundary uniform prior dominates the MLE.​
APA, Harvard, Vancouver, ISO, and other styles
2

Hivert, Benjamin. "Clustering et analyse différentielle de données d'expression génique." Electronic Thesis or Diss., Bordeaux, 2024. http://www.theses.fr/2024BORD0171.

Full text
Abstract:
Les analyses des données d’expression génique issues du séquençage de l’ARN (RNA-seq) en masse (bulk RNA-seq) ou en cellule unique (scRNA-seq) sont devenues courantes dans les études immunologiques. Elles permettent entre autres une meilleure compréhension de l’hétérogénéité présente dans les réponses immunitaires, qu’elles soient en réponse à la vaccination ou face à des maladies. Les analyses de ces données se font souvent selon deux étapes : i) d’abord une classification non supervisée, ou clustering, utilisant l’ensemble des gènes pour regrouper les échantillons en sousgroupes distincts et homogènes ; ensuite ii) l’analyse différentielle se faisant à l’aide de tests d’hypothèse visant à identifier les gènes qui sont différentiellement exprimés entre ces sous-groupes. Cependant, ces deux étapes successives soulèvent un problème méthodologique actuellement souvent ignoré dans la littérature appliquée. En effet, les méthodes traditionnelles d’inférence nécessitent des hypothèses de tests fixées a priori, sans dépendre des données, pour garantir un contrôle effectif de l’erreur de type I. Dans le contexte de ces analyses en deux étapes, les hypothèses de tests sont basées sur les résultats du clustering ce qui compromet le contrôle de l’erreur de type I des méthodes traditionnelles qui peuvent alors conduire à de fausses découvertes. Nous proposons alors de nouvelles méthodes statistiques qui permettent de tenir compte de cette double utilisation des données, garantissant un contrôle effectif du nombre de fausses découvertes
Analyses of gene expression data obtained from bulk RNA sequencing (bulk RNA-seq) or single-cell RNA sequencing (scRNA-seq) have become commonplace in immunological studies. They allow for a better understanding of the heterogeneity present in immune responses, whether in reaction to vaccination or disease. Typically, the analysis of these data is conducted in two steps : i) first, an unsupervised classification, or clustering, is performed using all the genes to group samples into distinct and homogeneous subgroups ; ii) then, differential analysis is conducted using hypothesis tests to identify genes that are differentially expressed between these subgroups. However, these two successive steps lead to methodological challenge that is often overlooked in the applied literature. Traditional inference methods require hypothesis to be fixed a priori and independent of the data to ensure effective control of type I error. In the context of these two-steps analyses, the hypothesis tests are based on the results of the clustering, which compromises the control of type I error by traditional methods and can lead to false discoveries. We propose new statistical methods that account for this double use of the data and ensure an effective control of the number of false discoveries
APA, Harvard, Vancouver, ISO, and other styles
3

Durand, Jean-Baptiste. "Modèles à structure cachée : inférence, estimation, sélection de modèles et applications." Phd thesis, Université Joseph Fourier (Grenoble), 2003. https://tel.archives-ouvertes.fr/tel-00002754v3.

Full text
APA, Harvard, Vancouver, ISO, and other styles
4

Caron, François. "Inférence bayésienne pour la détermination et la sélection de modèles stochastiques." Ecole Centrale de Lille, 2006. http://www.theses.fr/2006ECLI0012.

Full text
Abstract:
On s'intéresse à l'ajout d'incertitudes supplémentaires dans les modèles de Markov cachés. L'inférence est réalisée dans un cadre bayésien à l'aide des méthodes de Monte Carlo. Dans un cadre multicapteur, on suppose que chaque capteur peut commuter entre plusieurs états de fonctionnement. Un modèle à saut original est développé et des algorithmes de Monte Carlo efficaces sont présentés pour différents types de situations, prenant en compte des données synchrones/asynchrones et le cas binaire capteur valide/défaillant. Le modèle/algorithme développé est appliqué à la localisation d'un véhicule terrestre équipé de trois capteurs, dont un récepteur GPS, potentiellement défaillant à cause de phénomènes de trajets multiples. On s'intéresse ensuite à l'estimation de la densité de probabilité des bruits d'évolution et de mesure dans les modèles de Markov cachés, à l'aide des mélanges de processus de Dirichlet. Le cas de modèles linéaires est tout d'abord étudié, et des algorithmes MCMC et de filtrage particulaire sont développés. Ces algorithmes sont testés sur trois applications différentes. Puis le cas de l'estimation des densités de probabilité des bruits dans les modèles non linéaires est étudié. On définit pour cela des processus de Dirichlet variant temporellement, permettant l'estimation en ligne d'une densité de probabilité non stationnaire
We are interested in the addition of uncertainty in hidden Markov models. The inference is made in a Bayesian framework based on Monte Carlo methods. We consider multiple sensors that may switch between several states of work. An original jump model is developed for different kind of situations, including synchronous/asynchronous data and the binary valid/invalid case. The model/algorithm is applied to the positioning of a land vehicle equipped with three sensors. One of them is a GPS receiver, whose data are potentially corrupted due to multipaths phenomena. We consider the estimation of the probability density function of the evolution and observation noises in hidden Markov models. First, the case of linear models is addressed and MCMC and particle filter algorithms are developed and applied on three different applications. Then the case of the estimation of probability density functions in nonlinear models is addressed. For that purpose, time-varying Dirichlet processes are defined for the online estimation of time-varying probability density functions
APA, Harvard, Vancouver, ISO, and other styles
5

Guilloux, Agathe. "Inférence non paramétrique en statistique des durées de vie sous biais de sélection." Rennes 1, 2004. http://www.theses.fr/2004REN10058.

Full text
APA, Harvard, Vancouver, ISO, and other styles
6

Delattre, Maud. "Inférence statistique dans les modèles mixtes à dynamique Markovienne." Phd thesis, Université Paris Sud - Paris XI, 2012. http://tel.archives-ouvertes.fr/tel-00765708.

Full text
Abstract:
La première partie de cette thèse est consacrée à l'estimation par maximum de vraisemblance dans les modèles mixtes à dynamique markovienne. Nous considérons plus précisément des modèles de Markov cachés à effets mixtes et des modèles de diffusion à effets mixtes. Dans le Chapitre 2, nous combinons l'algorithme de Baum-Welch à l'algorithme SAEM pour estimer les paramètres de population dans les modèles de Markov cachés à effets mixtes. Nous proposons également des procédures spécifiques pour estimer les paramètres individuels et les séquences d' états cachées. Nous étudions les propriétés de cette nouvelle méthodologie sur des données simulées et l'appliquons sur des données réelles de nombres de crises d' épilepsie. Dans le Chapitre 3, nous proposons d'abord des modèles de diffusion à effets mixtes pour la pharmacocin étique de population. Nous en estimons les paramètres en combinant l'algorithme SAEM a un filtre de Kalman étendu. Nous étudions ensuite les propriétés asymptotiques de l'estimateur du maximum de vraisemblance dans des modèles de diffusion observés sans bruit de mesure continûment sur un intervalle de temps fixe lorsque le nombre de sujets tend vers l'infini. Le Chapitre 4 est consacré a la s élection de covariables dans des modèles mixtes généraux. Nous proposons une version du BIC adaptée au contexte de double asymptotique où le nombre de sujets et le nombre d'observations par sujet tendent vers l'infini. Nous présentons quelques simulations pour illustrer cette procédure.
APA, Harvard, Vancouver, ISO, and other styles
7

Karmann, Clémence. "Inférence de réseaux pour modèles inflatés en zéro." Thesis, Université de Lorraine, 2019. http://www.theses.fr/2019LORR0146/document.

Full text
Abstract:
L'inférence de réseaux ou inférence de graphes a de plus en plus d'applications notamment en santé humaine et en environnement pour l'étude de données micro-biologiques et génomiques. Les réseaux constituent en effet un outil approprié pour représenter, voire étudier des relations entre des entités. De nombreuses techniques mathématiques d'estimation ont été développées notamment dans le cadre des modèles graphiques gaussiens mais aussi dans le cas de données binaires ou mixtes. Le traitement des données d'abondance (de micro-organismes comme les bactéries par exemple) est particulier pour deux raisons : d'une part elles ne reflètent pas directement la réalité car un processus de séquençage a lieu pour dupliquer les espèces et ce processus apporte de la variabilité, d'autre part une espèce peut être absente dans certains échantillons. On est alors dans le cadre de données inflatées en zéro. Beaucoup de méthodes d'inférence de réseaux existent pour les données gaussiennes, les données binaires et les données mixtes mais les modèles inflatés en zéro sont très peu étudiés alors qu'ils reflètent la structure de nombreux jeux de données de façon pertinente. L'objectif de cette thèse concerne l'inférence de réseaux pour les modèles inflatés en zéro. Dans cette thèse, on se limitera à des réseaux de dépendances conditionnelles. Le travail présenté dans cette thèse se décompose principalement en deux parties. La première concerne des méthodes d'inférence de réseaux basées sur l'estimation de voisinages par une procédure couplant des méthodes de régressions ordinales et de sélection de variables. La seconde se focalise sur l'inférence de réseaux dans un modèle où les variables sont des gaussiennes inflatées en zéro par double troncature (à droite et à gauche)
Network inference has more and more applications, particularly in human health and environment, for the study of micro-biological and genomic data. Networks are indeed an appropriate tool to represent, or even study, relationships between entities. Many mathematical estimation techniques have been developed, particularly in the context of Gaussian graphical models, but also in the case of binary or mixed data. The processing of abundance data (of microorganisms such as bacteria for example) is particular for two reasons: on the one hand they do not directly reflect reality because a sequencing process takes place to duplicate species and this process brings variability, on the other hand a species may be absent in some samples. We are then in the context of zero-inflated data. Many graph inference methods exist for Gaussian, binary and mixed data, but zero-inflated models are rarely studied, although they reflect the structure of many data sets in a relevant way. The objective of this thesis is to infer networks for zero-inflated models. In this thesis, we will restrict to conditional dependency graphs. The work presented in this thesis is divided into two main parts. The first one concerns graph inference methods based on the estimation of neighbourhoods by a procedure combining ordinal regression models and variable selection methods. The second one focuses on graph inference in a model where the variables are Gaussian zero-inflated by double truncation (right and left)
APA, Harvard, Vancouver, ISO, and other styles
8

Gallopin, Mélina. "Classification et inférence de réseaux pour les données RNA-seq." Thesis, Université Paris-Saclay (ComUE), 2015. http://www.theses.fr/2015SACLS174/document.

Full text
Abstract:
Cette thèse regroupe des contributions méthodologiques à l'analyse statistique des données issues des technologies de séquençage du transcriptome (RNA-seq). Les difficultés de modélisation des données de comptage RNA-seq sont liées à leur caractère discret et au faible nombre d'échantillons disponibles, limité par le coût financier du séquençage. Une première partie de travaux de cette thèse porte sur la classification à l'aide de modèle de mélange. L'objectif de la classification est la détection de modules de gènes co-exprimés. Un choix naturel de modélisation des données RNA-seq est un modèle de mélange de lois de Poisson. Mais des transformations simples des données permettent de se ramener à un modèle de mélange de lois gaussiennes. Nous proposons de comparer, pour chaque jeu de données RNA-seq, les différentes modélisations à l'aide d'un critère objectif permettant de sélectionner la modélisation la plus adaptée aux données. Par ailleurs, nous présentons un critère de sélection de modèle prenant en compte des informations biologiques externes sur les gènes. Ce critère facilite l'obtention de classes biologiquement interprétables. Il n'est pas spécifique aux données RNA-seq. Il est utile à toute analyse de co-expression à l'aide de modèles de mélange visant à enrichir les bases de données d'annotations fonctionnelles des gènes. Une seconde partie de travaux de cette thèse porte sur l'inférence de réseau à l'aide d'un modèle graphique. L'objectif de l'inférence de réseau est la détection des relations de dépendance entre les niveaux d'expression des gènes. Nous proposons un modèle d'inférence de réseau basé sur des lois de Poisson, prenant en compte le caractère discret et la grande variabilité inter-échantillons des données RNA-seq. Cependant, les méthodes d'inférence de réseau nécessitent un nombre d'échantillons élevé.Dans le cadre du modèle graphique gaussien, modèle concurrent au précédent, nous présentons une approche non-asymptotique pour sélectionner des sous-ensembles de gènes pertinents, en décomposant la matrice variance en blocs diagonaux. Cette méthode n'est pas spécifique aux données RNA-seq et permet de réduire la dimension de tout problème d'inférence de réseau basé sur le modèle graphique gaussien
This thesis gathers methodologicals contributions to the statistical analysis of next-generation high-throughput transcriptome sequencing data (RNA-seq). RNA-seq data are discrete and the number of samples sequenced is usually small due to the cost of the technology. These two points are the main statistical challenges for modelling RNA-seq data.The first part of the thesis is dedicated to the co-expression analysis of RNA-seq data using model-based clustering. A natural model for discrete RNA-seq data is a Poisson mixture model. However, a Gaussian mixture model in conjunction with a simple transformation applied to the data is a reasonable alternative. We propose to compare the two alternatives using a data-driven criterion to select the model that best fits each dataset. In addition, we present a model selection criterion to take into account external gene annotations. This model selection criterion is not specific to RNA-seq data. It is useful in any co-expression analysis using model-based clustering designed to enrich functional annotation databases.The second part of the thesis is dedicated to network inference using graphical models. The aim of network inference is to detect relationships among genes based on their expression. We propose a network inference model based on a Poisson distribution taking into account the discrete nature and high inter sample variability of RNA-seq data. However, network inference methods require a large number of samples. For Gaussian graphical models, we propose a non-asymptotic approach to detect relevant subsets of genes based on a block-diagonale decomposition of the covariance matrix. This method is not specific to RNA-seq data and reduces the dimension of any network inference problem based on the Gaussian graphical model
APA, Harvard, Vancouver, ISO, and other styles
9

Karmann, Clémence. "Inférence de réseaux pour modèles inflatés en zéro." Electronic Thesis or Diss., Université de Lorraine, 2019. http://www.theses.fr/2019LORR0146.

Full text
Abstract:
L'inférence de réseaux ou inférence de graphes a de plus en plus d'applications notamment en santé humaine et en environnement pour l'étude de données micro-biologiques et génomiques. Les réseaux constituent en effet un outil approprié pour représenter, voire étudier des relations entre des entités. De nombreuses techniques mathématiques d'estimation ont été développées notamment dans le cadre des modèles graphiques gaussiens mais aussi dans le cas de données binaires ou mixtes. Le traitement des données d'abondance (de micro-organismes comme les bactéries par exemple) est particulier pour deux raisons : d'une part elles ne reflètent pas directement la réalité car un processus de séquençage a lieu pour dupliquer les espèces et ce processus apporte de la variabilité, d'autre part une espèce peut être absente dans certains échantillons. On est alors dans le cadre de données inflatées en zéro. Beaucoup de méthodes d'inférence de réseaux existent pour les données gaussiennes, les données binaires et les données mixtes mais les modèles inflatés en zéro sont très peu étudiés alors qu'ils reflètent la structure de nombreux jeux de données de façon pertinente. L'objectif de cette thèse concerne l'inférence de réseaux pour les modèles inflatés en zéro. Dans cette thèse, on se limitera à des réseaux de dépendances conditionnelles. Le travail présenté dans cette thèse se décompose principalement en deux parties. La première concerne des méthodes d'inférence de réseaux basées sur l'estimation de voisinages par une procédure couplant des méthodes de régressions ordinales et de sélection de variables. La seconde se focalise sur l'inférence de réseaux dans un modèle où les variables sont des gaussiennes inflatées en zéro par double troncature (à droite et à gauche)
Network inference has more and more applications, particularly in human health and environment, for the study of micro-biological and genomic data. Networks are indeed an appropriate tool to represent, or even study, relationships between entities. Many mathematical estimation techniques have been developed, particularly in the context of Gaussian graphical models, but also in the case of binary or mixed data. The processing of abundance data (of microorganisms such as bacteria for example) is particular for two reasons: on the one hand they do not directly reflect reality because a sequencing process takes place to duplicate species and this process brings variability, on the other hand a species may be absent in some samples. We are then in the context of zero-inflated data. Many graph inference methods exist for Gaussian, binary and mixed data, but zero-inflated models are rarely studied, although they reflect the structure of many data sets in a relevant way. The objective of this thesis is to infer networks for zero-inflated models. In this thesis, we will restrict to conditional dependency graphs. The work presented in this thesis is divided into two main parts. The first one concerns graph inference methods based on the estimation of neighbourhoods by a procedure combining ordinal regression models and variable selection methods. The second one focuses on graph inference in a model where the variables are Gaussian zero-inflated by double truncation (right and left)
APA, Harvard, Vancouver, ISO, and other styles
10

Maurent, Eliott. "Des forêts tropicales et des humains dans les Amériques : trajectoires de réponse aux perturbations anthropiques de la diversité et de la composition des arbres. Of tropical forests and humans in the Americas : response trajectories of tree diversity and composition to anthropogenic disturbances." Electronic Thesis or Diss., Paris, AgroParisTech, 2023. http://www.theses.fr/2023AGPT0014.

Full text
Abstract:
Les forêts tropicales sont confrontées à des perturbations anthropiques fréquentes et intenses, telles que l'exploitation sélective - l'abattage de quelques arbres dans des forêts anciennes, tandis que le reste du peuplement se régénère naturellement. De nombreuses études ont été menées sur la reconstitution des stocks de carbone et de bois, en raison d'un intérêt pour l'atténuation du changement climatique et la rentabilité de l'exploitation. Malgré le rôle crucial de la biodiversité pour le maintien et le fonctionnement des écosystèmes - et sa valeur intrinsèque - peu d'études ont été menées sur l'impact de l'exploitation sélective sur la biodiversité. Par conséquent, cette thèse vise à caractériser la réponse de la diversité et de la composition des arbres à l'exploitation forestière dans les forêts tropicales américaines.Grâce aux inventaires forestiers (1986-2021, diamètre à hauteur de poitrine ≥ 10 cm) de la station de Paracou (Guyane française), nous avons construit un cadre bayésien de modélisation des trajectoires de la diversité et de la composition des arbres après exploitation : Paracou a été perturbé par des traitements sylvicoles de différentes intensités en 1986-1987. Nous avons propagé l'incertitude associée à la détermination botanique et aux mesures des traits fonctionnels, et modélisé les trajectoires de diversité et de composition taxonomique, phylogénétique et fonctionnelle des arbres au niveau de l'espèce, par rapport à leurs niveaux pré-perturbation. En outre, nous avons évalué l'effet des caractéristiques des communautés d'arbres pré-perturbation, des conditions biophysiques et des propriétés de la perturbation sur nos trajectoires d'attributs forestiers. Deuxièmement, nous avons utilisé une version simplifiée du cadre de modélisation susmentionné sur des inventaires forestiers à long terme provenant de parcelles situées au Costa Rica et dans trois pays amazoniens (Observatorio de los Ecosistemas Forestales de Costa Rica et Tropical managed Forest Observatory). Nous avons modélisé leurs trajectoires de diversité et de composition taxonomique et fonctionnelle après exploitation au niveau du genre, à partir desquelles nous avons extrait des indicateurs sur la période d'inventaire de chaque site. Nous avons ensuite évalué l'effet de la structure de la communauté d'arbres pré-perturbation et des propriétés de la perturbation sur ces indicateurs. Bien que plus variables dans la seconde étude ayant une portée géographique plus large, nous avons observé des tendances similaires dans les deux études : la diversité a majoritairement augmenté après exploitation et les communautés d'arbres sont principalement passées de stratégies de conservation à des stratégies d'acquisition des ressources. Ces changements semblent provenir du recrutement abondant et momentané d'espèces de début de succession présentant des caractéristiques d'acquisition des ressources, ce qui leur confère un avantage compétitif lorsque l'intensité de perturbation - i.e., disponibilité de la lumière et de l'espace - augmente. En effet, les changements de diversité et composition ont augmenté dans les deux études avec l'intensité de perturbation, alors que les autres descripteurs n'ont pas eu d'effet significatif. Troisièmement, suite à l'importance de l'intensité de perturbation dans les études précédentes, nous avons développé un cadre commun de modélisation des trajectoires de forêts perturbées à travers un gradient d'intensité de perturbation. Nous avons testé notre approche de modélisation sur des inventaires forestiers de long-terme du Costa Rica et de Guyane française, après exploitation sélective, agriculture, et coupe à blanc suivie d'un feu.Ces résultats ouvrent des perspectives sur les méthodes d'évaluation de la réponse forestière aux perturbations, la réponse des forêts elle-même et ses processus écologiques sous-jacents, et l'intérêt des forêts perturbées pour les plans de gestion et de conservation forestières
Tropical forests face more frequent and intense anthropogenic disturbances, such as selective logging, namely the felling and harvesting of a few commercially valuable trees in old-growth forests, while the remaining stand is left for natural regeneration. Many studies focused on this regeneration, particularly on the recovery of carbon and timber stocks, most likely due to a strong interest in climate change mitigation and logging profitability. However, despite the crucial role of biodiversity for ecosystem maintenance and functioning - and its intrinsic value - there have been few studies on the impact of selective logging on biodiversity. Therefore, this thesis - organised in three studies - aimed at characterising the response of tree diversity and composition to logging in tropical American forests.First, we drew upon the long-term forest inventories (1986-2021, trees with a diameter at breast height ≥ 10 cm) from Paracou experimental station to build a Bayesian modelling framework of tree diversity and composition trajectories after selective logging. Paracou is located in French Guiana and was disturbed by silvicultural treatments of different intensities in 1986-1987. We propagated in our Bayesian framework the uncertainty associated with botanical determination and functional trait measurements, and modelled Paracou trajectories of taxonomic, phylogenetic and functional tree diversity and composition at the species level, relatively to their pre-disturbance levels. Additionally, we assessed the effect of pre-disturbance tree community characteristics, biophysical conditions and disturbance properties on our forest attribute trajectories. Second, we used a simplified version of the aforementioned Bayesian modelling framework on long-term forest inventories from sample plots located in Costa Rica and three Amazonian countries (respectively belonging to the Observatorio de los Ecosistemas Forestales de Costa Rica and the Tropical managed Forest Observatory). We modelled their post-logging trajectories of taxonomic and functional tree diversity and composition at the genus level, from which we extracted indicators solely over the inventory timespan of each site. We then assessed the effect of pre-disturbance tree community structure and disturbance properties on such indicators. While more variable in the second study with a broader geographical scope than in the first one, we observed similar trends in both studies: diversity mostly increased after logging and tree communities mainly shifted from resource-conservative strategies to resource-acquisitive strategies. Such changes appeared to be driven by the abundant and transient recruitment of early-successional species with acquisitive trait values, which provided them with a competitive advantage as disturbance intensity - i.e., light and space availability - increased. Indeed, changes in diversity and composition increased in both studies with disturbance intensity whereas disturbance selectivity, pre-disturbance tree community characteristics and biophysical conditions had no significant effect. Third, building up on the paramount importance of disturbance intensity in the two previous studies, we developed an original Bayesian hierarchical model of recovery trajectories, considering disturbed forests in a common framework, through a disturbance intensity gradient. We tested our modelling approach on data from two long-term experiments in Costa Rica and French Guiana, set up after selective logging, agriculture, and clearcutting and fire.Overall, these results opened various perspectives on the methods used to evaluate forest response to disturbance, the forest response itself and the ecological processes underlying forest succession, and how disturbed forests could be considered in forest management and conservation plans
APA, Harvard, Vancouver, ISO, and other styles
11

Haury, Anne-Claire. "Sélection de variables à partir de données d'expression : signatures moléculaires pour le pronostic du cancer du sein et inférence de réseaux de régulation génique." Phd thesis, Ecole Nationale Supérieure des Mines de Paris, 2012. http://pastel.archives-ouvertes.fr/pastel-00818345.

Full text
Abstract:
De considérables développements dans le domaine des biotechnologies ont modifié notre approche de l'analyse de l'expression génique. En particulier, les puces à ADN permettent de mesurer l'expression des gènes à l'échelle du génome, dont l'analyse est confiée au statisticien.A partir de ces données dites en grande dimension, nous contribuons, dans cette thèse, à l'étude de deux problèmes biologiques. Nous traitons ces questions comme des problèmes d'apprentissage statistique supervisé et, en particulier, de sélection de variables, où il s'agit d'extraire, parmi toutes les variables - gènes - à disposition, celles qui sont nécessaires et suffisantes pour prédire la réponse à une question donnée.D'une part, nous travaillons à repérer des listes de gènes, connues sous le nom de signatures moléculaires et supposées contenir l'information nécessaire à la prédiction de l'issue du cancer du sein. La prédiction des événements métastatiques est en effet cruciale afin d'évaluer, dès l'apparition de la tumeur primaire, la nécessité d'un traitement par chimio-thérapie adjuvante, connue pour son agressivité. Nous présentons dans cette thèse trois contributions à ce problème. Dans la première, nous proposons une comparaison systématique des méthodes de sélection de variables, en termes de performance prédictive, de stabilité et d'interprétabilité biologique de la solution. Les deux autres contributions portent sur l'application de méthodes dites de parcimonie structurée (graph Lasso et k-support norm) au problème de sélection de signatures. Ces trois travaux discutent également l'impact de l'utilisation de méthodes d'ensemble (bootstrap et ré-échantillonnage).D'autre part, nous nous intéressons au problème d'inférence de réseau génique, consistant à déterminer la structure des interactions entre facteurs de transcription et gènes cibles. Les premiers sont des protéines ayant la faculté de réguler la transcription des gènes cibles, c'est-à-dire de l'activer ou de la réprimer. Ces régulations peuvent être représentées sous la forme d'un graphe dirigé, où les noeuds symbolisent les gènes et les arêtes leurs interactions. Nous proposons un nouvel algorithme, TIGRESS, classé troisième lors du challenge d'inférence de réseaux DREAM5 en 2010. Basé sur l'algorithme LARS couplé à une stratégie de ré-échantillonnage, TIGRESS traite chaque gène cible séparément, en sélectionnant ses régulateurs, puis assemble ces sous-problèmes pour prédire l'ensemble du réseau.Enfin, nous consacrons le dernier chapitre à une discussion ayant pour objectif de replacer les travaux de cette thèse dans un contexte bibliographique et épistémologique plus large.
APA, Harvard, Vancouver, ISO, and other styles
12

Caruana, Emmanuel. "Développement d'une nouvelle mesure d'équilibre pour l'aide à la sélection des variables dans un modèle de score de propension." Thesis, Sorbonne Paris Cité, 2017. http://www.theses.fr/2017USPCC134/document.

Full text
Abstract:
Le score de propension s'est progressivement imposé comme l’une des méthodes de référence dans l'analyse des données observationnelles afin de prendre en compte le biais potentiel lié à l’existence de facteurs de confusion dans l'estimation de l'effet du traitement sur le critère de jugement. Parmi les recommandations de bonnes pratiques d'utilisation, le processus de sélection des variables à inclure dans le score final utilisé est essentiel, ainsi que l'évaluation de l'équilibre obtenu sur les covariables après appariement ou pondération sur ce score. Dans l'objectif de prioriser l'inclusion et l'équilibre des variables ayant une relation avec le critère de jugement une nouvelle mesure d'équilibre est proposée dans ce travail de thèse. Une première partie de ce travail a eu pour objectif de développer une mesure globale pondérée permettant d'évaluer l'équilibre global des covariables obtenu après appariement et ainsi d'aider à la sélection d’un modèle de propension le plus parcimonieux possible, en éliminant notamment les variables instrumentales. En effet ces variables ne doivent pas être introduites dans le modèle de score de propension au risque de majorer le biais final d'estimation. Lors des étapes d'évaluation de l'équilibre final obtenu, les différentes mesures d'équilibres disponibles ne prennent le plus souvent pas en compte cette information et concluent souvent à l'intérêt d'inclure une telle variable afin de réduire au maximum le déséquilibre entre les groupes. L'évaluation des performances de cette mesure a dans un premier temps fait appel à des simulations de type Monte Carlo. Dans une seconde partie, une mise en application sur des données réelles issues de la médecine d'urgence a permis de préciser la pratique d'utilisation d'une telle mesure
Propensity score (PS) methods have become increasingly used to analyze observational data and take into account confusion bias in final estimate of treatment effects. The goal of the PS is to balance the distribution of potential confounders across treatment groups. The performance of the PS strongly relies on variable selection in PS construction and balance assessment in PS analysis. Specifically, the choice of the variables to be included in the PS model is of paramount importance. In order to priorize inclusion and balance of variables related to the outcome, a new balance measure was proposed in this thesis. First, a new weighted balance measure was studied to help in construction of PS model and to obtain the most parsimonious model, by excluding instrumental variables known to be related with increasing bias in final treatment estimate. Several balances measures are proposed to assess final balance, but none of them help researchers to not include instrumental variables. We propose a new weighted balance measure that takes into account, for each covariate, its strength of association with the outcome. This measure was evaluated using a simulation study to assess whether minimization of the measure coincided with minimally biased estimates. Secondly, we propose to apply this measure to a real data set from an observational cohort study
APA, Harvard, Vancouver, ISO, and other styles
13

Diallo, Alpha Oumar. "Inférence statistique dans des modèles de comptage à inflation de zéro. Applications en économie de la santé." Thesis, Rennes, INSA, 2017. http://www.theses.fr/2017ISAR0027/document.

Full text
Abstract:
Les modèles de régressions à inflation de zéros constituent un outil très puissant pour l’analyse de données de comptage avec excès de zéros, émanant de divers domaines tels que l’épidémiologie, l’économie de la santé ou encore l’écologie. Cependant, l’étude théorique dans ces modèles attire encore peu d’attention. Ce manuscrit s’intéresse au problème de l’inférence dans des modèles de comptage à inflation de zéro.Dans un premier temps, nous revenons sur la question de l’estimateur du maximum de vraisemblance dans le modèle binomial à inflation de zéro. D’abord nous montrons l’existence de l’estimateur du maximum de vraisemblance des paramètres dans ce modèle. Ensuite, nous démontrons la consistance de cet estimateur, et nous établissons sa normalité asymptotique. Puis, une étude de simulation exhaustive sur des tailles finies d’échantillons est menée pour évaluer la cohérence de nos résultats. Et pour finir, une application sur des données réelles d’économie de la santé a été conduite.Dans un deuxième temps, nous proposons un nouveau modèle statistique d’analyse de la consommation de soins médicaux. Ce modèle permet, entre autres, d’identifier les causes du non-recours aux soins médicaux. Nous avons étudié rigoureusement les propriétés mathématiques du modèle. Ensuite nous avons mené une étude numérique approfondie à l’aide de simulations informatiques et enfin, nous l’avons appliqué à l’analyse d’une base de données recensant la consommation de soins de plusieurs milliers de patients aux USA.Un dernier aspect de ces travaux de thèse a été de s’intéresser au problème de l’inférence dans le modèle binomial à inflation de zéro dans un contexte de données manquantes sur les covariables. Dans ce cas nous proposons la méthode de pondération par l’inverse des probabilités de sélection pour estimer les paramètres du modèle. Ensuite, nous établissons la consistance et la normalité asymptotique de l’estimateur proposé. Enfin, une étude de simulation sur plusieurs échantillons de tailles finies est conduite pour évaluer le comportement de l’estimateur
The zero-inflated regression models are a very powerful tool for the analysis of counting data with excess zeros from various areas such as epidemiology, health economics or ecology. However, the theoretical study in these models attracts little attention. This manuscript is interested in the problem of inference in zero-inflated count models.At first, we return to the question of the maximum likelihood estimator in the zero-inflated binomial model. First we show the existence of the maximum likelihood estimator of the parameters in this model. Then, we demonstrate the consistency of this estimator, and let us establish its asymptotic normality. Then, a comprehensive simulation study finite sample sizes are conducted to evaluate the consistency of our results. Finally, an application on real health economics data has been conduct.In a second time, we propose a new statistical analysis model of the consumption of medical care. This model allows, among other things, to identify the causes of the non-use of medical care. We have studied rigorously the mathematical properties of the model. Then, we carried out an exhaustive numerical study using computer simulations and finally applied to the analysis of a database on health care several thousand patients in the USA.A final aspect of this work was to focus on the problem of inference in the zero inflation binomial model in the context of missing covariate data. In this case we propose the weighting method by the inverse of the selection probabilities to estimate the parameters of the model. Then, we establish the consistency and asymptotic normality of the estimator offers. Finally, a simulation study on several samples of finite sizes is conducted to evaluate the behavior of the estimator
APA, Harvard, Vancouver, ISO, and other styles
14

Dufournet, Marine. "Quantification du biais de sélection en sécurité routière : apport de l’inférence causale." Thesis, Lyon, 2017. http://www.theses.fr/2017LYSE1244/document.

Full text
Abstract:
Les principaux facteurs de l'insécurité routière sont connus, et l'enjeu réside aujourd'hui dans la mesure de l'effet d'un facteur, et la hiérarchisation de l'ensemble des causes intervenant dans la survenue de l'accident. Toutefois, les données disponibles concernent généralement que des accidentés. En l'absence de non-accidentés, l'épidémiologiste du risque routier se heurte à une sélection extrême. Une des solutions classiques est d'utiliser des analyses en responsabilité, et de mesurer l'effet causal d'un facteur sur le risque d'être responsable d'un accident. Néanmoins, la validité des analyses en responsabilité repose sur l'hypothèse, discutable, que les non-responsables sont représentatifs des circulants. L'objectif de cette thèse est donc de déterminer si les données disponibles d'accidentés permettent de fournir, via les analyses en responsabilité, des estimations des effets causaux sans biais, et notamment sans un biais de sélection résiduel. Nous montrons dans cette thèse que, dès lors que l'inclusion dépend de la gravité de l'accident, et que le facteur étudié a un impact sur la vitesse, il est impossible d'estimer l'effet causal du facteur sur le risque d'être responsable de l'accident grave sans un biais de sélection résiduel. Ce résultat est tout d'abord démontré de manière formelle, grâce à l'utilisation des modèles causaux structuraux. Ces modèles sont fondés sur une structure graphique, le DAG, qui représente les différentes relations entre les variables. Ce DAG permet la description des variables réellement observées, mais également des variables contrefactuelles, variables observables dans un monde contrefactuel où l'on aurait fixé l'exposition à une certaine valeur. L'effet causal étant défini à partir de ces variables contrefactuelles partiellement observées, c'est la structure du DAG qui permet de déterminer si l'effet causal peut être estimé en fonction des variables observées. Or, la structure du DAG conduisant à la survenue d'un accident grave ne permet pas d'exprimer l'effet causal du facteur étudié sur la responsabilité de l'accident grave en fonction des distributions observées sur les accidentés graves. Conditionner les estimations sur les accidentés graves correspond à ajuster sur une variable du DAG appelée « collider », et ainsi à introduire un biais dit de collision. En générant un modèle relativement simple, nous donnons à nos résultats théoriques une illustration numérique. En effet, lorsque les données ne dépendent pas de la gravité de l'accident, ou que le facteur étudié n'a pas d'effet sur la vitesse, la mesure estimable à partir des analyses en responsabilité est une mesure sans biais de l'effet causal, sous certaines hypothèses de prévalences faibles. Lorsque l'inclusion dépend de la gravité de l'accident, il existe un biais et ce biais induit par les analyses en responsabilité est d'autant plus grand que l'intensité de la relation entre le facteur et la vitesse, et celle entre la vitesse et l'accident est grand. Les schémas d'étude présentés permettent d'approcher des situations où le facteur étudié serait l'alcool ou le cannabis. Dans le cas de l'alcool, il apparait que sous le modèle simple considéré, la mesure d'association estimable serait une sous-estimation de l'effet causal. En revanche, dans le cas du cannabis, la mesure d'association correspondrait à une sur-estimation de l'effet causal. D'autre part, les outils de l'inférence causale nous ont permis de fournir une description formelle de la validité externe et interne, ainsi qu'une description formelle de la mesure d'association estimable via les analyses en responsabilité. Cette question de la validité interne d'une mesure se pose dans d'autres champs d'application que la sécurité routière. Elle se pose notamment dans le cas du paradoxe de l'obésité [etc...]
Many factors associated with the risk and severity of road accidents are now widely considered as causal : alcohol, speed, usage of a mobile phone... Therefore, questions asked by decision-makers now mostly concern the magnitude of their causal effects, as well as the burden of deaths or victims attributable to these various causes of accident. One particularity of road safety epidemiology is that available data generally describe drivers and vehicles involved in road accidents only, or even severe road accidents only. This extreme selection precludes the estimation of causal effects. To circumvent this absence of « control » population of non-crash involved drivers, it is common to use responsibility analysis and to assess the causal effect of a given factor on the risk of being responsible for an accident among involved drivers. The underlying assumption is that non-responsible drivers represent a random sample of the general driving population that was « selected » to crash by circumstances beyond their control and therefore have the same risk factor profile as other drivers on the road at the same time. However, this randomness assumption is questionable. The objective of this thesis is to determine whether available data in road safety allow us to assess causal effects on responsibility without a residual selection bias. We show that a good approximation of causal effect of a given factor on the risk of being responsible is possible only if the inclusion into the dataset does not depend on the severity of the accident, or if the given factor has no effect on speed. This result is shown by using the Structural Causal Model (SCM) framework. The SCM framework is based on a causal graph : the DAG (directed acyclic graph), which represents the relationships among variables. The DAG allows the description of what we observe in the actual world, but also what we would have observed in counterfactual worlds, if we could have intervened and forced the exposure to be set to a given level. Causal effects are then defined by using counterfactual variables, and it is the DAG’s structure which determines whether causal effects are identifiable, or recoverable, and estimable from the distribution of observed variables. However, the assumptions embedded in the DAG which describes the occurence of a severe accident does not ensure that a causal odds ratios is expressible in terms of the observable distribution. Conditioning the estimations on involved drivers in a severe crash correspond to conditioning on a variable in the DAG called « collider », and to create a « collider bias ». We present numerical results to illustrate our theoretical arguments and the magnitude of the bias between the estimable association measure and some causal effects. Under the simple generative model considered, we show that, when the inclusion depends on the severity of the accident, the bias between the estimable association measure and causal effect is larger than the relation between the exposure and speed, or speed and the occurrence of a severe accident is strong. Moreover, the presented designs allow us to describe some situations where the exposure could be alcohol or cannabis intoxication. In the case of alcohol, where alcohol and speed are positively correlated, the estimable associational effect underestimates the causal effect. In the case of cannabis, where cannabis and speed are negatively correlated, the estimable associational effect overestimates the causal effect. On the other hand, we provide a formal definition of internal and external validity, and a counterfactual interpretation of the estimable quantity in the presence of selection bias, when causal effects are not recoverable. This formal interpretation of the estimable quantity in the presence of selection bias is not only useful in the context of responsibility analyses. It is for instance useful to explain the obesity paradox
APA, Harvard, Vancouver, ISO, and other styles
15

Vasseur, Yann. "Inférence de réseaux de régulation orientés pour les facteurs de transcription d'Arabidopsis thaliana et création de groupes de co-régulation." Thesis, Université Paris-Saclay (ComUE), 2017. http://www.theses.fr/2017SACLS475/document.

Full text
Abstract:
Dans cette thèse, nous cherchons à caractériser les facteurs de transcription de la plante Arabidopsis thaliana, gènes importants pour la régulation de l'expression du génome. À l'aide de données d'expression, notre objectif biologique est de classer ces facteurs de transcription en groupes de gènes co-régulateurs et en groupes de gènes co-régulés. Nous procédons en deux phases pour y parvenir. La première phase consiste à construire un réseau de régulation entre les facteurs de transcription. La seconde phase consiste en la classification des facteurs de transcription selon les liens de régulation établis par ce réseau. D'un point de vue statistique, les facteurs de transcription sont les variables et les données d'expression sont les observations. Nous représentons le réseau à inférer par un graphe orienté dont les nœuds sont les variables. L'estimation de ses arêtes est vue comme un problème de sélection de variables en grande dimension avec un faible nombre d'unités statistiques. Nous traitons ce problème à l'aide de régressions linéaires pénalisées de type LASSO. Une approche préliminaire qui consiste à sélectionner un ensemble de variables du chemin de régularisation par le biais de critères de vraisemblance pénalisée s'avère être instable et fournit trop de variables explicatives. Pour contrecarrer cela, nous proposons et mettons en compétition deux procédures de sélection, adaptées au problème de la haute dimension et mêlant régression linéaire pénalisée et rééchantillonnage. L'estimation des différents paramètres de ces procédures a été effectuée dans le but d'obtenir des ensembles de variables stables. Nous évaluons la stabilité des résultats à l'aide de jeux de données simulés selon notre modèle graphique. Nous faisons appel ensuite à une méthode de classification non supervisée sur chacun des graphes orientés obtenus pour former des groupes de nœuds vus comme contrôleurs et des groupes de nœuds vus comme contrôlés. Pour évaluer la proximité entre les classifications doubles des nœuds obtenus sur différents graphes, nous avons développé un indice de comparaison de couples de partition dont nous éprouvons et promouvons la pertinence. D'un point de vue pratique, nous proposons une méthode de simulation en cascade, exigée par la complexité de notre modèle et inspirée du bootstrap paramétrique, pour simuler des jeux de données en accord avec notre modèle. Nous avons validé notre modèle en évaluant la proximité des classifications obtenues par application de la procédure statistique sur les données réelles et sur ces données simulées
This thesis deals with the characterisation of key genes in gene expression regulation, called transcription factors, in the plant Arabidopsis thaliana. Using expression data, our biological goal is to cluster transcription factors in groups of co-regulator transcription factors, and in groups of co-regulated transcription factors. To do so, we propose a two-step procedure. First, we infer the network of regulation between transcription factors. Second, we cluster transcription factors based on their connexion patterns to other transcriptions factors.From a statistical point of view, the transcription factors are the variables and the samples are the observations. The regulatory network between the transcription factors is modelled using a directed graph, where variables are nodes. The estimation of the nodes can be interpreted as a problem of variables selection. To infer the network, we perform LASSO type penalised linear regression. A preliminary approach selects a set of variable along the regularisation path using penalised likelihood criterion. However, this approach is unstable and leads to select too many variables. To overcome this difficulty, we propose to put in competition two selection procedures, designed to deal with high dimension data and mixing linear penalised regression and subsampling. Parameters estimation of the two procedures are designed to lead to select stable set of variables. Stability of results is evaluated on simulated data under a graphical model. Subsequently, we use an unsupervised clustering method on each inferred oriented graph to detect groups of co-regulators and groups of co-regulated. To evaluate the proximity between the two classifications, we have developed an index of comparaison of pairs of partitions whose relevance is tested and promoted. From a practical point of view, we propose a cascade simulation method required to respect the model complexity and inspired from parametric bootstrap, to simulate data under our model. We have validated our model by inspecting the proximity between the two classifications on simulated and real data
APA, Harvard, Vancouver, ISO, and other styles
16

Le, Floch Edith. "Méthodes multivariées pour l'analyse jointe de données de neuroimagerie et de génétique." Phd thesis, Université Paris Sud - Paris XI, 2012. http://tel.archives-ouvertes.fr/tel-00753829.

Full text
Abstract:
L'imagerie cérébrale connaît un intérêt grandissant, en tant que phénotype intermédiaire, dans la compréhension du chemin complexe qui relie les gènes à un phénotype comportemental ou clinique. Dans ce contexte, un premier objectif est de proposer des méthodes capables d'identifier la part de variabilité génétique qui explique une certaine part de la variabilité observée en neuroimagerie. Les approches univariées classiques ignorent les effets conjoints qui peuvent exister entre plusieurs gènes ou les covariations potentielles entre régions cérébrales.Notre première contribution a été de chercher à améliorer la sensibilité de l'approche univariée en tirant avantage de la nature multivariée des données génétiques, au niveau local. En effet, nous adaptons l'inférence au niveau du cluster en neuroimagerie à des données de polymorphismes d'un seul nucléotide (SNP), en cherchant des clusters 1D de SNPs adjacents associés à un même phénotype d'imagerie. Ensuite, nous prolongeons cette idée et combinons les clusters de voxels avec les clusters de SNPs, en utilisant un test simple au niveau du "cluster 4D", qui détecte conjointement des régions cérébrale et génomique fortement associées. Nous obtenons des résultats préliminaires prometteurs, tant sur données simulées que sur données réelles.Notre deuxième contribution a été d'utiliser des méthodes multivariées exploratoires pour améliorer la puissance de détection des études d'imagerie génétique, en modélisant la nature multivariée potentielle des associations, à plus longue échelle, tant du point de vue de l'imagerie que de la génétique. La régression Partial Least Squares et l'analyse canonique ont été récemment proposées pour l'analyse de données génétiques et transcriptomiques. Nous proposons ici de transposer cette idée à l'analyse de données de génétique et d'imagerie. De plus, nous étudions différentes stratégies de régularisation et de réduction de dimension, combinées avec la PLS ou l'analyse canonique, afin de faire face au phénomène de sur-apprentissage dû aux très grandes dimensions des données. Nous proposons une étude comparative de ces différentes stratégies, sur des données simulées et des données réelles d'IRM fonctionnelle et de SNPs. Le filtrage univarié semble nécessaire. Cependant, c'est la combinaison du filtrage univarié et de la PLS régularisée L1 qui permet de détecter une association généralisable et significative sur les données réelles, ce qui suggère que la découverte d'associations en imagerie génétique nécessite une approche multivariée.
APA, Harvard, Vancouver, ISO, and other styles
17

Tournebize, Rémi. "Influence des variations spatio-temporelles de l’environnement sur la distribution actuelle de la diversité génétique des populations." Thesis, Montpellier, 2017. http://www.theses.fr/2017MONTT140.

Full text
Abstract:
Ce projet vise à comprendre comment la structure génétique intra-spécifique d'espèces végétales tropicales emblématiques et de l’espèce humaine a été affectée par les variations spatio-temporelles de l’environnement actuel et passé. Nous avons développé une approche d’inférence génétique basée sur la théorie de la coalescence pour évaluer l’influence potentielle des changements climatiques passés sur l’évolution de la distribution géographique et de la diversité génétique neutre et/ou adaptative d’Amborella trichopoda Baill. en Nouvelle-Calédonie (espèce-sœur des angiospermes, données NGS et microsatellites), de Coffea canephora Pierre ex A. Froehn en Afrique tropicale (caféier Robusta, données NGS) et de populations européenne et africaine (Luhya, Kenya) d’humains anatomiquement modernes (données NGS issues du Projet 1000 Génomes). Nos travaux suggèrent que les fluctuations climatiques du Pleistocène tardif ont joué un rôle majeur sur l’évolution de la diversité génétique des espèces étudiées de milieux tropicaux et tempérés, avec une empreinte remarquable du Dernier Maximum Glaciaire (DMG, 21 000 ans avant le présent). Les contractions démographiques associées à la glaciation planétaire ont vraisemblablement conduit à la divergence entre les lignées génétiques d’Amborella et participé à l’accumulation des différences génétiques entre les lignées de C. canephora. Nos résultats suggèrent que les événements de glaciation planétaire ont probablement entraîné une différenciation génétique idiosyncratique dans les forêts tropicales humides mais l’intensité de cette réponse semble avoir varié entre espèces. Nous avons également identifié de nombreux événements passés de sélection dans les génomes de la population humaine européenne qui ont été vraisemblablement provoquées par les conditions environnementales au cours du DMG. Les adaptations phénotypiques associées ont probablement assuré le maintien de l’expansion démographique en dépit des pressions de sélection nouvelles auxquelles les populations étaient confrontées au cours du dernier âge glaciaire en Europe
This project aims at understanding how the structure of the intra-specific genetic diversity in emblematic tropical plant species and in the human species was shaped by the spatiotemporal variation of current and past environments. We developed a genetic inference approach based on the coalescent theory to assess the potential impact of past climatic change onto the evolution of the geographic range and of the neutral and/or adaptive genetic diversity in Amborella trichopoda Baill. in New Caledonia (sister-species of all extant angiosperms, NGS and microsatellite datasets), in Coffea canephora Pierre ex A. Froehn in tropical Africa (Robusta coffee, NGS dataset) and in North-Western European and African (Luhya, Kenya) human populations (NGS dataset 1000 Genomes Project). We found that the climatic fluctuations of the Late Pleistocene influenced the evolution of genetic diversity in these species distributed in temperate and tropical environments. The environmental conditions during the Last Glacial Maximum (LGM, 21.000 years before present) appear as an important factor. The demographic contraction associated with the last global glaciation influenced the divergence between Amborella genetic lineages and contributed to the accumulation of genetic differences between C. canephora lineages. Our results suggest that global glaciation events likely drove idiosyncratic genetic differentiation in tropical rain forests but the intensity of this response varied between species. We also identified multiple events of selection in the genomes of the European human population which were likely triggered by the environmental conditions during the LGM. The associated phenotypic adaptations probably allowed the paleo-populations to maintain their demographic expansion despite the new kinds of selective pressure they faced during the last glacial age in Europe
APA, Harvard, Vancouver, ISO, and other styles
18

Patin, Etienne. "Influences du mode de vie sur la diversité génétique des populations humaines." Paris 6, 2008. http://www.theses.fr/2008PA066214.

Full text
Abstract:
Afin de tester si les changements de mode de vie des populations humaines ont modifié leur démographie et les pressions sélectives qu’elles ont subies, j’ai porté mes recherches sur deux modèles différents. Premièrement, l’étude de la diversité génétique mondiale de NAT2 - une enzyme qui détoxique un large spectre de xénobiotiques - a montré que sa forme non fonctionnelle a été sélectionnée positivement chez les populations agricultrices au cours des 6500 dernières années. Deuxièmement, l’étude de la variation génétique non-codante des populations de chasseurs-cueilleurs Pygmées et d’agriculteurs d’Afrique a permis de déterminer leur histoire démographique approximative. En tenant compte de cette histoire, nous avons ensuite étudié les pressions sélectives agissant dans ces populations sur des récepteurs essentiels de l’immunité innée, les TLRs. De manière générale, nous avons montré que le mode de vie de l’homme a eu un impact majeur sur sa diversité génétique non-codante et codante.
APA, Harvard, Vancouver, ISO, and other styles
19

Kere, Eric Nazindigouba. "Analyse économétrique des décisions de production des propriétaires forestiers privés non industriels en France." Thesis, Université de Lorraine, 2013. http://www.theses.fr/2013LORR0052/document.

Full text
Abstract:
La production de bois intègre notamment des enjeux économiques, climatiques et énergétiques. En France, selon les données de l'Institut National de l'Information Géographique et Forestière, l'accroissement biologique de la forêt est largement supérieur aux prélèvements de bois. C'est pourquoi l'État français a fixé l'objectif de prélever 21 millions de m3 supplémentaires de bois d'ici 2020 (Grenelle de l'environnement, 2007). Cependant, la forêt française appartient majoritairement à des propriétaires forestiers privés qui ont des préférences à la fois pour le revenu issu de la vente de bois et pour les aménités non-bois. Les politiques visant à accroître la production de bois doivent donc intégrer ces aspects. L'objectif de ce travail de thèse est de comprendre les déterminants de la production jointe de bois et d'aménités non-bois en France. Pour ce faire, nous nous sommes d'abord intéressés aux déterminants individuels et régionaux de l'offre de bois. Nous montrons que le comportement d'offre de bois d'un propriétaire peut varier en fonction du comportement de production de bois constaté chez ses pairs (effets sociaux). Ensuite, nous mettons en évidence un comportement de mimétisme dans les décisions de production jointe de bois et d'aménités des propriétaires forestiers privés. Enfin, nous analysons les arbitrages inter-temporels réalisés par les propriétaires entre aménités non-bois et revenu de la vente de bois en prenant en compte explicitement les anticipations de prix et de croissance. Nous évaluons à 23e par an la valeur que les propriétaires de notre échantillon accordent à 1m3/ha de bois supplémentaire laissé sur pied par rapport au niveau de stock des propriétaires industriels afin d'avoir des aménités plus importantes.Un des enjeux de ce travail est d?offrir des pistes pour mobiliser la ressource forestière ne faisant pas l'objet d'une offre, faute d'implication des propriétaires privés, soit par manque de connaissance ou d'intérêt pour leur forêt, soit parce que d'autres aspects sont privilégiés (services d'aménités non-bois par exemple). Dans cette thèse, nous montrons que les effets de mimétisme et d'entrainement social (effets sociaux) peuvent être utilisés pour amener les propriétaires forestiers à produire plus de bois. Nous montrons également, qu'une hausse du prix du bois ou la mise en place d'une taxepeut favoriser la prise de la décision de coupe de bois et augmenter l'intensité de la récolte
Timber production is related to economic, climate and energy issues. In France,according to data from the National Institute of Geoinformation and Forestry, thebiological growth rate of the forest is greater than the timber harvest rate. Thus, theFrench government has set a target of harvesting an additional quantity of 21 millioncubic meter of timber by 2020 ("Grenelle de l'environnement, 2007"). However, theFrench forest is majority owned by private forest owners who have preferences forboth income from timber trade and from non-timber amenities. The policies toincrease timber production must include these aspects. The objective of this thesisis to understand the determinants of joint production of timber and non-timberamenities in France.Therefore, we first analyze private forest owners' timber supply, taking into accountindividual and regional determinants. Afterwards, we investigate whether thedrivers of forest owners behavior differ within and between these different levels.We show that similar timber supply behavior can be observed when regional characteristicsor those of peers are similar. Then, we highlight a mimicry behavior injoint production decisions of timber and amenities made by private forest owners.Finally, we analyze inter-temporal trade-offs made by the owners from non-timberamenities and income from the sale of wood. We explicitly take into account theprice expectations and growth. Our estimations show that the willingness to pay fornon-timber amenities is e23 for our case study. This value is the difference betweenthe value they could have earned if they tried to maximize timber revenue and therevenue of their actual logging.Mainly beacause of a lack of involvement of private owners, either through a lackof knowledge or interest in their forest, or because other aspects are privileged (nontimberamenities, e.g.), a part of forest ressource is not subject to a commercial offer.Providing ways to mobilize this ressource is one of the challenges of this work. Weshow that the mimetic effects and the contextual effects can be used to encourageforest owners to produce more timber. An effective policy could be a combinationof these two effects. We also show that an increase in the price of timber or theadoption of a tax may be an incentive for timber harvesting
APA, Harvard, Vancouver, ISO, and other styles
20

Le, Goff Line. "Formation spontanée de chemins : des fourmis aux marches aléatoires renforcées." Thesis, Paris 10, 2014. http://www.theses.fr/2014PA100180/document.

Full text
Abstract:
Cette thèse est consacrée à la modélisation de la formation spontanée de chemins préférentiels par des marcheurs déposant des traces attractives sur leurs trajectoires. Plus précisément, par une démarche pluridisciplinaire couplant modélisation et expérimentation, elle vise à dégager un ensemble de règles minimales individuelles permettant l'apparition d'un tel phénomène. Dans ce but, nous avons étudié sous différents angles les modèles minimaux que sont les marches aléatoires renforcées (MAR).Ce travail comporte deux parties principales. La première démontre de nouveaux résultats dans le domaine des probabilités et statistiques. Nous avons généralisé le travail publié par M. Benaïm et O. Raimond en 2010 afin d'étudier l'asymptotique d'une classe de MAR auxquelles les demi-tours sont interdits. Nous avons également développé une procédure statistique permettant, sous certaines conditions adéquates de régularité, d'estimer les paramètres de MAR paramétrées et d'évaluer des marges d'erreur.Dans la seconde partie, sont décrits les résultats et analyses d'une étude comportementale et expérimentale de la fourmi Linepithema humile. Une partie de notre réflexion est centrée sur le rôle et la valeur des paramètres du modèle proposé par J.-L. Deneubourg et al. en 1990. Nous nous sommes aussi demandés dans quelle mesure une MAR peut reproduire les déplacements d'une fourmi dans un réseau. Dans ces objectifs, nous avons mené des expériences confrontant des fourmis à des réseaux à une ou plusieurs bifurcations. Nous avons appliqué aux données expérimentales les outils statistiques développés dans cette thèse. Nous avons aussi effectué une étude comparative entre les simulations de plusieurs modèles et les expériences
This thesis is devoted to the modelisation of the spontaneous formation of preferential paths by walkers that deposit attractive trails on their trajectories. More precisely, through a multidisciplinary approach, which combines modelisation and experimentation, this thesis aims to bring out a set of minimal individual rules that allow the apparition of this phenomena. In this purpose, we study in several ways the minimal models, which are the Reinforced Random Walks (RRW).This work contains two main parts. The first one proves some new results in the field of probability and statistics. We have generalized the work published by M. Benaïm and O. Raimond in 2010 in order to study the asymptotics of a class of RRW, to which U-turns are forbidden. We developped also a statistical procedure that allows under some appropriate regularity hypotheses to estimate the parameters of parametized RRW and to evaluate margins of error.In the second part, we describe the results and the analyses of a experimental and behavioral study of the Linepithema humile ants. One part of our reflection is centered on the role and the value of the parameters of the model defined by J.-L. Deneubourg et al. in 1990. We investigated also the extent to which RRW could reproduce the moving of an ant in a network. To these purposes, we performed experiments that confront ants to a network of one or several forks. We applied to experimental data the statistical tools developed in this thesis and we performed a comparative study between experiments and simulations of several models
APA, Harvard, Vancouver, ISO, and other styles
21

Gabrielli, Maëva. "Histoires évolutives et spéciation chez les Zostérops des Mascareignes (Zosteropidés)." Thesis, Toulouse 3, 2020. http://www.theses.fr/2020TOU30055.

Full text
Abstract:
Comprendre la formation des espèces constitue un enjeu majeur en biologie évolutive. Avec l'essor des techniques de séquençage, cette question peut maintenant être adressée à une échelle génomique. En particulier, l'identification des régions génomiques sous sélection positive et qui pourraient agir comme des barrières au flux de gènes revêt une importance particulière puisque ces régions pourraient être impliquées dans l'édification de l'isolement reproducteur, conduisant à terme à la spéciation. Les Zostérops des Mascareignes fournissent un système de choix pour comprendre les processus impliqués dans la spéciation. En particulier, le Zostérops gris de La Réunion, un petit passereau endémique de l'île volcanique de La Réunion dans l'archipel des Mascareignes, comporte quatre formes géographiques qui diffèrent dans la coloration de leurs plumages et présentent des distributions parapatriques au sein de l'île. Ce système est idéal pour tenter d'identifier les régions génomiques qui se différencient aux prémices de la divergence. En utilisant des marqueurs génomiques (SNP) répartis dans l'ensemble du génome pour des centaines d'individus, nous étudions tout d'abord l'histoire évolutive des différentes formes géographiques du Zostérops gris de La Réunion à l'aide d'inférences phylogénétiques. Nos résultats soutiennent fortement l'hypothèse d'une diversification intra-île, et soulignent le rôle de la forte sélection et de la faible dispersion dans la divergence. Nous utilisons ensuite des génomes complets afin d'analyser les paysages génomiques de la différenciation entre les formes géographiques du Zostérops gris de la Réunion et entre le Zostérops gris de La Réunion et d'autres espèces étroitement apparentées. Nos résultats montrent que l'incorporation de l'information des taux de recombinaison améliore la détection d'îlots de différenciation chez le Zostérops gris de La Réunion qui reflètent probablement une sélection en cours. Enfin, nous étudions les impacts d'évènements climatiques et géologiques passés sur les trajectoires évolutives de trois Zostérops des Mascareignes. Nos résultats suggèrent que les évènements locaux à l'échelle de l'île de La Réunion ou de Maurice pourraient être le principal moteur des trajectoires démographiques dans ce système. Dans l'ensemble, les résultats de cette thèse complètent notre compréhension de l'origine de la diversité dans les îles océaniques lointaines et au-delà
Understanding how new species arise is a longstanding question in evolutionary biology. With the recent and major progress in sequencing technologies, this question can now be addressed using genome-wide data. The identification of genomic regions under positive selection and that may act as barriers to gene flow is of particular importance as these regions might be involved in the build-up of reproductive isolation, ultimately leading to speciation. Mascarene white-eyes provide an outstanding system to unravel the processes leading to the formation of new species. In particular, the Reunion grey-white eye, a small passerine bird endemic to the small volcanic island of Reunion in the Mascarene archipelago, comprises four geographic forms that differ strikingly in their plumage colouration and are parapatrically distributed within the island. This system is ideal to try identifying the genomic regions differentiating at the onset of divergence. Using data from genome-wide Single Nucleotide Polymorphism (SNP) markers in hundreds of individuals, we first investigate the evolutionary history of the different geographic forms of the Reunion grey white-eye using phylogenetic inferences. Our results provide strong support in favour of within-island diversification, and highlight a role of both strong selection and low dispersal in driving divergence. We then use complete genome sequences to analyse genomic landscapes of differentiation between Reunion grey white-eye geographic forms and between the Reunion grey white-eye and closely related species. Our findings show that incorporating recombination rate information improves the detection of islands of differentiation in the Reunion grey white-eye that may reflect ongoing selection. Finally, we investigate the impacts of geological and climatic events on the evolutionary trajectories of three Mascarene white-eyes. Our findings suggest that local events in Mauritius or Reunion may be the main driver of demographic trajectories in this system. Overall, this thesis furthers our understanding of the origin of diversity in remote oceanic islands and beyond
APA, Harvard, Vancouver, ISO, and other styles
22

Le, floch Edith. "Méthodes multivariées pour l'analyse jointe de données de neuroimagerie et de génétique." Thesis, Paris 11, 2012. http://www.theses.fr/2012PA112214/document.

Full text
Abstract:
L'imagerie cérébrale connaît un intérêt grandissant, en tant que phénotype intermédiaire, dans la compréhension du chemin complexe qui relie les gènes à un phénotype comportemental ou clinique. Dans ce contexte, un premier objectif est de proposer des méthodes capables d'identifier la part de variabilité génétique qui explique une certaine part de la variabilité observée en neuroimagerie. Les approches univariées classiques ignorent les effets conjoints qui peuvent exister entre plusieurs gènes ou les covariations potentielles entre régions cérébrales.Notre première contribution a été de chercher à améliorer la sensibilité de l'approche univariée en tirant avantage de la nature multivariée des données génétiques, au niveau local. En effet, nous adaptons l'inférence au niveau du cluster en neuroimagerie à des données de polymorphismes d'un seul nucléotide (SNP), en cherchant des clusters 1D de SNPs adjacents associés à un même phénotype d'imagerie. Ensuite, nous prolongeons cette idée et combinons les clusters de voxels avec les clusters de SNPs, en utilisant un test simple au niveau du "cluster 4D", qui détecte conjointement des régions cérébrale et génomique fortement associées. Nous obtenons des résultats préliminaires prometteurs, tant sur données simulées que sur données réelles.Notre deuxième contribution a été d'utiliser des méthodes multivariées exploratoires pour améliorer la puissance de détection des études d'imagerie génétique, en modélisant la nature multivariée potentielle des associations, à plus longue échelle, tant du point de vue de l'imagerie que de la génétique. La régression Partial Least Squares et l'analyse canonique ont été récemment proposées pour l'analyse de données génétiques et transcriptomiques. Nous proposons ici de transposer cette idée à l'analyse de données de génétique et d'imagerie. De plus, nous étudions différentes stratégies de régularisation et de réduction de dimension, combinées avec la PLS ou l'analyse canonique, afin de faire face au phénomène de sur-apprentissage dû aux très grandes dimensions des données. Nous proposons une étude comparative de ces différentes stratégies, sur des données simulées et des données réelles d'IRM fonctionnelle et de SNPs. Le filtrage univarié semble nécessaire. Cependant, c'est la combinaison du filtrage univarié et de la PLS régularisée L1 qui permet de détecter une association généralisable et significative sur les données réelles, ce qui suggère que la découverte d'associations en imagerie génétique nécessite une approche multivariée
Brain imaging is increasingly recognised as an interesting intermediate phenotype to understand the complex path between genetics and behavioural or clinical phenotypes. In this context, a first goal is to propose methods to identify the part of genetic variability that explains some neuroimaging variability. Classical univariate approaches often ignore the potential joint effects that may exist between genes or the potential covariations between brain regions. Our first contribution is to improve the sensitivity of the univariate approach by taking advantage of the multivariate nature of the genetic data in a local way. Indeed, we adapt cluster-inference techniques from neuroimaging to Single Nucleotide Polymorphism (SNP) data, by looking for 1D clusters of adjacent SNPs associated with the same imaging phenotype. Then, we push further the concept of clusters and we combined voxel clusters and SNP clusters, by using a simple 4D cluster test that detects conjointly brain and genome regions with high associations. We obtain promising preliminary results on both simulated and real datasets .Our second contribution is to investigate exploratory multivariate methods to increase the detection power of imaging genetics studies, by accounting for the potential multivariate nature of the associations, at a longer range, on both the imaging and the genetics sides. Recently, Partial Least Squares (PLS) regression or Canonical Correlation Analysis (CCA) have been proposed to analyse genetic and transcriptomic data. Here, we propose to transpose this idea to the genetics vs. imaging context. Moreover, we investigate the use of different strategies of regularisation and dimension reduction techniques combined with PLS or CCA, to face the overfitting issues due to the very high dimensionality of the data. We propose a comparison study of the different strategies on both a simulated dataset and a real fMRI and SNP dataset. Univariate selection appears to be necessary to reduce the dimensionality. However, the generalisable and significant association uncovered on the real dataset by the two-step approach combining univariate filtering and L1-regularised PLS suggests that discovering meaningful imaging genetics associations calls for a multivariate approach
APA, Harvard, Vancouver, ISO, and other styles
23

Duchemin, Quentin. "Growth dynamics of large networks using hidden Markov chains." Thesis, Université Gustave Eiffel, 2022. https://tel.archives-ouvertes.fr/tel-03749513.

Full text
Abstract:
La première partie de cette thèse vise à introduire de nouveaux modèles de graphes aléatoires rendant compte de l'évolution temporelle des réseaux. Plus précisément, nous nous concentrons sur des modèles de croissance où à chaque instant un nouveau noeud s'ajoute au graphe existant. Nous attribuons à ce nouvel entrant des propriétés qui caractérisent son pouvoir de connectivité au reste du réseau et celles-ci dépendent uniquement du noeud précédemment introduit. Nos modèles de graphes aléatoires sont donc régis par une dynamique markovienne latente caractérisant la séquence de noeuds du graphe. Nous nous intéresserons particulièrement au Stochastic Block Model et aux Graphes Aléatoires Géométriques pour lesquels nous proposons des algorithmes permettant d'estimer les paramètres du modèle. Nous montrons ensuite comment ce travail d'estimation nous permet de résoudre des problèmes de prédiction de lien ou de filtrage collaboratif dans les graphes.L'étude théorique des algorithmes précédemment décrits mobilisent des résultats probabilistes poussés. Nous avons notamment dû recourir à une inégalité de concentration pour les U-statistiques dans un cadre dépendant. Peu nombreux sont les travaux ayant abordé cette épineuse question et l'existant considère des jeux d'hypothèses ne répondant pas à nos besoins. Aussi, la deuxième partie de ce manuscrit sera consacrée à la preuve d'une inégalité de concentration pour les U-statistiques d'ordre deux pour des chaînes de Markov uniformément ergodique. Dans le Chapitre 5, nous exploitons notre résultat de concentration pour les U-statistiques pour apporter de nouvelles contributions à trois domaines très actifs des Statistiques et du Machine Learning.Toujours motivés par des problèmes de prédictions liens dans les graphes, nous nous intéressons dans un dernier chapitre aux procédures d'inférence post-sélection dans le cadre de la régression logistique avec pénalité $L^1$. Nous prouvons un théorème central limite sous la distribution conditionnelle à l'événement de sélection et nous en déduisons des procédures de test et des intervalles de confiance asymptotiquement valides
The first part of this thesis aims at introducing new models of random graphs that account for the temporal evolution of networks. More precisely, we focus on growth models where at each instant a new node is added to the existing graph. We attribute to this new entrant properties that characterize its connectivity to the rest of the network and these properties depend only on the previously introduced node. Our random graph models are thus governed by a latent Markovian dynamic characterizing the sequence of nodes in the graph. We are particularly interested in the Stochastic Block Model and in Random Geometric Graphs for which we propose algorithms to estimate the unknown parameters or functions defining the model. We then show how these estimates allow us to solve link prediction or collaborative filtering problems in networks.The theoretical analysis of the above-mentioned algorithms requires advanced probabilistic tools. In particular, one of our proof is relying on a concentration inequality for U-statistics in a dependent framework. Few papers have addressed this thorny question and existing works consider sets of assumptions that do not meet our needs. Therefore, the second part of this manuscript will be devoted to the proof of a concentration inequality for U-statistics of order two for uniformly ergodic Markov chains. In Chapter 5, we exploit this concentration result for U-statistics to make new contributions to three very active areas of Statistics and Machine Learning.Still motivated by link prediction problems in graphs, we study post-selection inference procedures in the framework of logistic regression with $L^1$ penalty. We prove a central limit theorem under the distribution conditional on the selection event and derive asymptotically valid testing procedures and confidence intervals
APA, Harvard, Vancouver, ISO, and other styles
24

Lohier, Théophile. "Analyse temporelle de la dynamique de communautés végétales à l'aide de modèles individus-centrés." Thesis, Clermont-Ferrand 2, 2016. http://www.theses.fr/2016CLF22683/document.

Full text
Abstract:
Les communautés végétales constituent des systèmes complexes au sein desquels de nombreuses espèces, pouvant présenter une large variété de traits fonctionnels, interagissent entre elles et avec leur environnement. En raison de la quantité et de la diversité de ces interactions les mécanismes qui gouvernent les dynamiques des ces communautés sont encore mal connus. Les approches basées sur la modélisation permettent de relier de manière mécaniste les processus gouvernant les dynamiques des individus ou des populations aux dynamiques des communautés qu'ils forment. L'objectif de cette thèse était de développer de telles approches et de les mettre en oeuvre pour étudier les mécanismes sous-jacents aux dynamiques des communautés. Nous avons ainsi développés deux approches de modélisation. La première s'appuie sur un cadre de modélisation stochastique permettant de relier les dynamiques de populations aux dynamiques des communautés en tenant compte des interactions intra- et interspécifiques et de l'impact des variations environnementale et démographique. Cette approche peut-être aisément appliquée à des systèmes réels et permet de caractériser les populations végétales à l'aide d'un petit nombre de paramètres démographiques. Cependant nos travaux suggèrent qu'il n'existe pas de relation simple entre ces paramètres et les traits fonctionnels des espèces, qui gouvernent pourtant leur réponse aux facteurs externes. La seconde approche a été développée pour dépasser cette limite et s'appuie sur le modèle individu-centré Nemossos qui représente de manière explicite le lien entre le fonctionnement des individus et les dynamiques de la communauté qu'ils forment. Afin d'assurer un grand potentiel d'application à Nemossos, nous avons apportés une grande attention au compromis entre réalisme et coût de paramétrisation. Nemossos a ainsi pu être entièrement paramétré à partir de valeur de traits issues de la littérature , son réalisme a été démontré, et il a été utilisé pour mener des expériences de simulations numériques sur l'importance de la variabilité temporelle des conditions environnementales pour la coexistence d'espèces fonctionnellement différentes. La complémentarité des deux approches nous a permis de proposer des éléments de réponse à divers questions fondamentales de l'écologie des communautés incluant le rôle de la compétition dans les dynamiques des communautés, l'effet du filtrage environnementale sur leur composition fonctionnel ou encore les mécanismes favorisant la coexistence des espèces végétales. Ici ces approches ont été utilisées séparément mais leur couplage peut offrir des perspectives intéressantes telles que l'étude du lien entre le fonctionnement des plantes et les dynamiques des populations. Par ailleurs chacune des approches peut être utilisée dans une grande variété d'expériences de simulation susceptible d'améliorer notre compréhension des mécanismes gouvernant les communautés végétales
Plant communities are complex systems in which multiple species differing by their functional attributes interact with their environment and with each other. Because of the number and the diversity of these interactions the mechanisms that drive the dynamics of theses communities are still poorly understood. Modelling approaches enable to link in a mechanistic fashion the process driving individual plant or population dynamics to the resulting community dynamics. This PhD thesis aims at developing such approaches and to use them to investigate the mechanisms underlying community dynamics. We therefore developed two modelling approaches. The first one is based on a stochastic modelling framework allowing to link the population dynamics to the community dynamics whilst taking account of intra- and interspecific interactions as well as environmental and demographic variations. This approach is easily applicable to real systems and enables to describe the properties of plant population through a small number of demographic parameters. However our work suggests that there is no simple relationship between these parameters and plant functional traits, while they are known to drive their response to extrinsic factors. The second approach has been developed to overcome this limitation and rely on the individual-based model Nemossos that explicitly describes the link between plant functioning and community dynamics. In order to ensure that Nemossos has a large application potential, a strong emphasis has been placed on the tradeoff between realism and parametrization cost. Nemossos has then been successfully parameterized from trait values found in the literature, its realism has been demonstrated and it has been used to investigate the importance of temporal environmental variability for the coexistence of functionally differing species. The complementarity of the two approaches allows us to explore various fundamental questions of community ecology including the impact of competitive interactions on community dynamics, the effect of environmental filtering on their functional composition, or the mechanisms favoring the coexistence of plant species. In this work, the two approaches have been used separately but their coupling might offer interesting perspectives such as the investigation of the relationships between plant functioning and population dynamics. Moreover each of the approaches might be used to run various simulation experiments likely to improve our understanding of mechanisms underlying community dynamics
APA, Harvard, Vancouver, ISO, and other styles
25

Bellot, Benoit. "Améliorer les connaissances sur les processus écologiques régissant les dynamiques de populations d'auxiliaires de culture : modélisation couplant paysages et populations pour l'aide à l'échantillonnage biologique dans l'espace et le temps." Thesis, Rennes 1, 2018. http://www.theses.fr/2018REN1B008/document.

Full text
Abstract:
Une alternative prometteuse à la lutte chimique pour la régulation des ravageurs de culture consiste à favoriser les populations de leurs prédateurs en jouant sur la structure du paysage agricole. L'identification de structures spatio-temporelles favorables aux ennemis naturels peut se faire par l'exploration de scénarios paysagers via une modélisation couplée de paysages et de dynamiques de population. Dans cette approche, les dynamiques de populations sont simulées sur des paysages virtuels aux propriétés structurales contrôlées, et l'observation des motifs de populations associés permet l'identification de structures favorables. La modélisation des dynamiques de populations repose cependant sur une connaissance fine des processus écologiques et de leur variabilité entre les différentes unités du paysage. L'état actuel des connaissances sur les mécanismes écologiques régissant les dynamiques des ennemis naturels de la famille des carabidés demeure l'obstacle majeur à la recherche in silico de scénarios paysagers favorables. La littérature sur les liens entre motifs de population de carabes et variables paysagères permet de formuler un ensemble d'hypothèses en compétition sur ces mécanismes. Réduire le nombre de ces hypothèses en analysant les convergences entre les motifs de population qui leur sont associés, et étudier la stabilité de ces convergences le long d'un gradient paysager apparaît comme une première étape nécessaire vers l'amélioration de la connaissance sur les processus écologiques. Dans une première partie, nous proposons une heuristique méthodologique basée sur la simulation de modèles de réaction-diffusion porteurs de ces hypothèses en compétition. L'étude des motifs de population a permis d'effectuer une typologie des modèles en fonction de leur réponse à une variable paysagère, via un algorithme de classification, réduisant ainsi le nombre d’hypothèses en compétition. La sélection de l'hypothèse la plus plausible parmi cet ensemble irréductible doit s'effectuer sur la base d'une observation des motifs de population sur le terrain. Cela implique que ces derniers soient caractérisés à des résolutions spatiales et temporelles suffisantes pour sélectionner une unique hypothèse parmi celles en compétition. Dans la deuxième partie, nous proposons une heuristique méthodologique permettant de déterminer a priori des stratégies d'échantillonnage maximisant la robustesse de la sélection d'hypothèses écologiques. Dans un premier temps, la simulation de modèles de réaction-diffusion représentatifs des hypothèses écologiques en compétition permet de générer des données biologiques virtuelles en tout point de l'espace et du temps. Ces données biologiques sont ensuite échantillonnées suivant des protocoles différant dans l'effort total d'échantillonnage, le nombre de dates, le nombre de points par unité d'espace et le nombre de réplicats de paysages. Les motifs des populations sont caractérisés à partir de ces échantillons. Le potentiel des stratégies d'échantillonnage est évalué via un algorithme de classification qui classe les modèles biologiques selon les motifs de population associés. L'analyse des performances de classification, i.e. la capacité de l'algorithme à discriminer les processus écologiques, permet de sélectionner un protocole d'échantillonnage optimal. Nous montrons également que la manière de distribuer l'effort d'échantillonnage entre ses composantes spatiales et temporelles est un levier majeur sur l'inférence des processus écologiques. La réduction du nombre d'hypothèses en compétition et l'aide à l'échantillonnage pour la sélection de modèles répondent à un besoin fort dans le processus d'acquisition de connaissances écologiques pour l'exploration in silico de scénarios paysagers favorisant des services écosystémiques. Nous discutons dans une dernière partie des implications de nos travaux et de leurs perspectives d'amélioration
A promising alternative to the chemical control of pests consists in favoring their natural enemies populations by managing the agricultural landscape structure. Identifying favorable spatio-temporal structures can be performed through the exploration of landscape scenarios using coupled models of landscapes and population dynamics. In this approach, population dynamics are simulated on virtual landscapes with controlled properties, and the observation of population patterns allows for the identification of favorable structures. Population modeling however relies on a good knowledge about the ecological processes and their variability within the landscape elements. Current state of knowledge about the ecological mechanisms underlying natural enemies’ of the carabid family population dynamics remains a major obstacle to in silico investigation of favorable landscape scenarios. Literature about the relationship between carabid population and landscape properties allows the formulation of competing hypotheses about these processes. Reducing the number of these hypotheses by analyzing the convergence between their associated population patterns and investigating the stability of their convergence along a landscape gradient appears to be a necessary tep towards a better knowledge about ecological processes. In a first step, we propose a heuristic method based on the simulation of reaction-diffusion models carrying these competing hypotheses. Comparing the population patterns allowed to set a model typology according to their response to the landscape variable, through a classification algorithm, thus reducing the initial number of competing hypotheses. The selection of the most likely hypothesis from this irreducible set must rely on the observation of population patterns on the field. This implies that population patterns are described with spatial and temporal resolutions that are fine enough to select a unique hypothesis among the ones in competition. In the second part, we propose a heuristic method that allows determining a priori sampling strategies that maximize the robustness of ecological hypotheses selection. The simulation of reaction-diffusion models carrying the ecological hypotheses allows to generate virtual population data in space and time. These data are then sampled using strategies differing in the total effort, number of sampling locations, dates and landscape replicates. Population patterns are described from these samples. The sampling strategies are assessed through a classification algorithm that classifies the models according to the associated patterns. The analysis of classification performances, i.e. the ability of the algorithm to discriminate the ecological processes, allows the selection of optimal sampling designs. We also show that the way the sampling effort is distributed between its spatial and temporal components is strongly impacting the ecological processes inference. Reducing the number of competing ecological hypotheses, along with the selection of sampling strategies for optimal model inference both meet a strong need in the process of knowledge improvement about the ecological processes for the exploration of landscape scenarios favoring ecosystem services. In the last chapter, we discuss the implications and future prospects of our work
APA, Harvard, Vancouver, ISO, and other styles
26

Jaureguiberry, Xabier. "Fusion pour la séparation de sources audio." Thesis, Paris, ENST, 2015. http://www.theses.fr/2015ENST0030/document.

Full text
Abstract:
La séparation aveugle de sources audio dans le cas sous-déterminé est un problème mathématique complexe dont il est aujourd'hui possible d'obtenir une solution satisfaisante, à condition de sélectionner la méthode la plus adaptée au problème posé et de savoir paramétrer celle-ci soigneusement. Afin d'automatiser cette étape de sélection déterminante, nous proposons dans cette thèse de recourir au principe de fusion. L'idée est simple : il s'agit, pour un problème donné, de sélectionner plusieurs méthodes de résolution plutôt qu'une seule et de les combiner afin d'en améliorer la solution. Pour cela, nous introduisons un cadre général de fusion qui consiste à formuler l'estimée d'une source comme la combinaison de plusieurs estimées de cette même source données par différents algorithmes de séparation, chaque estimée étant pondérée par un coefficient de fusion. Ces coefficients peuvent notamment être appris sur un ensemble d'apprentissage représentatif du problème posé par minimisation d'une fonction de coût liée à l'objectif de séparation. Pour aller plus loin, nous proposons également deux approches permettant d'adapter les coefficients de fusion au signal à séparer. La première formule la fusion dans un cadre bayésien, à la manière du moyennage bayésien de modèles. La deuxième exploite les réseaux de neurones profonds afin de déterminer des coefficients de fusion variant en temps. Toutes ces approches ont été évaluées sur deux corpus distincts : l'un dédié au rehaussement de la parole, l'autre dédié à l'extraction de voix chantée. Quelle que soit l'approche considérée, nos résultats montrent l'intérêt systématique de la fusion par rapport à la simple sélection, la fusion adaptative par réseau de neurones se révélant être la plus performante
Underdetermined blind source separation is a complex mathematical problem that can be satisfyingly resolved for some practical applications, providing that the right separation method has been selected and carefully tuned. In order to automate this selection process, we propose in this thesis to resort to the principle of fusion which has been widely used in the related field of classification yet is still marginally exploited in source separation. Fusion consists in combining several methods to solve a given problem instead of selecting a unique one. To do so, we introduce a general fusion framework in which a source estimate is expressed as a linear combination of estimates of this same source given by different separation algorithms, each source estimate being weighted by a fusion coefficient. For a given task, fusion coefficients can then be learned on a representative training dataset by minimizing a cost function related to the separation objective. To go further, we also propose two ways to adapt the fusion coefficients to the mixture to be separated. The first one expresses the fusion of several non-negative matrix factorization (NMF) models in a Bayesian fashion similar to Bayesian model averaging. The second one aims at learning time-varying fusion coefficients thanks to deep neural networks. All proposed methods have been evaluated on two distinct corpora. The first one is dedicated to speech enhancement while the other deals with singing voice extraction. Experimental results show that fusion always outperform simple selection in all considered cases, best results being obtained by adaptive time-varying fusion with neural networks
APA, Harvard, Vancouver, ISO, and other styles
27

Jaureguiberry, Xabier. "Fusion pour la séparation de sources audio." Electronic Thesis or Diss., Paris, ENST, 2015. http://www.theses.fr/2015ENST0030.

Full text
Abstract:
La séparation aveugle de sources audio dans le cas sous-déterminé est un problème mathématique complexe dont il est aujourd'hui possible d'obtenir une solution satisfaisante, à condition de sélectionner la méthode la plus adaptée au problème posé et de savoir paramétrer celle-ci soigneusement. Afin d'automatiser cette étape de sélection déterminante, nous proposons dans cette thèse de recourir au principe de fusion. L'idée est simple : il s'agit, pour un problème donné, de sélectionner plusieurs méthodes de résolution plutôt qu'une seule et de les combiner afin d'en améliorer la solution. Pour cela, nous introduisons un cadre général de fusion qui consiste à formuler l'estimée d'une source comme la combinaison de plusieurs estimées de cette même source données par différents algorithmes de séparation, chaque estimée étant pondérée par un coefficient de fusion. Ces coefficients peuvent notamment être appris sur un ensemble d'apprentissage représentatif du problème posé par minimisation d'une fonction de coût liée à l'objectif de séparation. Pour aller plus loin, nous proposons également deux approches permettant d'adapter les coefficients de fusion au signal à séparer. La première formule la fusion dans un cadre bayésien, à la manière du moyennage bayésien de modèles. La deuxième exploite les réseaux de neurones profonds afin de déterminer des coefficients de fusion variant en temps. Toutes ces approches ont été évaluées sur deux corpus distincts : l'un dédié au rehaussement de la parole, l'autre dédié à l'extraction de voix chantée. Quelle que soit l'approche considérée, nos résultats montrent l'intérêt systématique de la fusion par rapport à la simple sélection, la fusion adaptative par réseau de neurones se révélant être la plus performante
Underdetermined blind source separation is a complex mathematical problem that can be satisfyingly resolved for some practical applications, providing that the right separation method has been selected and carefully tuned. In order to automate this selection process, we propose in this thesis to resort to the principle of fusion which has been widely used in the related field of classification yet is still marginally exploited in source separation. Fusion consists in combining several methods to solve a given problem instead of selecting a unique one. To do so, we introduce a general fusion framework in which a source estimate is expressed as a linear combination of estimates of this same source given by different separation algorithms, each source estimate being weighted by a fusion coefficient. For a given task, fusion coefficients can then be learned on a representative training dataset by minimizing a cost function related to the separation objective. To go further, we also propose two ways to adapt the fusion coefficients to the mixture to be separated. The first one expresses the fusion of several non-negative matrix factorization (NMF) models in a Bayesian fashion similar to Bayesian model averaging. The second one aims at learning time-varying fusion coefficients thanks to deep neural networks. All proposed methods have been evaluated on two distinct corpora. The first one is dedicated to speech enhancement while the other deals with singing voice extraction. Experimental results show that fusion always outperform simple selection in all considered cases, best results being obtained by adaptive time-varying fusion with neural networks
APA, Harvard, Vancouver, ISO, and other styles
28

Alquier, Pierre. "Inférence Adaptative, Inductive et Transductive, pour l'Estimation de la Regression et de la Densité." Phd thesis, 2006. http://tel.archives-ouvertes.fr/tel-00119593.

Full text
Abstract:
Cette thèse a pour objet l'étude des
propriétés statistiques d'algorithmes d'apprentissage dans le cas de
l'estimation de la régression et de la densité. Elle est divisée en
trois parties.

La première partie consiste en une généralisation des théorèmes
PAC-Bayésiens, sur la classification, d'Olivier Catoni, au cas de la régression avec une fonction de perte
générale.

Dans la seconde partie, on étudie plus particulièrement le cas de la
régression aux moindres carrés et on propose un nouvel algorithme de
sélection de variables. Cette méthode peut être appliquée notamment
au cas d'une base de fonctions orthonormales, et conduit alors à des
vitesses de convergence optimales, mais aussi au cas de fonctions de
type noyau, elle conduit alors à une variante des méthodes dites
"machines à vecteurs supports" (SVM).

La troisième partie étend les résultats de la seconde au cas de
l'estimation de densité avec perte quadratique.
APA, Harvard, Vancouver, ISO, and other styles
29

Gagnon, Philippe. "Sélection de modèles robuste : régression linéaire et algorithme à sauts réversibles." Thèse, 2017. http://hdl.handle.net/1866/20583.

Full text
APA, Harvard, Vancouver, ISO, and other styles
30

Parto, Sahar. "Bayesian codon models for detecting convergent molecular adaptation." Thèse, 2017. http://hdl.handle.net/1866/21190.

Full text
APA, Harvard, Vancouver, ISO, and other styles
31

Elgbeili, Guillaume. "Probabilité et temps de fixation à l’aide de processus ancestraux." Thèse, 2013. http://hdl.handle.net/1866/10438.

Full text
Abstract:
Ce mémoire analyse l’espérance du temps de fixation conditionnellement à ce qu’elle se produise et la probabilité de fixation d’un nouvel allèle mutant dans des populations soumises à différents phénomènes biologiques en uti- lisant l’approche des processus ancestraux. Tout d’abord, l’article de Tajima (1990) est analysé et les différentes preuves y étant manquantes ou incomplètes sont détaillées, dans le but de se familiariser avec les calculs du temps de fixa- tion. L’étude de cet article permet aussi de démontrer l’importance du temps de fixation sur certains phénomènes biologiques. Par la suite, l’effet de la sé- lection naturelle est introduit au modèle. L’article de Mano (2009) cite un ré- sultat intéressant quant à l’espérance du temps de fixation conditionnellement à ce que celle-ci survienne qui utilise une approximation par un processus de diffusion. Une nouvelle méthode utilisant le processus ancestral est présentée afin d’arriver à une bonne approximation de ce résultat. Des simulations sont faites afin de vérifier l’exactitude de la nouvelle approche. Finalement, un mo- dèle soumis à la conversion génique est analysé, puisque ce phénomène, en présence de biais, a un effet similaire à celui de la sélection. Nous obtenons finalement un résultat analytique pour la probabilité de fixation d’un nouveau mutant dans la population. Enfin, des simulations sont faites afin de détermi- nerlaprobabilitédefixationainsiqueletempsdefixationconditionnellorsque les taux sont trop grands pour pouvoir les calculer analytiquement.
The expected time for fixation given its occurrence, and the probability of fixa- tion of a new mutant allele in populations subject to various biological phe- nomena are analyzed using the approach of the ancestral process. First, the paper of Tajima (1990) is analyzed, and the missing or incomplete proofs are fully worked out in this Master thesis in order to familiarize ourselves with calculations of fixation times. Our study of Tajima’s paper helps to show the importance of the fixation time in some biological phenomena. Thereafter, we extend the work of Tajima (1990) by introducing the effect of natural selec- tion in the model. Using a diffusion approximation, the work of Mano (2009) provides an interesting result about the expected time of fixation given its oc- currence. We derived an alternative method that uses an ancestral process that approximates well Mani’s result. Simulations are made to verify the accuracy ofthenewapproach.Finally,onemodelsubjecttogeneconversionisanalyzed, since this phenomenon, in the presence of bias, has a similar effect as selection. We deduce an analytical result for the probability of fixation of a new mutant in the population. Finally, simulations are made to determine the probability of fixation and the time of fixation given its occurrence when rates are too large to be calculated analytically.
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography