Dissertations / Theses on the topic 'Élagage de forêts aléatoires'

To see the other types of publications on this topic, follow the link: Élagage de forêts aléatoires.

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 49 dissertations / theses for your research on the topic 'Élagage de forêts aléatoires.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Cherfaoui, Farah. "Echantillonnage pour l'accélération des méthodes à noyaux et sélection gloutonne pour les représentations parcimonieuses." Electronic Thesis or Diss., Aix-Marseille, 2022. http://www.theses.fr/2022AIXM0256.

Full text
Abstract:
Les contributions de cette thèse se divisent en deux parties. Une première partie dédiée à l’accélération des méthodes à noyaux et une seconde à l'optimisation sous contrainte de parcimonie. Les méthodes à noyaux sont largement connues et utilisées en apprentissage automatique. Toutefois, la complexité de leur mise en œuvre est élevée et elles deviennent inutilisables lorsque le nombre de données est grand. Nous proposons dans un premier temps une approximation des Ridge Leverage Scores. Nous utilisons ensuite ces scores pour définir une distribution de probabilité pour le processus d'échantillonnage de la méthode de Nyström afin d’accélérer les méthodes à noyaux. Nous proposons dans un second temps un nouveau framework basé sur les noyaux, permettant de représenter et de comparer les distributions de probabilités discrètes. Nous exploitons ensuite le lien entre notre framework et la Maximum Mean Discrepancy pour proposer une approximation précise et peu coûteuse de cette dernière. La deuxième partie de cette thèse est consacrée à l’optimisation avec contrainte de parcimonie pour l’optimisation de signaux et l’élagage de forêts aléatoires. Tout d’abord, nous prouvons sous certaines conditions sur la cohérence du dictionnaire, les propriétés de reconstruction et de convergence de l’algorithme Frank-Wolfe. Ensuite, nous utilisons l'algorithme OMP pour réduire la taille de forêts aléatoires et ainsi réduire la taille nécessaire pour son stockage. La forêt élaguée est constituée d’un sous-ensemble d’arbres de la forêt initiale sélectionnés et pondérés par OMP de manière à minimiser son erreur empirique de prédiction
The contributions of this thesis are divided into two parts. The first part is dedicated to the acceleration of kernel methods and the second to optimization under sparsity constraints. Kernel methods are widely known and used in machine learning. However, the complexity of their implementation is high and they become unusable when the number of data is large. We first propose an approximation of Ridge leverage scores. We then use these scores to define a probability distribution for the sampling process of the Nyström method in order to speed up the kernel methods. We then propose a new kernel-based framework for representing and comparing discrete probability distributions. We then exploit the link between our framework and the maximum mean discrepancy to propose an accurate and fast approximation of the latter. The second part of this thesis is devoted to optimization with sparsity constraint for signal optimization and random forest pruning. First, we prove under certain conditions on the coherence of the dictionary, the reconstruction and convergence properties of the Frank-Wolfe algorithm. Then, we use the OMP algorithm to reduce the size of random forests and thus reduce the size needed for its storage. The pruned forest consists of a subset of trees from the initial forest selected and weighted by OMP in order to minimize its empirical prediction error
APA, Harvard, Vancouver, ISO, and other styles
2

Zirakiza, Brice. "Forêts Aléatoires PAC-Bayésiennes." Thesis, Université Laval, 2013. http://www.theses.ulaval.ca/2013/29815/29815.pdf.

Full text
Abstract:
Dans ce mémoire de maîtrise, nous présentons dans un premier temps un algorithme de l'état de l'art appelé Forêts aléatoires introduit par Léo Breiman. Cet algorithme effectue un vote de majorité uniforme d'arbres de décision construits en utilisant l'algorithme CART sans élagage. Par après, nous introduisons l'algorithme que nous avons nommé SORF. L'algorithme SORF s'inspire de l'approche PAC-Bayes, qui pour minimiser le risque du classificateur de Bayes, minimise le risque du classificateur de Gibbs avec un régularisateur. Le risque du classificateur de Gibbs constitue en effet, une fonction convexe bornant supérieurement le risque du classificateur de Bayes. Pour chercher la distribution qui pourrait être optimale, l'algorithme SORF se réduit à être un simple programme quadratique minimisant le risque quadratique de Gibbs pour chercher une distribution Q sur les classificateurs de base qui sont des arbres de la forêt. Les résultasts empiriques montrent que généralement SORF est presqu'aussi bien performant que les forêts aléatoires, et que dans certains cas, il peut même mieux performer que les forêts aléatoires.
In this master's thesis, we present at first an algorithm of the state of the art called Random Forests introduced by Léo Breiman. This algorithm construct a uniformly weighted majority vote of decision trees built using the CART algorithm without pruning. Thereafter, we introduce an algorithm that we called SORF. The SORF algorithm is based on the PAC-Bayes approach, which in order to minimize the risk of Bayes classifier, minimizes the risk of the Gibbs classifier with a regularizer. The risk of Gibbs classifier is indeed a convex function which is an upper bound of the risk of Bayes classifier. To find the distribution that would be optimal, the SORF algorithm is reduced to being a simple quadratic program minimizing the quadratic risk of Gibbs classifier to seek a distribution Q of base classifiers which are trees of the forest. Empirical results show that generally SORF is almost as efficient as Random forests, and in some cases, it can even outperform Random forests.
APA, Harvard, Vancouver, ISO, and other styles
3

Zirakiza, Brice, and Brice Zirakiza. "Forêts Aléatoires PAC-Bayésiennes." Master's thesis, Université Laval, 2013. http://hdl.handle.net/20.500.11794/24036.

Full text
Abstract:
Dans ce mémoire de maîtrise, nous présentons dans un premier temps un algorithme de l'état de l'art appelé Forêts aléatoires introduit par Léo Breiman. Cet algorithme effectue un vote de majorité uniforme d'arbres de décision construits en utilisant l'algorithme CART sans élagage. Par après, nous introduisons l'algorithme que nous avons nommé SORF. L'algorithme SORF s'inspire de l'approche PAC-Bayes, qui pour minimiser le risque du classificateur de Bayes, minimise le risque du classificateur de Gibbs avec un régularisateur. Le risque du classificateur de Gibbs constitue en effet, une fonction convexe bornant supérieurement le risque du classificateur de Bayes. Pour chercher la distribution qui pourrait être optimale, l'algorithme SORF se réduit à être un simple programme quadratique minimisant le risque quadratique de Gibbs pour chercher une distribution Q sur les classificateurs de base qui sont des arbres de la forêt. Les résultasts empiriques montrent que généralement SORF est presqu'aussi bien performant que les forêts aléatoires, et que dans certains cas, il peut même mieux performer que les forêts aléatoires.
Dans ce mémoire de maîtrise, nous présentons dans un premier temps un algorithme de l'état de l'art appelé Forêts aléatoires introduit par Léo Breiman. Cet algorithme effectue un vote de majorité uniforme d'arbres de décision construits en utilisant l'algorithme CART sans élagage. Par après, nous introduisons l'algorithme que nous avons nommé SORF. L'algorithme SORF s'inspire de l'approche PAC-Bayes, qui pour minimiser le risque du classificateur de Bayes, minimise le risque du classificateur de Gibbs avec un régularisateur. Le risque du classificateur de Gibbs constitue en effet, une fonction convexe bornant supérieurement le risque du classificateur de Bayes. Pour chercher la distribution qui pourrait être optimale, l'algorithme SORF se réduit à être un simple programme quadratique minimisant le risque quadratique de Gibbs pour chercher une distribution Q sur les classificateurs de base qui sont des arbres de la forêt. Les résultasts empiriques montrent que généralement SORF est presqu'aussi bien performant que les forêts aléatoires, et que dans certains cas, il peut même mieux performer que les forêts aléatoires.
In this master's thesis, we present at first an algorithm of the state of the art called Random Forests introduced by Léo Breiman. This algorithm construct a uniformly weighted majority vote of decision trees built using the CART algorithm without pruning. Thereafter, we introduce an algorithm that we called SORF. The SORF algorithm is based on the PAC-Bayes approach, which in order to minimize the risk of Bayes classifier, minimizes the risk of the Gibbs classifier with a regularizer. The risk of Gibbs classifier is indeed a convex function which is an upper bound of the risk of Bayes classifier. To find the distribution that would be optimal, the SORF algorithm is reduced to being a simple quadratic program minimizing the quadratic risk of Gibbs classifier to seek a distribution Q of base classifiers which are trees of the forest. Empirical results show that generally SORF is almost as efficient as Random forests, and in some cases, it can even outperform Random forests.
In this master's thesis, we present at first an algorithm of the state of the art called Random Forests introduced by Léo Breiman. This algorithm construct a uniformly weighted majority vote of decision trees built using the CART algorithm without pruning. Thereafter, we introduce an algorithm that we called SORF. The SORF algorithm is based on the PAC-Bayes approach, which in order to minimize the risk of Bayes classifier, minimizes the risk of the Gibbs classifier with a regularizer. The risk of Gibbs classifier is indeed a convex function which is an upper bound of the risk of Bayes classifier. To find the distribution that would be optimal, the SORF algorithm is reduced to being a simple quadratic program minimizing the quadratic risk of Gibbs classifier to seek a distribution Q of base classifiers which are trees of the forest. Empirical results show that generally SORF is almost as efficient as Random forests, and in some cases, it can even outperform Random forests.
APA, Harvard, Vancouver, ISO, and other styles
4

Scornet, Erwan. "Apprentissage et forêts aléatoires." Thesis, Paris 6, 2015. http://www.theses.fr/2015PA066533/document.

Full text
Abstract:
Cette thèse est consacrée aux forêts aléatoires, une méthode d'apprentissage non paramétrique introduite par Breiman en 2001. Très répandues dans le monde des applications, les forêts aléatoires possèdent de bonnes performances et permettent de traiter efficacement de grands volumes de données. Cependant, la théorie des forêts ne permet pas d'expliquer à ce jour l'ensemble des bonnes propriétés de l'algorithme. Après avoir dressé un état de l'art des résultats théoriques existants, nous nous intéressons en premier lieu au lien entre les forêts infinies (analysées en théorie) et les forêts finies (utilisées en pratique). Nous proposons en particulier une manière de choisir le nombre d'arbres pour que les erreurs des forêts finies et infinies soient proches. D'autre part, nous étudions les forêts quantiles, un type d'algorithme proche des forêts de Breiman. Dans ce cadre, nous démontrons l'intérêt d'agréger des arbres : même si chaque arbre de la forêt quantile est inconsistant, grâce à un sous-échantillonnage adapté, la forêt quantile est consistante. Dans un deuxième temps, nous prouvons que les forêts aléatoires sont naturellement liées à des estimateurs à noyau que nous explicitons. Des bornes sur la vitesse de convergence de ces estimateurs sont également établies. Nous démontrons, dans une troisième approche, deux théorèmes sur la consistance des forêts de Breiman élaguées et complètement développées. Dans ce dernier cas, nous soulignons, comme pour les forêts quantiles, l'importance du sous-échantillonnage dans la consistance de la forêt. Enfin, nous présentons un travail indépendant portant sur l'estimation de la toxicité de certains composés chimiques
This is devoted to a nonparametric estimation method called random forests, introduced by Breiman in 2001. Extensively used in a variety of areas, random forests exhibit good empirical performance and can handle massive data sets. However, the mathematical forces driving the algorithm remain largely unknown. After reviewing theoretical literature, we focus on the link between infinite forests (theoretically analyzed) and finite forests (used in practice) aiming at narrowing the gap between theory and practice. In particular, we propose a way to select the number of trees such that the errors of finite and infinite forests are similar. On the other hand, we study quantile forests, a type of algorithms close in spirit to Breiman's forests. In this context, we prove the benefit of trees aggregation: while each tree of quantile forest is not consistent, with a proper subsampling step, the forest is. Next, we show the connection between forests and some particular kernel estimates, which can be made explicit in some cases. We also establish upper bounds on the rate of convergence for these kernel estimates. Then we demonstrate two theorems on the consistency of both pruned and unpruned Breiman forests. We stress the importance of subsampling to demonstrate the consistency of the unpruned Breiman's forests. At last, we present the results of a Dreamchallenge whose goal was to predict the toxicity of several compounds for several patients based on their genetic profile
APA, Harvard, Vancouver, ISO, and other styles
5

Genuer, Robin. "Forêts aléatoires : aspects théoriques, sélection de variables et applications." Phd thesis, Université Paris Sud - Paris XI, 2010. http://tel.archives-ouvertes.fr/tel-00550989.

Full text
Abstract:
Cette thèse s'inscrit dans le cadre de l'apprentissage statistique et est consacrée à l'étude de la méthode des forêts aléatoires, introduite par Breiman en 2001. Les forêts aléatoires sont une méthode statistique non paramétrique, qui s'avère être très performante dans de nombreuses applications, aussi bien pour des problèmes de régression que de classification supervisée. Elles présentent également un bon comportement sur des données de très grande dimension, pour lesquelles le nombre de variables dépasse largement le nombre d'observations. Dans une première partie, nous développons une procédure de sélection de variables, basée sur l'indice d'importance des variables calculée par les forêts aléatoires. Cet indice d'importance permet de distinguer les variables pertinentes des variables inutiles. La procédure consiste alors à sélectionner automatiquement un sous-ensemble de variables dans un but d'interprétation ou de prédiction. La deuxième partie illustre la capacité de cette procédure de sélection de variables à être performante pour des problèmes très différents. La première application est un problème de classification en très grande dimension sur des données de neuroimagerie, alors que la seconde traite des données génomiques qui constituent un problème de régression en plus petite dimension. Une dernière partie, théorique, établit des bornes de risque pour une version simplifiée des forêts aléatoires. Dans un contexte de régression, avec une seule variable explicative, nous montrons d'une part que les estimateurs associés à un arbre et à une forêt atteignent tous deux la vitesse minimax de convergence, et d'autre part que la forêt apporte une amélioration en réduisant la variance de l'estimateur d'un facteur de trois quarts.
APA, Harvard, Vancouver, ISO, and other styles
6

Poterie, Audrey. "Arbres de décision et forêts aléatoires pour variables groupées." Thesis, Rennes, INSA, 2018. http://www.theses.fr/2018ISAR0011/document.

Full text
Abstract:
Dans de nombreux problèmes en apprentissage supervisé, les entrées ont une structure de groupes connue et/ou clairement identifiable. Dans ce contexte, l'élaboration d'une règle de prédiction utilisant les groupes plutôt que les variables individuelles peut être plus pertinente tant au niveau des performances prédictives que de l'interprétation. L'objectif de la thèse est de développer des méthodes par arbres adaptées aux variables groupées. Nous proposons deux approches qui utilisent la structure groupée des variables pour construire des arbres de décisions. La première méthode permet de construire des arbres binaires en classification. Une coupure est définie par le choix d'un groupe et d'une combinaison linéaire des variables du dit groupe. La seconde approche, qui peut être utilisée en régression et en classification, construit un arbre non-binaire dans lequel chaque coupure est un arbre binaire. Ces deux approches construisent un arbre maximal qui est ensuite élagué. Nous proposons pour cela deux stratégies d'élagage dont une est une généralisation du minimal cost-complexity pruning. Les arbres de décision étant instables, nous introduisons une méthode de forêts aléatoires pour variables groupées. Outre l'aspect prédiction, ces méthodes peuvent aussi être utilisées pour faire de la sélection de groupes grâce à l'introduction d'indices d'importance des groupes. Ce travail est complété par une partie indépendante dans laquelle nous nous plaçons dans un cadre d'apprentissage non supervisé. Nous introduisons un nouvel algorithme de clustering. Sous des hypothèses classiques, nous obtenons des vitesses de convergence pour le risque de clustering de l'algorithme proposé
In many problems in supervised learning, inputs have a known and/or obvious group structure. In this context, elaborating a prediction rule that takes into account the group structure can be more relevant than using an approach based only on the individual variables for both prediction accuracy and interpretation. The goal of this thesis is to develop some tree-based methods adapted to grouped variables. Here, we propose two new tree-based approaches which use the group structure to build decision trees. The first approach allows to build binary decision trees for classification problems. A split of a node is defined according to the choice of both a splitting group and a linear combination of the inputs belonging to the splitting group. The second method, which can be used for prediction problems in both regression and classification, builds a non-binary tree in which each split is a binary tree. These two approaches build a maximal tree which is next pruned. To this end, we propose two pruning strategies, one of which is a generalization of the minimal cost-complexity pruning algorithm. Since decisions trees are known to be unstable, we introduce a method of random forests that deals with groups of inputs. In addition to the prediction purpose, these new methods can be also use to perform group variable selection thanks to the introduction of some measures of group importance, This thesis work is supplemented by an independent part in which we consider the unsupervised framework. We introduce a new clustering algorithm. Under some classical regularity and sparsity assumptions, we obtain the rate of convergence of the clustering risk for the proposed alqorithm
APA, Harvard, Vancouver, ISO, and other styles
7

Ciss, Saïp. "Forêts uniformément aléatoires et détection des irrégularités aux cotisations sociales." Thesis, Paris 10, 2014. http://www.theses.fr/2014PA100063/document.

Full text
Abstract:
Nous présentons dans cette thèse une application de l'apprentissage statistique à la détection des irrégularités aux cotisations sociales. L'apprentissage statistique a pour but de modéliser des problèmes dans lesquels il existe une relation, généralement non déterministe, entre des variables et le phénomène que l'on cherche à évaluer. Un aspect essentiel de cette modélisation est la prédiction des occurrences inconnues du phénomène, à partir des données déjà observées. Dans le cas des cotisations sociales, la représentation du problème s'exprime par le postulat de l'existence d'une relation entre les déclarations de cotisation des entreprises et les contrôles effectués par les organismes de recouvrement. Les inspecteurs du contrôle certifient le caractère exact ou inexact d'un certain nombre de déclarations et notifient, le cas échéant, un redressement aux entreprises concernées. L'algorithme d'apprentissage "apprend", grâce à un modèle, la relation entre les déclarations et les résultats des contrôles, puis produit une évaluation de l'ensemble des déclarations non encore contrôlées. La première partie de l'évaluation attribue un caractère régulier ou irrégulier à chaque déclaration, avec une certaine probabilité. La seconde estime les montants de redressement espérés pour chaque déclaration. Au sein de l'URSSAF (Union de Recouvrement des cotisations de Sécurité sociale et d'Allocations Familiales) d'Île-de-France, et dans le cadre d'un contrat CIFRE (Conventions Industrielles de Formation par la Recherche), nous avons développé un modèle de détection des irrégularités aux cotisations sociales que nous présentons et détaillons tout au long de la thèse. L'algorithme fonctionne sous le logiciel libre R. Il est entièrement opérationnel et a été expérimenté en situation réelle durant l'année 2012. Pour garantir ses propriétés et résultats, des outils probabilistes et statistiques sont nécessaires et nous discutons des aspects théoriques ayant accompagné sa conception. Dans la première partie de la thèse, nous effectuons une présentation générale du problème de la détection des irrégularités aux cotisations sociales. Dans la seconde, nous abordons la détection spécifiquement, à travers les données utilisées pour définir et évaluer les irrégularités. En particulier, les seules données disponibles suffisent à modéliser la détection. Nous y présentons également un nouvel algorithme de forêts aléatoires, nommé "forêt uniformément aléatoire", qui constitue le moteur de détection. Dans la troisième partie, nous détaillons les propriétés théoriques des forêts uniformément aléatoires. Dans la quatrième, nous présentons un point de vue économique, lorsque les irrégularités aux cotisations sociales ont un caractère volontaire, cela dans le cadre de la lutte contre le travail dissimulé. En particulier, nous nous intéressons au lien entre la situation financière des entreprises et la fraude aux cotisations sociales. La dernière partie est consacrée aux résultats expérimentaux et réels du modèle, dont nous discutons.Chacun des chapitres de la thèse peut être lu indépendamment des autres et quelques notions sont redondantes afin de faciliter l'exploration du contenu
We present in this thesis an application of machine learning to irregularities in the case of social contributions. These are, in France, all contributions due by employees and companies to the "Sécurité sociale", the french system of social welfare (alternative incomes in case of unemployement, Medicare, pensions, ...). Social contributions are paid by companies to the URSSAF network which in charge to recover them. Our main goal was to build a model that would be able to detect irregularities with a little false positive rate. We, first, begin the thesis by presenting the URSSAF and how irregularities can appear, how can we handle them and what are the data we can use. Then, we talk about a new machine learning algorithm we have developped for, "random uniform forests" (and its R package "randomUniformForest") which are a variant of Breiman "random Forests" (tm), since they share the same principles but in in a different way. We present theorical background of the model and provide several examples. Then, we use it to show, when irregularities are fraud, how financial situation of firms can affect their propensity for fraud. In the last chapter, we provide a full evaluation for declarations of social contributions of all firms in Ile-de-France for year 2013, by using the model to predict if declarations present irregularities or not
APA, Harvard, Vancouver, ISO, and other styles
8

Mourtada, Jaouad. "Contributions à l'apprentissage statistique : estimation de densité, agrégation d'experts et forêts aléatoires." Thesis, Institut polytechnique de Paris, 2020. http://www.theses.fr/2020IPPAX014.

Full text
Abstract:
L’apprentissage statistique fournit un cadre aux problèmes de prédiction, où l’on cherche à prédire des quantités inconnues à partir d’exemples.La première partie de cette thèse porte sur les méthodes de Forêts aléatoires, une famille d'algorithmes couramment utilisés en pratique, mais dont l'étude théorique s'avère délicate. Notre principale contribution est l'analyse précise d'une variante stylisée, les forêts de Mondrian, pour lesquelles nous établissons des vitesses de convergence non paramétriques minimax ainsi qu'un avantage des forêts sur les arbres. Nous étudions également une variante "en ligne" des forêts de Mondrian.La seconde partie est dédiée à l'agrégation d'experts, où il s'agit de combiner plusieurs sources de prédictions (experts) afin de prédire aussi bien que la meilleure d'entre elles. Nous analysons l'algorithme classique d'agrégation à poids exponentiels dans le cas stochastique, où il exhibe une certaine adaptativité à la difficulté du problème. Nous étudions également une variante du problème avec une classe croissante d'experts.La troisième partie porte sur des problèmes de régression et d'estimation de densité. Notre première contribution principale est une analyse minimax détaillée de la prédiction linéaire avec design aléatoire, en fonction de la loi des variables prédictives; nos bornes supérieures reposent sur un contrôle de la queue inférieure de matrices de covariance empiriques. Notre seconde contribution principale est l'introduction d'une procédure générale pour l'estimation de densité avec perte logarithmique, qui admet des bornes optimales d'excès de risque ne se dégradant pas dans le cas mal spécifié. Dans le cas de la régression logistique, cette procédure admet une forme simple et atteint des vitesses de convergence rapides inaccessibles aux estimateurs de type plug-in
Statistical machine learning is a general framework to study predictive problems, where one aims to predict unobserved quantities using examples.The first part of this thesis is devoted to Random forests, a family of methods which are widely used in practice, but whose theoretical analysis has proved challenging. Our main contribution is the precise analysis of a simplified variant called Mondrian forests, for which we establish minimax nonparametric rates of convergence and an advantage of forests over trees. We also study an online variant of Mondrian forests.The second part is about prediction with expert advice, where one aims to sequentially combine different sources of predictions (experts) so as to perform almost as well as the best one in retrospect. We analyze the standard exponential weights algorithm on favorable stochastic instances, showing in particular that it exhibits some adaptivity to the hardness of the problem. We also study a variant of the problem with a growing expert class.The third part deals with regression and density estimation problems. Our first main contribution is a detailed minimax analysis of linear least squares prediction, as a function of the distribution of covariates; our upper bounds rely on a control of the lower tail of empirical covariance matrices. Our second main contribution is a general procedure for density estimation under entropy risk, which achieves optimal excess risk rates that do not degrade under model misspecification. When applied to logistic regression, this procedure has a simple form and achieves fast rates of convergence, bypassing some intrinsic limitations of plug-in estimators
APA, Harvard, Vancouver, ISO, and other styles
9

Bernard, Simon. "Forêts aléatoires : de l’analyse des mécanismes de fonctionnement à la construction dynamique." Phd thesis, Rouen, 2009. http://www.theses.fr/2009ROUES011.

Full text
Abstract:
Les travaux de cette thèse se situent dans le domaine de l’apprentissage automatique et concernent plus particulièrement la paramétrisation des forêts aléatoires, une technique d’ensembles de classifieurs utilisant des arbres de décision. Nous nous intéressons à deux paramètres importants pour l’induction de ces forêts : le nombre de caractéristiques choisies aléatoirement à chaque noeud et le nombre d’arbres. Nous montrons d’abord que la valeur du premier paramètre doit être choisie en fonction des propriétés de l’espace de description, et proposons dans ce cadre un nouvel algorithme nommé Forest-RK exploitant ces propriétés. Nous montrons ensuite qu’avec un processus statique d’induction de Forêts, certains arbres provoquent une diminution des performances de l’ensemble, en dégradant le compromis force/corrélation. Nous en déduisons un algorithme d’induction dynamique particulièrement performant en comparaison avec les procédures d’induction statique
This research work is related to machine learning and more particularlydealswiththeparametrizationofRandomForests,whichareclassifierensemble methods that use decision trees as base classifiers. We focus on two important parameters of the forest induction : the number of features randomly selected at each node and the number of trees. We first show that the number of random features has to be chosen regarding to the feature space properties, and we propose hence a new algorithm called Forest-RK that exploits those properties. We then show that a static induction process implies that some of the trees of the forest make the ensemble generalisation error decrease, by deteriorating the strength/correlation compromise. We finaly propose an original random forest dynamic induction algorithm that favorably compares to static induction processes
APA, Harvard, Vancouver, ISO, and other styles
10

Bernard, Simon. "Forêts Aléatoires: De l'Analyse des Mécanismes de Fonctionnement à la Construction Dynamique." Phd thesis, Université de Rouen, 2009. http://tel.archives-ouvertes.fr/tel-00598441.

Full text
Abstract:
Les travaux de cette thèse se situent dans le domaine de l'apprentissage automatique et concernent plus particulièrement la paramétrisation des forêts aléatoires, une technique d'ensembles de classifieurs utilisant des arbres de décision. Nous nous intéressons à deux paramètres importants pour l'induction de ces forêts: le nombre de caractéristiques choisies aléatoirement à chaque noeud et le nombre d'arbres. Nous montrons d'abord que la valeur du premier paramètre doit être choisie en fonction des propriétés de l'espace de description, et proposons dans ce cadre un nouvel algorithme nommé Forest-RK exploitant ces propriétés. Nous montrons ensuite qu'avec un processus statique d'induction de Forêts, certains arbres provoquent une diminution des performances de l'ensemble, en dégradant le compromis force/ corrélation. Nous en déduisons un algorithme d'induction dynamique particulièrement performant en comparaison avec les procédures d'induction statique.
APA, Harvard, Vancouver, ISO, and other styles
11

Téphany, Hervé. "Modèles expérimentaux de combustion sur milieux hétérogènes aléatoires." Poitiers, 1997. http://www.theses.fr/1997POIT2309.

Full text
Abstract:
L'etude porte sur la propagation d'un front de combustion sur differents modeles de milieux heterogenes. Quatre reseaux, de maillage carre, comportant des sites combustibles et non-combustibles (ou rendus tels) aleatoirement repartis ont ete construits. En absence de vent, la maitrise des interactions entre sites permet de confirmer les resultats topologiques statiques de la theorie de la percolation. De plus, l'analyse de la dynamique de la propagation a montre que les exposants critiques mis en evidence sont proches de ceux des modeles theoriques existants. Dans le cas ou les flammes sont poussees par le vent, les resultats obtenus apparaissent compatibles avec les approches de la percolation dirigee. La criticite de la transition propagation/non-propagation du feu a ainsi ete confirmee experimentalement avec ou sans vent.
APA, Harvard, Vancouver, ISO, and other styles
12

Goehry, Benjamin. "Prévision multi-échelle par agrégation de forêts aléatoires. Application à la consommation électrique." Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLS461/document.

Full text
Abstract:
Cette thèse comporte deux objectifs. Un premier objectif concerne la prévision d’une charge totale dans le contexte des Smart Grids par des approches qui reposent sur la méthode de prévision ascendante. Le deuxième objectif repose quant à lui sur l’étude des forêts aléatoires dans le cadre d’observations dépendantes, plus précisément des séries temporelles. Nous étendons dans ce cadre les résultats de consistance des forêts aléatoires originelles de Breiman ainsi que des vitesses de convergence pour une forêt aléatoire simplifiée qui ont été tout deux jusqu’ici uniquement établis pour des observations indépendantes et identiquement distribuées. La dernière contribution sur les forêts aléatoires décrit une nouvelle méthodologie qui permet d’incorporer la structure dépendante des données dans la construction des forêts et permettre ainsi un gain en performance dans le cas des séries temporelles, avec une application à la prévision de la consommation d’un bâtiment
This thesis has two objectives. A first objective concerns the forecast of a total load in the context of Smart Grids using approaches that are based on the bottom-up forecasting method. The second objective is based on the study of random forests when observations are dependent, more precisely on time series. In this context, we are extending the consistency results of Breiman’s random forests as well as the convergence rates for a simplified random forest that have both been hitherto only established for independent and identically distributed observations. The last contribution on random forests describes a new methodology that incorporates the time-dependent structure in the construction of forests and thus have a gain in performance in the case of time series, illustrated with an application of load forecasting of a building
APA, Harvard, Vancouver, ISO, and other styles
13

Caron, Maxime. "Données confidentielles : génération de jeux de données synthétisés par forêts aléatoires pour des variables catégoriques." Master's thesis, Université Laval, 2015. http://hdl.handle.net/20.500.11794/25935.

Full text
Abstract:
La confidentialité des données est devenue primordiale en statistique. Une méthode souvent utilisée pour diminuer le risque de réidentification est la génération de jeux de données partiellement synthétiques. On explique le concept de jeux de données synthétiques, et on décrit une méthode basée sur les forêts aléatoires pour traiter les variables catégoriques. On s’intéresse à la formule qui permet de faire de l’inférence avec plusieurs jeux synthétiques. On montre que l’ordre des variables à synthétiser a un impact sur l’estimation de la variance des estimateurs. On propose une variante de l’algorithme inspirée du concept de confidentialité différentielle. On montre que dans ce cas, on ne peut estimer adéquatement ni un coefficient de régression, ni sa variance. On montre l’impact de l’utilisation de jeux synthétiques sur des modèles d’équations structurelles. On conclut que les jeux synthétiques ne changent pratiquement pas les coefficients entre les variables latentes et les variables mesurées.
Confidential data are very common in statistics nowadays. One way to treat them is to create partially synthetic datasets for data sharing. We will present an algorithm based on random forest to generate such datasets for categorical variables. We are interested by the formula used to make inference from multiple synthetic dataset. We show that the order of the synthesis has an impact on the estimation of the variance with the formula. We propose a variant of the algorithm inspired by differential privacy, and show that we are then not able to estimate a regression coefficient nor its variance. We show the impact of synthetic datasets on structural equations modeling. One conclusion is that the synthetic dataset does not really affect the coefficients between latent variables and measured variables.
APA, Harvard, Vancouver, ISO, and other styles
14

Gregorutti, Baptiste. "Forêts aléatoires et sélection de variables : analyse des données des enregistreurs de vol pour la sécurité aérienne." Thesis, Paris 6, 2015. http://www.theses.fr/2015PA066045/document.

Full text
Abstract:
De nouvelles réglementations imposent désormais aux compagnies aériennes d'établir une stratégie de gestion des risques pour réduire encore davantage le nombre d'accidents. Les données des enregistreurs de vol, très peu exploitées à ce jour, doivent être analysées de façon systématique pour identifier, mesurer et suivre l'évolution des risques. L'objectif de cette thèse est de proposer un ensemble d'outils méthodologiques pour répondre à la problématique de l'analyse des données de vol. Les travaux présentés dans ce manuscrit s'articulent autour de deux thèmes statistiques : la sélection de variables en apprentissage supervisé d'une part et l'analyse des données fonctionnelles d'autre part. Nous utilisons l'algorithme des forêts aléatoires car il intègre des mesures d'importance pouvant être employées dans des procédures de sélection de variables. Dans un premier temps, la mesure d'importance par permutation est étudiée dans le cas où les variables sont corrélées. Nous étendons ensuite ce critère pour des groupes de variables et proposons une nouvelle procédure de sélection de variables fonctionnelles. Ces méthodes sont appliquées aux risques d'atterrissage long et d'atterrissage dur, deux questions importantes pour les compagnies aériennes. Nous présentons enfin l'intégration des méthodes proposées dans le produit FlightScanner développé par Safety Line. Cette solution innovante dans le transport aérien permet à la fois le monitoring des risques et le suivi des facteurs qui les influencent
New recommendations require airlines to establish a safety management strategy to keep reducing the number of accidents. The flight data recorders have to be systematically analysed in order to identify, measure and monitor the risk evolution. The aim of this thesis is to propose methodological tools to answer the issue of flight data analysis. Our work revolves around two statistical topics: variable selection in supervised learning and functional data analysis. The random forests are used as they implement importance measures which can be embedded in selection procedures. First, we study the permutation importance measure when the variables are correlated. This criterion is extended for groups of variables and a new selection algorithm for functional variables is introduced. These methods are applied to the risks of long landing and hard landing which are two important questions for airlines. Finally, we present the integration of the proposed methods in the software FlightScanner implemented by Safety Line. This new solution in the air transport helps safety managers to monitor the risks and identify the contributed factors
APA, Harvard, Vancouver, ISO, and other styles
15

Rancourt, Marie-Pierre. "Programmes d'aide à l'emploi et solidarité sociale : analyse causale des effets de la participation par l'approche des forêts aléatoires." Master's thesis, Université Laval, 2020. http://hdl.handle.net/20.500.11794/67007.

Full text
Abstract:
Dans ce mémoire, nous évaluons l’effet des programmes d’aide à l’emploi sur le nombre de sorties de l’aide sociale et la durée cumulative passée en dehors de celle-ci chez les prestataires vivant avec des contraintes sévères à l’emploi. Il est évident que tous les prestataires ne tireront pas les mêmes bénéfices de la participation à un programme et pour cette raison il est utile d’évaluer des effets de traitement conditionnellement aux caractéristiques de chaque individu. Pour bien répondre à la question de recherche, nous avons besoin d’une méthode flexible nous permettant d’estimer des effets de traitement hétérogènes. Pour ce faire, nous utilisons une technique d’apprentissage automatique nommée generalized random forests (grf ) nous permettant d’évaluer des effets de traitement hétérogènes en conditionnant sur les caractéristiques des individus. Nous avons utilisé une base de données fournie par le Ministère du Travail, de l’Emploi et de la Solidarité sociale (MTESS) contenant les observations mensuelles de tous les prestataires d’aide et de solidarité sociale entre 1999 et 2018 au Québec. Grâce à la méthode grf et à la base de données du MTESS, nous avons trouvé que les prestataires présentant les plus longues durées cumulatives à l’aide sociale ont des effets de traitement moins élevés que ceux présentant des durées plus courtes. Nous avons également observé que les prestataires les plus jeunes et les plus scolarisés bénéficient davantage de la participation aux programmes que les autres. C’est également le cas des individus qui ont un diagnostic auditif et de ceux qui n’ont pas un diagnostic organique.
In this thesis, we assess the effect of employment assistance programs on the number of exits from social assistance and the cumulative duration spent outside of it among beneficiaries living with severe constraints. It is obvious that not all beneficiaries will derive the same benefits from participating in a program and for this reason it is useful to assess treatment effects conditional on the characteristics of each individual. To answer the research question, we need a flexible method that allows us to estimate differentiated treatment effects based on individual characteristics. To do this, we use a machine learning technique called generalized random forests (grf ) allowing us to evaluate heterogeneous treatment effects by conditioning on the characteristics of individuals. We used a database provided by the Ministère du Travail, de l’Emploi et de la Solidarité sociale (MTESS) containing monthly observations of all recipients of social assistance between 1999 and 2018 in Quebec. Using the grf method and the MTESS database, we found that beneficiaries with the longest cumulative durations on social assistance had lower treatment effects than those with shorter durations. We also observed that the younger and more educated beneficiaries benefited more from program participation than the others. This is also the case for individuals who have an auditory diagnosis and those who do not have an organic diagnosis.
APA, Harvard, Vancouver, ISO, and other styles
16

Boucekine, Mohamed. "Caractérisation de l'effet response shift par l'approche des forêts aléatoires : application à la sclérose en plaques et à la schizophrénie." Thesis, Aix-Marseille, 2015. http://www.theses.fr/2015AIXM5062.

Full text
Abstract:
Evaluer la qualité de vie (QV) a pris une importance croissante dans le domaine de la santé, tout particulièrement pour les maladies graves tels que les cancers. Cependant l’analyse des données de QV demeure complexe et reste peu utilisée pour changer les standards de prise en charge des patients. Une des raisons est que les patients pourraient exprimer un effet « response shift » (changement de réponse) au cours de la maladie et par conséquent biaiser les résultats en sur- ou sous estimant l’effet traitement mesurer par le différentiel de QV. En effet lorsque l’évolution de la QV est étudiée, on fait souvent l’hypothèse que la perception qu’ont les patients du concept étudié ne va pas se modifier au cours du temps. Or les patients font face à une maladie et à des traitements. L’impact que peuvent avoir la maladie et les traitements sur la vie du patient va généralement l’amener à s’adapter et modifier sa perception du concept étudié. Ainsi l’occurrence potentielle d’un effet « Response Shift » est une des problématiques à appréhender pour distinguer ce qui relève d’un « vrai » changement de QV et de ce qui est de l’adaptation
To asses Quality Of Life, patients are often asked to evaluate their well-being using a self-report instrument to document patient-reported outcome (PROs) measures. The data are often collected on multiple domains, such as physical function, social health and emotional health. However, longitudinal PROs, which are collected at multiple occasions from the same individual, may be affected by adaptation or "response shift" effects and may lead to under- or overestimation of the treatment effects. Response shift is the phenomenon by which an individual's self-evaluation of a construct changes due to change in internal standards of measurement (recalibration), a change in value or priorities (reprioritization), or a personal redefinition of the target construct (reconceptualisation). If the response shift is present in the data, the interpretation of change is altered and conventional difference between post-test and pre-test may not be able to detect true change in PROs measures. The aim of the work is to propose an innovative method, based on random forest method, to highlight response shift effect
APA, Harvard, Vancouver, ISO, and other styles
17

Emprin, Gustave. "Une topologie pour les arbres labellés, application aux arbres aléatoires s-compacts." Thesis, Paris Est, 2019. http://www.theses.fr/2019PESC1032.

Full text
Abstract:
Dans cette thèse, nous développons un nouvel espace pour l'étude des espaces métriques labellés et mesurés, dans l'optique de décrire des arbres généalogiques dont la racine est infiniment ancienne. Dans ces arbres, le temps est représenté par une fonction label qui est 1-Lipschitz. On appelle espace métrique labellé S-compact et mesuré tout espace métrique E équipé d'une mesure nu et d'une fonction-label 1-Lipschitz de E dans R, avec la condition supplémentaire que chaque tranche (l'ensemble des points de E dont le label appartient à un compact de R) doit être compact et avoir mesure finie. On note XS l'ensemble des espaces métriques labellés mesurés S-compacts, considérés à isométries près. Sur XS, on définit une distance dLGHP de type Gromov qui compare les tranches. Il s'ensuit une étude de l'espace (XS, dLGHP), dont on montre qu'il est polonais. De cette étude, on déduit les propriétés de l'ensemble T des éléments de XS qui sont des arbres continus dont les labels décroissent à vitesse 1 quand on se déplace vers la ``racine'' (qui peut être infiniment loin). Chaque valeur possible de la fonction label représente une génération de l'arbre généalogique. On montre que (T, dLGHP) est aussi polonais. On définit ensuite quelques opérations mesurables sur T, dont le recollement aléatoire d'une forêt sur un arbre.On utilise enfin cette dernière opération pour construire un arbre aléatoire qui est un bon candidat pour généraliser l'arbre brownien conditionné par son temps local (construction due à Aldous)
In this thesis, we develop a new space for the study of measured labelled metric spaces, ultimately designed to represent genealogical trees with a root at generation minus infinity. The time in the genealogical tree is represented by a 1-Lipschitz label function. We define the notion of S-compact measured labelled metric space, that is a metric space E equipped with a measure nu and a 1-Lipschitz label function from E to R, with the additional condition that each slice (the set of points with labels in a compact of R) must be compact and have finite measure. On the space XS of measured labelled metric spaces (up to isometry), we define a distance dLGHP by comparing the slices and study the resulting metric space, which we find to be Polish.We proceed with the study of the set T of all elements of XS that are real tree in which the label function decreases at rate 1 when we go toward the root" (which can be infinitely far). Each possible value of the label function corresponds to a generation in the genealogical tree. We prove that (T, dLGHP) is Polish as well. We define a number of measurable operation on T, including a way to randomly graft a forest on a tree. We use this operation to build a particular random tree generalizing Aldous' Brownian motion conditioned on its local time
APA, Harvard, Vancouver, ISO, and other styles
18

Sun, Wangru. "Modèle de forêts enracinées sur des cycles et modèle de perles via les dimères." Thesis, Sorbonne université, 2018. http://www.theses.fr/2018SORUS007/document.

Full text
Abstract:
Le modèle de dimères, également connu sous le nom de modèle de couplage parfait, est un modèle probabiliste introduit à l'origine dans la mécanique statistique. Une configuration de dimères d'un graphe est un sous-ensemble des arêtes tel que chaque sommet est incident à exactement une arête. Un poids est attribué à chaque arête et la probabilité d'une configuration est proportionnelle au produit des poids des arêtes présentes. Dans cette thèse, nous étudions principalement deux modèles qui sont liés au modèle de dimères, et plus particulièrement leur comportements limites. Le premier est le modèle des forêts couvrantes enracinées sur des cycles (CRSF) sur le tore, qui sont en bijection avec les configurations de dimères via la bijection de Temperley. Dans la limite quand la taille du tore tend vers l'infini, la mesure sur les CRSF converge vers une mesure de Gibbs ergodique sur le plan tout entier. Nous étudions la connectivité de l'objet limite, prouvons qu'elle est déterminée par le changement de hauteur moyen de la mesure de Gibbs ergodique et donnons un diagramme de phase. Le second est le modèle de perles, un processus ponctuel sur $\mathbb{Z}\times\mathbb{R}$ qui peut être considéré comme une limite à l'échelle du modèle de dimères sur un réseau hexagonal. Nous formulons et prouvons un principe variationnel similaire à celui du modèle dimère \cite{CKP01}, qui indique qu'à la limite de l'échelle, la fonction de hauteur normalisée d'une configuration de perles converge en probabilité vers une surface $h_0$ qui maximise une certaine fonctionnelle qui s'appelle "entropie". Nous prouvons également que la forme limite $h_0$ est une limite de l'échelle des formes limites de modèles de dimères. Il existe une correspondance entre configurations de perles et (skew) tableaux de Young standard, qui préserve la mesure uniforme sur les deux ensembles. Le principe variationnel du modèle de perles implique une forme limite d'un tableau de Young standard aléatoire. Ce résultat généralise celui de \cite{PR}. Nous dérivons également l'existence d'une courbe arctique d'un processus ponctuel discret qui encode les tableaux standard, defini dans \cite{Rom}
The dimer model, also known as the perfect matching model, is a probabilistic model originally introduced in statistical mechanics. A dimer configuration of a graph is a subset of the edges such that every vertex is incident to exactly one edge of the subset. A weight is assigned to every edge, and the probability of a configuration is proportional to the product of the weights of the edges present. In this thesis we mainly study two related models and in particular their limiting behavior. The first one is the model of cycle-rooted-spanning-forests (CRSF) on tori, which is in bijection with toroidal dimer configurations via Temperley's bijection. This gives rise to a measure on CRSF. In the limit that the size of torus tends to infinity, the CRSF measure tends to an ergodic Gibbs measure on the whole plane. We study the connectivity property of the limiting object, prove that it is determined by the average height change of the limiting ergodic Gibbs measure and give a phase diagram. The second one is the bead model, a random point field on $\mathbb{Z}\times\mathbb{R}$ which can be viewed as a scaling limit of dimer model on a hexagon lattice. We formulate and prove a variational principle similar to that of the dimer model \cite{CKP01}, which states that in the scaling limit, the normalized height function of a uniformly chosen random bead configuration lies in an arbitrarily small neighborhood of a surface $h_0$ that maximizes some functional which we call as entropy. We also prove that the limit shape $h_0$ is a scaling limit of the limit shapes of a properly chosen sequence of dimer models. There is a map form bead configurations to standard tableaux of a (skew) Young diagram, and the map is measure preserving if both sides take uniform measures. The variational principle of the bead model yields the existence of the limit shape of a random standard Young tableau, which generalizes the result of \cite{PR}. We derive also the existence of an arctic curve of a discrete point process that encodes the standard tableaux, raised in \cite{Rom}
APA, Harvard, Vancouver, ISO, and other styles
19

Morvan, Ludivine. "Prédiction de la progression du myélome multiple par imagerie TEP : Adaptation des forêts de survie aléatoires et de réseaux de neurones convolutionnels." Thesis, Ecole centrale de Nantes, 2021. http://www.theses.fr/2021ECDN0045.

Full text
Abstract:
L’objectif de ces travaux est de fournir un modèle permettant la prédiction de la survie et l’identification de biomarqueurs dans le contexte du myélome multiple (MM) à l’aide de l’imagerie TEP (Tomographie à émission de positons) et de données cliniques. Cette thèse fut divisée en deux parties : La première permet d’obtenir un modèle basé sur les forêts de survie aléatoires (RSF). La seconde est basée sur l’adaptation de l’apprentissage profond à la survie et à nos données. Les contributions principales sont les suivantes : 1) Production d’un modèle basé sur les RSF et les images TEP permettant la prédiction d’un groupe de risque pour les patients atteints de MM.2) Détermination de biomarqueurs grâce à ce modèle3) Démonstration de l’intérêt des radiomiques TEP 4) Extension de l’état de l’art des méthodes d’adaptation de l’apprentissage profond à une petite base de données et à de petitesimages 5) Étude des fonctions de coût utilisées en survie. De plus, nous sommes, à notre connaissance, les premiers à investiguer l’utilisation des RSF dans le contexte du MM et des images TEP, à utiliser du pré-entraînement auto-supervisé avec des images TEP et, avec une tâche de survie, à adapter la fonction de coût triplet à la survie et à adapter un réseau de neurones convolutionnels à la survie du MM à partir de lésions TEP
The aim of this work is to provide a model for survival prediction and biomarker identification in the context of multiple myeloma (MM) using PET (Positron Emission Tomography) imaging and clinical data. This PhD is divided into two parts: The first part provides a model based on Random Survival Forests (RSF). The second part is based on the adaptation of deep learning to survival and to our data. The main contributions are the following: 1) Production of a model based on RSF and PET images allowing the prediction of a risk group for multiple myeloma patients. 2) Determination of biomarkers using this model.3) Demonstration of the interest of PET radiomics.4) Extension of the state of the art of methods for the adaptation of deep learning to a small database and small images. 5) Study of the cost functions used in survival. In addition, we are, to our knowledge, the first to investigate the use of RSFs in the context of MM and PET images, to use self-supervised pre-training with PET images, and, with a survival task, to fit the triplet cost function to survival and to fit a convolutional neural network to MM survival from PET lesions
APA, Harvard, Vancouver, ISO, and other styles
20

Jabot, Franck. "Marches aléatoires en forêt tropicale : contribution à la théorie de la biodiversité." Toulouse 3, 2009. http://thesesups.ups-tlse.fr/641/.

Full text
Abstract:
Les forêts tropicales abritent une immense diversité d'arbres, y compris à de très petites échelles spatiales. Cette diversité défie l'idée selon laquelle, dans des conditions environnementales données, une espèce devrait être la mieux adaptée et exclure progressivement toutes les autres. Les écologues ont élaboré de nombreuses hypothèses pour expliquer le maintien d'une si grande diversité locale. Un facteur principal freine le test de ces hypothèses : l'absence de méthodes robustes permettant de relier les théories et connaissances sur la forêt tropicale aux données de terrain, afin de les comparer. Cette thèse vise donc à développer des tests plus puissants des hypothèses de coexistence d'espèces. Il y est mis en évidence l'impact des filtres environnementaux à l'échelle régionale, ainsi que locale sur la structure des communautés. Cela permet de rejeter, pour la première fois de manière rigoureuse, l'hypothèse de neutralité, qui vise à expliquer la coexistence locale d'espèces en supposant leur équivalence fonctionnelle. Cette observation nourrit le développement d'un nouveau modèle dynamique visant à décrire ce filtrage environnemental à partir de caractéristiques des espèces, comme leurs traits fonctionnels, et son application à des données de terrain y est discutée. Enfin, les liens évolutifs entre les espèces sont une information potentiellement riche sur leur manière de coexister. Dans cette optique, il est montré comment intégrer ces liens évolutifs dans le test de la théorie neutraliste de la biodiversité. Les modèles dynamiques étudiés au cours de cette thèse sont dénommées, en termes mathématiques, des marches aléatoires. Elles y sont analysées en grande partie grâce à une méthode statistique appelée Approximate Bayesian Computation, qui ouvre de nouvelles perspectives pour l'étude des modèles dynamiques en écologie
Tropical forests contain a huge diversity of trees, even at small spatial scales. This diversity challenges the idea that, in given environmental conditions, one species should be better suited to this particular environment and progressively exclude all other species. Ecologists have proposed various hypotheses to explain diversity maintenance. One element prevents the test of these hypotheses: the lack of robust methods to link available theories and knowledge on tropical forests to field data, so as to compare different hypotheses. This thesis thus aims at developing more efficient tests of coexistence mechanisms. It is shown that environment filters tree communities at both the regional and local scales. This rejects, for the first time rigorously, the neutrality hypothesis, which aims at explaining species local coexistence in assuming their functional equivalence. This finding stimulates the development of a new dynamical model describing environmental filtering on the basis of species characteristics, such as functional traits. Applications to field data are discussed. Finally, evolutionary relationships among coexisting species contain potentially useful information on their ability to coexist. In this vein, it is shown how to integrate these evolutionary relationships in the test of the neutral theory of biodiversity. The dynamical models studied during this thesis are called, in mathematical terms, random walks. They have been mainly studied here thanks to a statistical technique called Approximate Bayesian Computation, which opens new perspectives for the study of dynamical models in ecology
APA, Harvard, Vancouver, ISO, and other styles
21

Desbordes, Paul. "Méthode de sélection de caractéristiques pronostiques et prédictives basée sur les forêts aléatoires pour le suivi thérapeutique des lésions tumorales par imagerie fonctionnelle TEP." Thesis, Normandie, 2017. http://www.theses.fr/2017NORMR030/document.

Full text
Abstract:
La radiomique propose de combiner des caractéristiques images avec celles issues de la clinique, de la génomique, de la protéomique, etc . . .afin de mettre en place une médecine personnalisée dans la prise en charge du cancer. L’objectif est d’anticiper, à partir d’un examen initial, les chances de survie du patient ou la probabilité de la maladie de répondre à un traitement. En médecine, des méthodes statistiques classiques sont généralement utilisées comme l’analyse de Mann-Whitney pour les études prédictives et l’analyse des courbes de survie de Kaplan-Meier pour les études pronostiques. Cependant, l’augmentation du nombre de caractéristiques étudiées pose des problèmes pour l’utilisation de ces statistiques. C’est pour cela que nous nous sommes orientés vers l’utilisation des algorithmes d’apprentissage automatique et des méthodes de sélectionde caractéristiques. Ces méthodes sont résistantes aux grandes dimensions, ainsi qu’aux relations non-linéaires entre caractéristiques. Nous avons proposé 2 méthodes de sélection des caractéristiques basées sur la méthode d’apprentissage automatique des forêts aléatoires. Nos méthodes ont permis la sélection de sous-ensembles de caractéristiques prédictives et pronostiques sur 2 bases de données (cancer de l’oesophage et du poumon). Nos algorithmes ont montré les meilleures performances de classification comparées aux méthodes statistiques classiques et aux autres méthodes de sélection des caractéristiques étudiées
Radiomics proposes to combine image features with those extracted from other modalities (clinical, genomic, proteomic) to set up a personalized medicine in the management of cancer. From an initial exam, the objective is to anticipate the survival rate of the patient or the treatment response probability. In medicine, classical statistical methods are generally used, such as theMann-Whitney analysis for predictive studies and analysis of Kaplan-Meier survival curves for prognostic studies. Thus, the increasing number of studied features limits the use of these statistics. We have focused our works on machine learning algorithms and features selection methods. These methods are resistant to large dimensions as well as non-linear relations between features. We proposed two features selection strategy based on random forests. Our methods allowed the selection of subsets of predictive and prognostic features on 2 databases (oesophagus and lung cancers). Our algorithms showed the best classification performances compared to classical statistical methods and other features selection strategies studied
APA, Harvard, Vancouver, ISO, and other styles
22

Bouaziz, Ameni. "Méthodes d’apprentissage interactif pour la classification des messages courts." Thesis, Université Côte d'Azur (ComUE), 2017. http://www.theses.fr/2017AZUR4039/document.

Full text
Abstract:
La classification automatique des messages courts est de plus en plus employée de nos jours dans diverses applications telles que l'analyse des sentiments ou la détection des « spams ». Par rapport aux textes traditionnels, les messages courts, comme les tweets et les SMS, posent de nouveaux défis à cause de leur courte taille, leur parcimonie et leur manque de contexte, ce qui rend leur classification plus difficile. Nous présentons dans cette thèse deux nouvelles approches visant à améliorer la classification de ce type de message. Notre première approche est nommée « forêts sémantiques ». Dans le but d'améliorer la qualité des messages, cette approche les enrichit à partir d'une source externe construite au préalable. Puis, pour apprendre un modèle de classification, contrairement à ce qui est traditionnellement utilisé, nous proposons un nouvel algorithme d'apprentissage qui tient compte de la sémantique dans le processus d'induction des forêts aléatoires. Notre deuxième contribution est nommée « IGLM » (Interactive Generic Learning Method). C'est une méthode interactive qui met récursivement à jour les forêts en tenant compte des nouvelles données arrivant au cours du temps, et de l'expertise de l'utilisateur qui corrige les erreurs de classification. L'ensemble de ce mécanisme est renforcé par l'utilisation d'une méthode d'abstraction permettant d'améliorer la qualité des messages. Les différentes expérimentations menées en utilisant ces deux méthodes ont permis de montrer leur efficacité. Enfin, la dernière partie de la thèse est consacrée à une étude complète et argumentée de ces deux prenant en compte des critères variés tels que l'accuracy, la rapidité, etc
Automatic short text classification is more and more used nowadays in various applications like sentiment analysis or spam detection. Short texts like tweets or SMS are more challenging than traditional texts. Therefore, their classification is more difficult owing to their shortness, sparsity and lack of contextual information. We present two new approaches to improve short text classification. Our first approach is "Semantic Forest". The first step of this approach proposes a new enrichment method that uses an external source of enrichment built in advance. The idea is to transform a short text from few words to a larger text containing more information in order to improve its quality before building the classification model. Contrarily to the methods proposed in the literature, the second step of our approach does not use traditional learning algorithm but proposes a new one based on the semantic links among words in the Random Forest classifier. Our second contribution is "IGLM" (Interactive Generic Learning Method). It is a new interactive approach that recursively updates the classification model by considering the new data arriving over time and by leveraging the user intervention to correct misclassified data. An abstraction method is then combined with the update mechanism to improve short text quality. The experiments performed on these two methods show their efficiency and how they outperform traditional algorithms in short text classification. Finally, the last part of the thesis concerns a complete and argued comparative study of the two proposed methods taking into account various criteria such as accuracy, speed, etc
APA, Harvard, Vancouver, ISO, and other styles
23

Raynal, Louis. "Bayesian statistical inference for intractable likelihood models." Thesis, Montpellier, 2019. http://www.theses.fr/2019MONTS035/document.

Full text
Abstract:
Dans un processus d’inférence statistique, lorsque le calcul de la fonction de vraisemblance associée aux données observées n’est pas possible, il est nécessaire de recourir à des approximations. C’est un cas que l’on rencontre très fréquemment dans certains champs d’application, notamment pour des modèles de génétique des populations. Face à cette difficulté, nous nous intéressons aux méthodes de calcul bayésien approché (ABC, Approximate Bayesian Computation) qui se basent uniquement sur la simulation de données, qui sont ensuite résumées et comparées aux données observées. Ces comparaisons nécessitent le choix judicieux d’une distance, d’un seuil de similarité et d’un ensemble de résumés statistiques pertinents et de faible dimension.Dans un contexte d’inférence de paramètres, nous proposons une approche mêlant des simulations ABC et les méthodes d’apprentissage automatique que sont les forêts aléatoires. Nous utilisons diverses stratégies pour approximer des quantités a posteriori d’intérêts sur les paramètres. Notre proposition permet d’éviter les problèmes de réglage liés à l’ABC, tout en fournissant de bons résultats ainsi que des outils d’interprétation pour les praticiens. Nous introduisons de plus des mesures d’erreurs de prédiction a posteriori (c’est-à-dire conditionnellement à la donnée observée d’intérêt) calculées grâce aux forêts. Pour des problèmes de choix de modèles, nous présentons une stratégie basée sur des groupements de modèles qui permet, en génétique des populations, de déterminer dans un scénario évolutif les évènements plus ou moins bien identifiés le constituant. Toutes ces approches sont implémentées dans la bibliothèque R abcrf. Par ailleurs, nous explorons des manières de construire des forêts aléatoires dites locales, qui prennent en compte l’observation à prédire lors de leur phase d’entraînement pour fournir une meilleure prédiction. Enfin, nous présentons deux études de cas ayant bénéficié de nos développements, portant sur la reconstruction de l’histoire évolutive de population pygmées, ainsi que de deux sous-espèces du criquet pèlerin Schistocerca gregaria
In a statistical inferential process, when the calculation of the likelihood function is not possible, approximations need to be used. This is a fairly common case in some application fields, especially for population genetics models. Toward this issue, we are interested in approximate Bayesian computation (ABC) methods. These are solely based on simulated data, which are then summarised and compared to the observed ones. The comparisons are performed depending on a distance, a similarity threshold and a set of low dimensional summary statistics, which must be carefully chosen.In a parameter inference framework, we propose an approach combining ABC simulations and the random forest machine learning algorithm. We use different strategies depending on the parameter posterior quantity we would like to approximate. Our proposal avoids the usual ABC difficulties in terms of tuning, while providing good results and interpretation tools for practitioners. In addition, we introduce posterior measures of error (i.e., conditionally on the observed data of interest) computed by means of forests. In a model choice setting, we present a strategy based on groups of models to determine, in population genetics, which events of an evolutionary scenario are more or less well identified. All these approaches are implemented in the R package abcrf. In addition, we investigate how to build local random forests, taking into account the observation to predict during their learning phase to improve the prediction accuracy. Finally, using our previous developments, we present two case studies dealing with the reconstruction of the evolutionary history of Pygmy populations, as well as of two subspecies of the desert locust Schistocerca gregaria
APA, Harvard, Vancouver, ISO, and other styles
24

Etourneau, Thomas. "Les forêts Lyman alpha du relevé eBOSS : comprendre les fonctions de corrélation et les systématiques." Thesis, université Paris-Saclay, 2020. http://www.theses.fr/2020UPASP029.

Full text
Abstract:
Cette thèse s’inscrit dans le cadre des projets eBOSS et DESI. Ces projets utilisent, entreautres, l’absorption Lyman-α (Lyα) afin de sonder la répartition de matière dans l’univers et ainsi mesurer l’échelle des oscillations acoustiques de baryon (BAO). La mesure du rapport de la taille de l’échelle BAO et de la taille de l’horizon acoustique lors du découplage des baryons et des photons permet de contraindre l’expansion de l’univers, et donc les paramètres de l’équation d’état de l’énergie noire. Cette thèse présente le développement de simulations (ou pseudo-données, ou mocks) à partir de champs aléatoires gaussiens (GRF) utilisées afin de tester les analyses BAO des groupes Lyα de eBOSS et DESI. Les GRF permettent de générer un champ de densité δ. A partir de ce champ de densité, les positions des quasars (QSO) sont tirées, puis à partir de chaque quasar, les lignes de visées sont constituées. Le champ de densité δ est interpolé le long de ces lignes de visées. Enfin, à l’aide de l’approximation FGPA (Fluctuating Gunn Peterson Approximation), la densité interpolée est transformée en profondeur optique τ , puis en absorption Lyα. Grâce à un programme développé par la communauté de DESI, un continuum est ajouté aux forêts Lyα afin de créer des spectres de quasars synthétiques. Les mocks présentées dans ce manuscrit fournissent donc un relevé de quasars dont les forêts Lyα présentes dans les spectres possèdent les bonnes fonctions d’auto-corrélation Lyα×Lyα, de corrélation croisée Lyα×QSO, ainsi que d’auto-corrélationQSO×QSO et HCD×HCD (High Column Density systems).L’étude de ces mocks permet de montrer quel’analyse BAO menée sur l’ensemble des données Lyα du relevé eBOSS produit une mesure non biaisée des paramètres BAO αk et α⊥. Par ailleurs, une étude approfondie du modèle utilisé pour ajuster les fonctions de corrélation montre que la forme de la fonction d’auto-corrélation Lyα×Lyα, c’est à dire les mesures du biais bLyα et du paramètre RSD (Redshift Space Distorsions) βLyα, est comprise à environ 20 % près. Les systématiques qui affectent les mesures des paramètres Lyα (bLyα et βLyα) sont issues de deux effets. Le premier effet provient de la matrice de distorsion qui ne capture pas l’intégralité des distorsions produites par l’ajustement du continuum des quasars. Le second effet est lié à la modélisation des HCD. La modélisation de ces absorbeurs denses n’est pas parfaite et affecte la mesure des paramètres Lyα, en particulier le paramètre RSD βLyα. L’analyse de ces mocks permet donc de valider un bon contrôle des systématiques pour les analyses BAO avec le Lyα. Cependant, une meilleure compréhension des mesures des paramètres Lyα est nécessaire afin d’envisager une analyse RSD à l’aide de la combinaison de l’auto-corrélation Lyα×Lyα et de la corrélation croisée Lyα×QSO
This PhD thesis is part of eBOSS and DESI projects. These projects, among other tracers, use the Lyman-α (Lyα) absorption to probe the matter distribution in the universe and measure thebaryon acoustic oscillations (BAO) scale. The measurement of the BAO scale to the sound horizon ratio allows to constrain the universe expansion and so the ΛCDM model, the standard model of cosmology. This thesis presents the development of mock data sets used in order to check the BAO analyses carried out by the Lyα group within the eBOSS and DESI collaborations. These mocks make use of gaussian random fields (GRF). GRF allow to generate a density field δ. From this density field, quasar (QSO) positions are drawn. From each quasar, a line of sight is constructed. Then, the density field δ is interpolated along each line of sight. Finally, the fluctuating Gunn Peterson approximation (FGPA) is used to convert the interpolated density into the optical depth τ , and then into the Lyα absorption. Thanks to a program developed by the DESI community, a continuum is added to each Lyα forest in order to produce quasar synthetic spectra. The mocks presented in the manuscript provide a survey of quasars whose Lyα forests in the quasar spectra have the correct Lyα×Lyα auto-correlation, Lyα×QSO cross-correlation, as well as the correct QSO×QSO and HCD×HCD (High Column Density systems) auto-correlation functions. The study of these mocks shows that the BAO analysis run on the whole Lyα eBOSS data set produces a non-biaised measurement of the BAO parameters αk et α⊥. In addition, the analysis of the model used to fit the correlation functions shows that the shape of the Lyα×Lyα auto-correlation, which is linked to the bias bLyα and redshift space distorsions (RSD) parameter βLyα, are understood up to 80 %. The systematics affecting the measurement of the Lyα parameters (bLyα et βLyα) come from two different effects. The first one originates from thedistortion matrix which does not capture all the distortions produced by the quasar continuum fittingprocedure. The second one is linked to the HCD modelling. The modelling of these strong absorbers is not perfect and affects the measurement of the Lyα parameters, especially the RSD parameter βLyα. Thus, the analysis of these mocks allows to validate the systematic control of the BAO analyses done with the Lyα. However, a better understanding of the measurement of the Lyα parameters is required in order to consider using the Lyα, which means combining the Lyα×Lyα autocorrelation and Lyα×QSO cross-correlation, to do a RSD analysis
APA, Harvard, Vancouver, ISO, and other styles
25

Toussile, Wilson. "Sélection de variable : structure génétique d'une population et transmission de Plasmodium à travers le moustique." Phd thesis, Université Paris Sud - Paris XI, 2010. http://tel.archives-ouvertes.fr/tel-00553674.

Full text
Abstract:
Dans cette thèse, nous considérons la question de sélection de variable dans deux deux problèmes pratiques. Le premier concerne une préoccupation très récurrente en génétique des populations qui consiste à regrouper les individus d'un échantillon d'organismes vivants dans des classes génétiquement homogènes sur la base d'informations procurées par un certain nombre de marqueurs génétiques. Nous supposons ne disposer d'aucune information à priori sur la population cible : il s'agit alors d'un problème de classification non supervisée. Par ailleurs, certaines variables peuvent ajouter du bruit à la classification. Nous proposons de résoudre simultanément le problème de sélection de variable et celui de sélection du nombre de composants du mélange dans une procédure de sélection de modèle. La sélection est ensuite faite via pénalisation du maximum de vraisemblance pénalisé. Sous des hypothèses faibles sur la fonction de pénalité, nous montrons que la procédure de sélection est consistance. Nous construisons ensuite une fonction de pénalité garantissant une inégalité oracle non-asymptotique. Bien que ce deuxième résultat ne soit pas directement utilisable, il suggère une pénalité de la forme du produit de la dimension des modèles en compétition et d'un paramètre données-dépendant que nous calibrons grâce à l'heuristique de la pente. Nous montrons sur des données simulées que cette calibration répond en partie au problème du choix du critère de sélection en fonction de la taille de l'échantillon. Le deuxième problème est motivé par le contrôle de la transmission de Plasmodium à travers son vecteur moustique. Nous disposons de données décrites par des variables diverses dont le nombre est de l'ordre de la taille de l'échantillon. Nous appliquons tout d'abord une procédure de sélection de variable qui repose sur l'importance des variables obtenues des forêts aléatoires. Les variables sélectionnées sont ensuite évaluées dans le modèle binomial négatif modifié en zéro.
APA, Harvard, Vancouver, ISO, and other styles
26

Pisetta, Vincent. "New Insights into Decision Trees Ensembles." Thesis, Lyon 2, 2012. http://www.theses.fr/2012LYO20018/document.

Full text
Abstract:
Les ensembles d’arbres constituent à l’heure actuelle l’une des méthodes d’apprentissage statistique les plus performantes. Toutefois, leurs propriétés théoriques, ainsi que leurs performances empiriques restent sujettes à de nombreuses questions. Nous proposons dans cette thèse d’apporter un nouvel éclairage à ces méthodes. Plus particulièrement, après avoir évoqué les aspects théoriques actuels (chapitre 1) de trois schémas ensemblistes principaux (Forêts aléatoires, Boosting et Discrimination Stochastique), nous proposerons une analyse tendant vers l’existence d’un point commun au bien fondé de ces trois principes (chapitre 2). Ce principe tient compte de l’importance des deux premiers moments de la marge dans l’obtention d’un ensemble ayant de bonnes performances. De là, nous en déduisons un nouvel algorithme baptisé OSS (Oriented Sub-Sampling) dont les étapes sont en plein accord et découlent logiquement du cadre que nous introduisons. Les performances d’OSS sont empiriquement supérieures à celles d’algorithmes en vogue comme les Forêts aléatoires et AdaBoost. Dans un troisième volet (chapitre 3), nous analysons la méthode des Forêts aléatoires en adoptant un point de vue « noyau ». Ce dernier permet d’améliorer la compréhension des forêts avec, en particulier la compréhension et l’observation du mécanisme de régularisation de ces techniques. Le fait d’adopter un point de vue noyau permet d’améliorer les Forêts aléatoires via des méthodes populaires de post-traitement comme les SVM ou l’apprentissage de noyaux multiples. Ceux-ci démontrent des performances nettement supérieures à l’algorithme de base, et permettent également de réaliser un élagage de l’ensemble en ne conservant qu’une petite partie des classifieurs le composant
Decision trees ensembles are among the most popular tools in machine learning. Nevertheless, their theoretical properties as well as their empirical performances are subject to strong investigation up to date. In this thesis, we propose to shed light on these methods. More precisely, after having described the current theoretical aspects of three main ensemble schemes (chapter 1), we give an analysis supporting the existence of common reasons to the success of these three principles (chapter 2). This last takes into account the two first moments of the margin as an essential ingredient to obtain strong learning abilities. Starting from this rejoinder, we propose a new ensemble algorithm called OSS (Oriented Sub-Sampling) whose steps are in perfect accordance with the point of view we introduce. The empirical performances of OSS are superior to the ones of currently popular algorithms such as Random Forests and AdaBoost. In a third chapter (chapter 3), we analyze Random Forests adopting a “kernel” point of view. This last allows us to understand and observe the underlying regularization mechanism of these kinds of methods. Adopting the kernel point of view also enables us to improve the predictive performance of Random Forests using popular post-processing techniques such as SVM and multiple kernel learning. In conjunction with random Forests, they show greatly improved performances and are able to realize a pruning of the ensemble by conserving only a small fraction of the initial base learners
APA, Harvard, Vancouver, ISO, and other styles
27

Dramé, Ibrahima. "Processus d'exploration des arbres aléatoires en temps continu à branchement non binaire : limite en grande population." Thesis, Aix-Marseille, 2017. http://www.theses.fr/2017AIXM0110.

Full text
Abstract:
Dans cette thèse, on étudie la convergence du processus d'exploration de l'arbre généalogique d'un processus de branchement en temps continu non binaire, dans la limite d'une grande population. Dans la première partie, nous donnons une description précise du processus d'exploration de l'arbre non binaire. Ensuite nous décrivons une certaine bijection entre l'ensemble des processus d'exploration et l'ensemble des arbres non binaires. Après renormalisation des paramètres, nous présentons les résultats de convergence du processus de population et du processus d'exploration dans la limite d'une grande population. Dans la deuxième partie, nous établissons d'abord la convergence du processus de population vers un processus de branchement à espace d'état continu avec sauts. Puis, nous montrons la convergence du processus d'exploration normalisé de l'arbre généalogique correspondant vers le processus de hauteur continu défini récemment par Li, Pardoux et Wakolbinger.Dans la dernière partie, on définit un modèle discret de population avec interaction définie par une fonction générale non linéaire f. On fait une renormalisation adéquate du modèle discret pour obtenir en limite un processus de branchement à espace d'état continu généralisé. Ensuite nous renormalisons le processus d'exploration de l'arbre généalogique associé et nous prenons la limite quand la taille de la population tend vers l'infini
In this thesis, we study the convergence of the exploration process of the non-binary tree associated to a continuous time branching process, in the limit of a large population. In the first part, we give a precise description of the exploration process of the non-binary tree. We then describe a bijection between exploration processes and Galton Watson non-binary trees. After some renormalization, we present the results of convergence of the population process and the exploration process, in the limit of a large populations.In the second part, we first establish the convergence of the population process to a continuous state branching process (CSBP) with jumps. We then show the convergence of the (rescaled) exploration process, of the corresponding genealogical tree towards the continuous height process recently defined by Li, Pardoux and Wakolbinger. In the last part, we consider a population model with interaction defined with a more general non linear function $f.$ We proceed to a renormalization of the parameters model and we obtain in limit a generalized CSBP. We then renormalize the height process of the associated genealogical tree, and take the weak limit as the size of the population tends to infinity
APA, Harvard, Vancouver, ISO, and other styles
28

Beguet, Benoît. "Caractérisation et cartographie de la structure forestière à partir d'images satellitaires à très haute résolution spatiale." Thesis, Bordeaux 3, 2014. http://www.theses.fr/2014BOR30041/document.

Full text
Abstract:
Les images à très haute résolution spatiale (THR) telles que les images Pléiades (50 cm en Panchromatique, 2m en multispectral) rendent possible une description fine de la structure forestière (distribution et dimensions des arbres) à l'échelle du peuplement, en exploitant la relation entre la structure spatiale des arbres et la texture d'image quand la taille du pixel est inférieure à la dimension des arbres. Cette attente répond au besoin d'inventaire spatialisé de la ressource forestière à l'échelle du peuplement et de ses changements dus à la gestion forestière, à l'aménagement du territoire ou aux événements catastrophiques. L'objectif est double: (1) évaluer le potentiel de la texture d'images THR pour estimer les principales variables de structure forestière (diamètre des couronnes, diamètre du tronc, hauteur, densité ou espacement des arbres) à l'échelle du peuplement; (2) sur ces bases, classer les données image, au niveau pixel, par types de structure forestière afin de produire l'information spatialisée la plus fine possible. Les principaux développements portent sur l'automatisation du paramètrage, la sélection de variables, la modélisation par régression multivariable et une approche de classification par classifieurs d'ensemble (Forêts Aléatoires ou Random Forests). Ils sont testés et évalués sur deux sites de la forêt landaise de pin maritime à partir de trois images Pléiades et une Quickbird, acquises dans diverses conditions (saison, position du soleil, angles de visée). La méthodologie proposée est générique. La robustesse aux conditions d'acquisition des images est évaluée. Les résultats montrent que des variations fines de texture caractéristiques de celles de la structure forestière sont bien identifiables. Les performances en terme d'estimation des variables forestières (RMSE) : ~1.1 m pour le diamètre des couronnes, ~3 m pour la hauteur des arbres ou encore ~0.9 m pour leur espacement, ainsi qu'en cartographie des structures forestières (~82 % de taux de bonne classification pour la reconnaissance des 5 classes principales de la structure forestière) sont satisfaisantes d'un point de vue opérationnel. L'application à des images multi-annuelles permettra d'évaluer leur capacité à détecter et cartographier des changements tels que coupe forestière, mitage urbain ou encore dégâts de tempête
Very High spatial Resolution (VHR) images like Pléiades imagery (50 cm panchromatic, 2m multispectral) allows a detailed description of forest structure (tree distribution and size) at stand level, by exploiting the spatial relationship between tree structure and image texture when the pixel size is smaller than tree dimensions. This information meets the expected strong need for spatial inventory of forest resources at the stand level and its changes due to forest management, land use or catastrophic events. The aim is twofold : (1) assess the VHR satellite images potential to estimate the main variables of forest structure from the image texture: crown diameter, stem diameter, height, density or tree spacing, (2) on these bases, a pixel-based image classification of forest structure is processed in order to produce the finest possible spatial information. The main developments concern parameter optimization, variable selection, multivariate regression modelling and ensemble-based classification (Random Forests). They are tested and evaluated on the Landes maritime pine forest with three Pléiades images and a Quickbird image acquired under different conditions (season, sun angle, view angle). The method is generic. The robustness of the proposed method to image acquisition parameters is evaluated. Results show that fine variations of texture characteristics related to those of forest structure are clearly identifiable. Performances in terms of forest variable estimation (RMSE): ~1,1m for crown diameter, ~3m for tree height and ~0,9m for tree spacing, as well as forest structure mapping (~82% Overall accuracy for the classification of the five main forest structure classes) are satisfactory from an operational perspective. Their application to multi- annual images will assess their ability to detect and map forest changes such as clear cut, urban sprawl or storm damages
APA, Harvard, Vancouver, ISO, and other styles
29

Ospina, Arango Juan David. "Predictive models for side effects following radiotherapy for prostate cancer." Thesis, Rennes 1, 2014. http://www.theses.fr/2014REN1S046/document.

Full text
Abstract:
La radiothérapie externe (EBRT en anglais pour External Beam Radiotherapy) est l'un des traitements référence du cancer de prostate. Les objectifs de la radiothérapie sont, premièrement, de délivrer une haute dose de radiations dans la cible tumorale (prostate et vésicules séminales) afin d'assurer un contrôle local de la maladie et, deuxièmement, d'épargner les organes à risque voisins (principalement le rectum et la vessie) afin de limiter les effets secondaires. Des modèles de probabilité de complication des tissus sains (NTCP en anglais pour Normal Tissue Complication Probability) sont nécessaires pour estimer sur les risques de présenter des effets secondaires au traitement. Dans le contexte de la radiothérapie externe, les objectifs de cette thèse étaient d'identifier des paramètres prédictifs de complications rectales et vésicales secondaires au traitement; de développer de nouveaux modèles NTCP permettant l'intégration de paramètres dosimétriques et de paramètres propres aux patients; de comparer les capacités prédictives de ces nouveaux modèles à celles des modèles classiques et de développer de nouvelles méthodologies d'identification de motifs de dose corrélés à l'apparition de complications. Une importante base de données de patients traités par radiothérapie conformationnelle, construite à partir de plusieurs études cliniques prospectives françaises, a été utilisée pour ces travaux. Dans un premier temps, la fréquence des symptômes gastro-Intestinaux et génito-Urinaires a été décrite par une estimation non paramétrique de Kaplan-Meier. Des prédicteurs de complications gastro-Intestinales et génito-Urinaires ont été identifiés via une autre approche classique : la régression logistique. Les modèles de régression logistique ont ensuite été utilisés dans la construction de nomogrammes, outils graphiques permettant aux cliniciens d'évaluer rapidement le risque de complication associé à un traitement et d'informer les patients. Nous avons proposé l'utilisation de la méthode d'apprentissage de machine des forêts aléatoires (RF en anglais pour Random Forests) pour estimer le risque de complications. Les performances de ce modèle incluant des paramètres cliniques et patients, surpassent celles des modèle NTCP de Lyman-Kutcher-Burman (LKB) et de la régression logistique. Enfin, la dose 3D a été étudiée. Une méthode de décomposition en valeurs populationnelles (PVD en anglais pour Population Value Decomposition) en 2D a été généralisée au cas tensoriel et appliquée à l'analyse d'image 3D. L'application de cette méthode à une analyse de population a été menée afin d'extraire un motif de dose corrélée à l'apparition de complication après EBRT. Nous avons également développé un modèle non paramétrique d'effets mixtes spatio-Temporels pour l'analyse de population d'images tridimensionnelles afin d'identifier une région anatomique dans laquelle la dose pourrait être corrélée à l'apparition d'effets secondaires
External beam radiotherapy (EBRT) is one of the cornerstones of prostate cancer treatment. The objectives of radiotherapy are, firstly, to deliver a high dose of radiation to the tumor (prostate and seminal vesicles) in order to achieve a maximal local control and, secondly, to spare the neighboring organs (mainly the rectum and the bladder) to avoid normal tissue complications. Normal tissue complication probability (NTCP) models are then needed to assess the feasibility of the treatment and inform the patient about the risk of side effects, to derive dose-Volume constraints and to compare different treatments. In the context of EBRT, the objectives of this thesis were to find predictors of bladder and rectal complications following treatment; to develop new NTCP models that allow for the integration of both dosimetric and patient parameters; to compare the predictive capabilities of these new models to the classic NTCP models and to develop new methodologies to identify dose patterns correlated to normal complications following EBRT for prostate cancer treatment. A large cohort of patient treated by conformal EBRT for prostate caner under several prospective French clinical trials was used for the study. In a first step, the incidence of the main genitourinary and gastrointestinal symptoms have been described. With another classical approach, namely logistic regression, some predictors of genitourinary and gastrointestinal complications were identified. The logistic regression models were then graphically represented to obtain nomograms, a graphical tool that enables clinicians to rapidly assess the complication risks associated with a treatment and to inform patients. This information can be used by patients and clinicians to select a treatment among several options (e.g. EBRT or radical prostatectomy). In a second step, we proposed the use of random forest, a machine-Learning technique, to predict the risk of complications following EBRT for prostate cancer. The superiority of the random forest NTCP, assessed by the area under the curve (AUC) of the receiving operative characteristic (ROC) curve, was established. In a third step, the 3D dose distribution was studied. A 2D population value decomposition (PVD) technique was extended to a tensorial framework to be applied on 3D volume image analysis. Using this tensorial PVD, a population analysis was carried out to find a pattern of dose possibly correlated to a normal tissue complication following EBRT. Also in the context of 3D image population analysis, a spatio-Temporal nonparametric mixed-Effects model was developed. This model was applied to find an anatomical region where the dose could be correlated to a normal tissue complication following EBRT
APA, Harvard, Vancouver, ISO, and other styles
30

Benoumechiara, Nazih. "Traitement de la dépendance en analyse de sensibilité pour la fiabilité industrielle." Thesis, Sorbonne université, 2019. http://www.theses.fr/2019SORUS047.

Full text
Abstract:
Les études de fiabilité des structures ont recours à des approches probabilistes permettant de quantifier le risque qu'un événement accidentel se produise. La dépendance entre les variables aléatoires d'entrée d'un modèle peut avoir un impact significatif sur les résultats de l'étude de sureté. Cette thèse apporte une contribution au traitement de la dépendance en fiabilité des structures. Les deux principaux thèmes traités dans ce document sont, d'une part, l'analyse de sensibilité pour variables dépendantes lorsque la dépendance est connue et, d'autre part, l'évaluation d'un risque de fiabilité lorsque la dépendance est inconnue. Dans un premier temps, nous proposons une extension des mesures d'importance par permutation de l'algorithme des forêts aléatoires au cas de données dépendantes. Nous adaptons aussi l'algorithme d'estimation des indices de Shapley, utilisés en théorie des jeux, afin de prendre compte l'erreur d'estimation des indices. Dans un second temps, lorsque la structure de dépendance est inconnue, nous proposons une estimation conservative du risque de fiabilité basée sur une modélisation de la dépendance qui permet de déterminer la structure de dépendance la plus pénalisante. La méthodologie proposée est appliquée à un exemple de fiabilité structurelle permettant d'obtenir une estimation conservative du risque
Structural reliability studies use probabilistic approaches to quantify the risk of an accidental event occurring. The dependence between the random input variables of a model can have a significant impact on the results of the reliability study. This thesis contributes to the treatment of dependency in structural reliability studies. The two main topics covered in this document are the sensitivity analysis for dependent variables when the dependence is known and, as well as the assessment of a reliability risk when the dependence is unknown. First, we propose an extension of the permutation-based importance measures of the random forest algorithm towards the case of dependent data. We also adapt the Shapley index estimation algorithm, used in game theory, to take into account the index estimation error. Secondly, in the case of dependence structure being unknown, we propose a conservative estimate of the reliability risk based on dependency modelling to determine the most penalizing dependence structure. The proposed methodology is applied to an example of structural reliability to obtain a conservative estimate of the risk
APA, Harvard, Vancouver, ISO, and other styles
31

Jouganous, Julien. "Modélisation et simulation de la croissance de métastases pulmonaires." Thesis, Bordeaux, 2015. http://www.theses.fr/2015BORD0154/document.

Full text
Abstract:
Cette thèse présente des travaux de modélisation mathématique de la croissance tumorale appliqués aux cas de métastases pulmonaires.La première partie de cette thèse décrit un premier modèle d’équations aux dérivées partielles permettant de simuler la croissance métastatique mais aussi la réponse de la tumeur à certains types de traitements. Une méthode de calibration du modèle à partir de données cliniques issues de l’imagerie médicale est développée et testée sur plusieurs cas cliniques.La deuxième partie de ces travaux introduit une simplification du modèle et de l’algorithme de calibration. Cette méthode, plus robuste, est testée sur un panel de 36 cas test et les résultats sont présentés dans le troisième chapitre. La quatrième et dernière partie développe un algorithme d’apprentissage automatisé permettant de tenir compte de données supplémentaires à celles utilisées par le modèle afin d’affiner l’étape de calibration
This thesis deals with mathematical modeling and simulation of lung metastases growth.We first present a partial differential equations model to simulate the growth and possibly the response to some types of treatments of metastases to the lung. This model must be personalized to be used individually on clinical cases. Consequently, we developed a calibration technic based on medical images of the tumor. Several applications on clinical cases are presented.Then we introduce a simplification of the first model and the calibration algorithm. This new method, more robust, is tested on 36 clinical cases. The results are presented in the third chapter. To finish, a machine learning algorithm
APA, Harvard, Vancouver, ISO, and other styles
32

Fouemkeu, Norbert. "Modélisation de l'incertitude sur les trajectoires d'avions." Phd thesis, Université Claude Bernard - Lyon I, 2010. http://tel.archives-ouvertes.fr/tel-00710595.

Full text
Abstract:
Dans cette thèse, nous proposons des modèles probabilistes et statistiques d'analyse de données multidimensionnelles pour la prévision de l'incertitude sur les trajectoires d'aéronefs. En supposant que pendant le vol, chaque aéronef suit sa trajectoire 3D contenue dans son plan de vol déposé, nous avons utilisé l'ensemble des caractéristiques de l'environnement des vols comme variables indépendantes pour expliquer l'heure de passage des aéronefs sur les points de leur trajectoire de vol prévue. Ces caractéristiques sont : les conditions météorologiques et atmosphériques, les paramètres courants des vols, les informations contenues dans les plans de vol déposés et la complexité de trafic. Typiquement, la variable dépendante dans cette étude est la différence entre les instants observés pendant le vol et les instants prévus dans les plans de vol pour le passage des aéronefs sur les points de leur trajectoire prévue : c'est la variable écart temporel. En utilisant une technique basée sur le partitionnement récursif d'un échantillon des données, nous avons construit quatre modèles. Le premier modèle que nous avons appelé CART classique est basé sur le principe de la méthode CART de Breiman. Ici, nous utilisons un arbre de régression pour construire une typologie des points des trajectoires des vols en fonction des caractéristiques précédentes et de prévoir les instants de passage des aéronefs sur ces points. Le second modèle appelé CART modifié est une version améliorée du modèle précédent. Ce dernier est construit en remplaçant les prévisions calculées par l'estimation de la moyenne de la variable dépendante dans les nœuds terminaux du modèle CART classique par des nouvelles prévisions données par des régressions multiples à l'intérieur de ces nœuds. Ce nouveau modèle développé en utilisant l'algorithme de sélection et d'élimination des variables explicatives (Stepwise) est parcimonieux. En effet, pour chaque nœud terminal, il permet d'expliquer le temps de vol par des variables indépendantes les plus pertinentes pour ce nœud. Le troisième modèle est fondé sur la méthode MARS, modèle de régression multiple par les splines adaptatives. Outre la continuité de l'estimateur de la variable dépendante, ce modèle permet d'évaluer les effets directs des prédicteurs et de ceux de leurs interactions sur le temps de passage des aéronefs sur les points de leur trajectoire de vol prévue. Le quatrième modèle utilise la méthode d'échantillonnage bootstrap. Il s'agit notamment des forêts aléatoires où pour chaque échantillon bootstrap de l'échantillon de données initial, un modèle d'arbre de régression est construit, et la prévision du modèle général est obtenue par une agrégation des prévisions sur l'ensemble de ces arbres. Malgré le surapprentissage observé sur ce modèle, il est robuste et constitue une solution au problème d'instabilité des arbres de régression propre à la méthode CART. Les modèles ainsi construits ont été évalués et validés en utilisant les données test. Leur application au calcul des prévisions de la charge secteur en nombre d'avions entrants a montré qu'un horizon de prévision d'environ 20 minutes pour une fenêtre de temps supérieure à 20 minutes permettait d'obtenir les prévisions avec des erreurs relatives inférieures à 10%. Parmi ces modèles, CART classique et les forêts aléatoires présentaient de meilleures performances. Ainsi, pour l'autorité régulatrice des courants de trafic aérien, ces modèles constituent un outil d'aide pour la régulation et la planification de la charge des secteurs de l'espace aérien contrôlé.
APA, Harvard, Vancouver, ISO, and other styles
33

Feng, Wei. "Investigation of training data issues in ensemble classification based on margin concept : application to land cover mapping." Thesis, Bordeaux 3, 2017. http://www.theses.fr/2017BOR30016/document.

Full text
Abstract:
La classification a été largement étudiée en apprentissage automatique. Les méthodes d’ensemble, qui construisent un modèle de classification en intégrant des composants d’apprentissage multiples, atteignent des performances plus élevées que celles d’un classifieur individuel. La précision de classification d’un ensemble est directement influencée par la qualité des données d’apprentissage utilisées. Cependant, les données du monde réel sont souvent affectées par les problèmes de bruit d’étiquetage et de déséquilibre des données. La marge d'ensemble est un concept clé en apprentissage d'ensemble. Elle a été utilisée aussi bien pour l'analyse théorique que pour la conception d'algorithmes d'apprentissage automatique. De nombreuses études ont montré que la performance de généralisation d'un classifieur ensembliste est liée à la distribution des marges de ses exemples d'apprentissage. Ce travail se focalise sur l'exploitation du concept de marge pour améliorer la qualité de l'échantillon d'apprentissage et ainsi augmenter la précision de classification de classifieurs sensibles au bruit, et pour concevoir des ensembles de classifieurs efficaces capables de gérer des données déséquilibrées. Une nouvelle définition de la marge d'ensemble est proposée. C'est une version non supervisée d'une marge d'ensemble populaire. En effet, elle ne requière pas d'étiquettes de classe. Les données d'apprentissage mal étiquetées sont un défi majeur pour la construction d'un classifieur robuste que ce soit un ensemble ou pas. Pour gérer le problème d'étiquetage, une méthode d'identification et d'élimination du bruit d'étiquetage utilisant la marge d'ensemble est proposée. Elle est basée sur un algorithme existant d'ordonnancement d'instances erronées selon un critère de marge. Cette méthode peut atteindre un taux élevé de détection des données mal étiquetées tout en maintenant un taux de fausses détections aussi bas que possible. Elle s'appuie sur les valeurs de marge des données mal classifiées, considérant quatre différentes marges d'ensemble, incluant la nouvelle marge proposée. Elle est étendue à la gestion de la correction du bruit d'étiquetage qui est un problème plus complexe. Les instances de faible marge sont plus importantes que les instances de forte marge pour la construction d'un classifieur fiable. Un nouvel algorithme, basé sur une fonction d'évaluation de l'importance des données, qui s'appuie encore sur la marge d'ensemble, est proposé pour traiter le problème de déséquilibre des données. Cette méthode est évaluée, en utilisant encore une fois quatre différentes marges d'ensemble, vis à vis de sa capacité à traiter le problème de déséquilibre des données, en particulier dans un contexte multi-classes. En télédétection, les erreurs d'étiquetage sont inévitables car les données d'apprentissage sont typiquement issues de mesures de terrain. Le déséquilibre des données d'apprentissage est un autre problème fréquent en télédétection. Les deux méthodes d'ensemble proposées, intégrant la définition de marge la plus pertinente face à chacun de ces deux problèmes majeurs affectant les données d'apprentissage, sont appliquées à la cartographie d'occupation du sol
Classification has been widely studied in machine learning. Ensemble methods, which build a classification model by integrating multiple component learners, achieve higher performances than a single classifier. The classification accuracy of an ensemble is directly influenced by the quality of the training data used. However, real-world data often suffers from class noise and class imbalance problems. Ensemble margin is a key concept in ensemble learning. It has been applied to both the theoretical analysis and the design of machine learning algorithms. Several studies have shown that the generalization performance of an ensemble classifier is related to the distribution of its margins on the training examples. This work focuses on exploiting the margin concept to improve the quality of the training set and therefore to increase the classification accuracy of noise sensitive classifiers, and to design effective ensemble classifiers that can handle imbalanced datasets. A novel ensemble margin definition is proposed. It is an unsupervised version of a popular ensemble margin. Indeed, it does not involve the class labels. Mislabeled training data is a challenge to face in order to build a robust classifier whether it is an ensemble or not. To handle the mislabeling problem, we propose an ensemble margin-based class noise identification and elimination method based on an existing margin-based class noise ordering. This method can achieve a high mislabeled instance detection rate while keeping the false detection rate as low as possible. It relies on the margin values of misclassified data, considering four different ensemble margins, including the novel proposed margin. This method is extended to tackle the class noise correction which is a more challenging issue. The instances with low margins are more important than safe samples, which have high margins, for building a reliable classifier. A novel bagging algorithm based on a data importance evaluation function relying again on the ensemble margin is proposed to deal with the class imbalance problem. In our algorithm, the emphasis is placed on the lowest margin samples. This method is evaluated using again four different ensemble margins in addressing the imbalance problem especially on multi-class imbalanced data. In remote sensing, where training data are typically ground-based, mislabeled training data is inevitable. Imbalanced training data is another problem frequently encountered in remote sensing. Both proposed ensemble methods involving the best margin definition for handling these two major training data issues are applied to the mapping of land covers
APA, Harvard, Vancouver, ISO, and other styles
34

Wallard, Henri. "Analyse des leviers : effets de colinéarité et hiérarchisation des impacts dans les études de marché et sociales." Thesis, Paris, CNAM, 2015. http://www.theses.fr/2015CNAM1019/document.

Full text
Abstract:
La colinéarité rend difficile l’utilisation de la régression linéaire pour estimer l’importance des variables dans les études de marché. D’autres approches ont donc été utilisées.Concernant la décomposition de la variance expliquée, une démonstration de l’égalité entre les méthodes lmg-Shapley et celle de Johnson avec deux prédicteurs est proposée. Il a aussi été montré que la méthode de Fabbris est différente des méthodes de Genizi et Johnson et que les CAR scores de deux prédicteurs ne s’égalisent pas lorsque leur corrélation tend vers 1.Une méthode nouvelle, weifila (weighted first last) a été définie et publiée en 2015.L’estimation de l’importance des variables avec les forêts aléatoires a également été analysée et les résultats montrent une bonne prise en compte des non-linéarités.Avec les réseaux bayésiens, la multiplicité des solutions et le recours à des restrictions et choix d’expert militent pour utilisation prudente même si les outils disponibles permettent une aide dans le choix des modèles.Le recours à weifila ou aux forêts aléatoires est recommandé plutôt que lmg-Shapley sans négliger les approches structurelles et les modèles conceptuels.Mots clés :régression, décomposition de la variance, importance, valeur de Shapley, forêts aléatoires, réseaux bayésiens
AbstractLinear regression is used in Market Research but faces difficulties due to multicollinearity. Other methods have been considered.A demonstration of the equality between lmg-Shapley and and Johnson methods for Variance Decomposition has been proposed. Also this research has shown that the decomposition proposed by Fabbris is not identical to those proposed by Genizi and Johnson, and that the CAR scores of two predictors do not equalize when their correlation tends towards 1. A new method, weifila (weighted first last) has been proposed and published in 2015.Also we have shown that permutation importance using Random Forest enables to take into account non linear relationships and deserves broader usage in Marketing Research.Regarding Bayesian Networks, there are multiple solutions available and expert driven restrictions and decisions support the recommendation to be careful in their usage and presentation, even if they allow to explore possible structures and make simulations.In the end, weifila or random forests are recommended instead of lmg-Shapley knowing that the benefit of structural and conceptual models should not be underestimated.Keywords :Linear regression, Variable Importance, Shapley Value, Random Forests, Bayesian Networks
APA, Harvard, Vancouver, ISO, and other styles
35

Taillardat, Maxime. "Méthodes Non-Paramétriques de Post-Traitement des Prévisions d'Ensemble." Thesis, Université Paris-Saclay (ComUE), 2017. http://www.theses.fr/2017SACLV072/document.

Full text
Abstract:
En prévision numérique du temps, les modèles de prévision d'ensemble sont devenus un outil incontournable pour quantifier l'incertitude des prévisions et fournir des prévisions probabilistes. Malheureusement, ces modèles ne sont pas parfaits et une correction simultanée de leur biais et de leur dispersion est nécessaire.Cette thèse présente de nouvelles méthodes de post-traitement statistique des prévisions d'ensemble. Celles-ci ont pour particularité d'être basées sur les forêts aléatoires.Contrairement à la plupart des techniques usuelles, ces méthodes non-paramétriques permettent de prendre en compte la dynamique non-linéaire de l'atmosphère.Elles permettent aussi d'ajouter des covariables (autres variables météorologiques, variables temporelles, géographiques...) facilement et sélectionnent elles-mêmes les prédicteurs les plus utiles dans la régression. De plus, nous ne faisons aucune hypothèse sur la distribution de la variable à traiter. Cette nouvelle approche surpasse les méthodes existantes pour des variables telles que la température et la vitesse du vent.Pour des variables reconnues comme difficiles à calibrer, telles que les précipitations sexti-horaires, des versions hybrides de nos techniques ont été créées. Nous montrons que ces versions hybrides (ainsi que nos versions originales) sont meilleures que les méthodes existantes. Elles amènent notamment une véritable valeur ajoutée pour les pluies extrêmes.La dernière partie de cette thèse concerne l'évaluation des prévisions d'ensemble pour les événements extrêmes. Nous avons montré quelques propriétés concernant le Continuous Ranked Probability Score (CRPS) pour les valeurs extrêmes. Nous avons aussi défini une nouvelle mesure combinant le CRPS et la théorie des valeurs extrêmes, dont nous examinons la cohérence sur une simulation ainsi que dans un cadre opérationnel.Les résultats de ce travail sont destinés à être insérés au sein de la chaîne de prévision et de vérification à Météo-France
In numerical weather prediction, ensemble forecasts systems have become an essential tool to quantifyforecast uncertainty and to provide probabilistic forecasts. Unfortunately, these models are not perfect and a simultaneouscorrection of their bias and their dispersion is needed.This thesis presents new statistical post-processing methods for ensemble forecasting. These are based onrandom forests algorithms, which are non-parametric.Contrary to state of the art procedures, random forests can take into account non-linear features of atmospheric states. They easily allowthe addition of covariables (such as other weather variables, seasonal or geographic predictors) by a self-selection of the mostuseful predictors for the regression. Moreover, we do not make assumptions on the distribution of the variable of interest. This new approachoutperforms the existing methods for variables such as surface temperature and wind speed.For variables well-known to be tricky to calibrate, such as six-hours accumulated rainfall, hybrid versions of our techniqueshave been created. We show that these versions (and our original methods) are better than existing ones. Especially, they provideadded value for extreme precipitations.The last part of this thesis deals with the verification of ensemble forecasts for extreme events. We have shown several properties ofthe Continuous Ranked Probability Score (CRPS) for extreme values. We have also defined a new index combining the CRPS and the extremevalue theory, whose consistency is investigated on both simulations and real cases.The contributions of this work are intended to be inserted into the forecasting and verification chain at Météo-France
APA, Harvard, Vancouver, ISO, and other styles
36

Duroux, Roxane. "Inférence pour les modèles statistiques mal spécifiés, application à une étude sur les facteurs pronostiques dans le cancer du sein." Thesis, Paris 6, 2016. http://www.theses.fr/2016PA066224/document.

Full text
Abstract:
Cette thèse est consacrée à l'inférence de certains modèles statistiques mal spécifiés. Chaque résultat obtenu trouve son application dans une étude sur les facteurs pronostiques dans le cancer du sein, grâce à des données collectées par l'Institut Curie. Dans un premier temps, nous nous intéressons au modèle à risques non proportionnels, et exploitons la connaissance de la survie marginale du temps de décès. Ce modèle autorise la variation dans le temps du coefficient de régression, généralisant ainsi le modèle à hasards proportionnels. Dans un deuxième temps, nous étudions un modèle à hasards non proportionnels ayant un coefficient de régression constant par morceaux. Nous proposons une méthode d'inférence pour un modèle à un unique point de rupture, et une méthode d'estimation pour un modèle à plusieurs points de rupture. Dans un troisième temps, nous étudions l'influence du sous-échantillonnage sur la performance des forêts médianes et essayons de généraliser les résultats obtenus aux forêts aléatoires de survie à travers une application. Enfin, nous présentons un travail indépendant où nous développons une nouvelle méthode de recherche de doses, dans le cadre des essais cliniques de phase I à ordre partiel
The thesis focuses on inference of statistical misspecified models. Every result finds its application in a prognostic factors study for breast cancer, thanks to the data collection of Institut Curie. We consider first non-proportional hazards models, and make use of the marginal survival of the failure time. This model allows a time-varying regression coefficient, and therefore generalizes the proportional hazards model. On a second time, we study step regression models. We propose an inference method for the changepoint of a two-step regression model, and an estimation method for a multiple-step regression model. Then, we study the influence of the subsampling rate on the performance of median forests and try to extend the results to random survival forests through an application. Finally, we present a new dose-finding method for phase I clinical trials, in case of partial ordering
APA, Harvard, Vancouver, ISO, and other styles
37

Elghazel, Wiem. "Wireless sensor networks for Industrial health assessment based on a random forest approach." Thesis, Besançon, 2015. http://www.theses.fr/2015BESA2055/document.

Full text
Abstract:
Une maintenance prédictive efficace se base essentiellement sur la fiabilité des données de surveillance.Dans certains cas, la surveillance des systèmes industriels ne peut pas être assurée à l’aide de capteurs individuels ou filaires. Les Réseaux de Capteurs Sans Fil (RCSF) sont alors une alternative. Vu la nature de communication dans ces réseaux, la perte de données est très probable. Nous proposons un algorithme distribué pour la survie des données dans le réseau. Cet algorithme réduit le risque d’une perte totale des paquets de données et assure la continuité du fonctionnement du réseau. Nous avons aussi simulé de différentes topologies du réseau pour évaluer leur impact sur la complétude des données au niveau du nœud puits. Par la suite, nous avons proposé une démarche d’évaluation de l’état de santé de systèmes physiques basée sur l’algorithme des forêts aléatoires. Cette démarche repose sur deux phases : une phase hors ligne et une phase en ligne. Dans la phase hors ligne, l’algorithme des forêts aléatoires sélectionne les paramètres qui contiennent le plus d’information sur l’état du système. Ces paramètres sont utilisés pour construire les arbres décisionnels qui constituent la forêt. Dans la phase en ligne, l’algorithme évalue l’état actuel du système en utilisant les données capteurs pour parcourir les arbres construits. Chaque arbre dans la forêt fournit une décision, et la classe finale est le résultat d’un vote majoritaire sur l’ensemble de la forêt. Quand les capteurs commencent à tomber en panne, les données décrivant un indicateur de santé deviennent incomplètes ou perdues. En injectant de l’aléatoire dans la base d’apprentissage, l’algorithme aura des points de départ différents, et par la suite les arbres aussi. Ainsi, l’absence des mesures d’un indicateur de santé ne conduit pas nécessairement à l’interruption du processus de prédiction de l’état de santé
An efficient predictive maintenance is based on the reliability of the monitoring data. In some cases, themonitoring activity cannot be ensured with individual or wired sensors. Wireless sensor networks (WSN) arethen an alternative. Considering the wireless communication, data loss becomes highly probable. Therefore,we study certain aspects of WSN reliability. We propose a distributed algorithm for network resiliency and datasurvival while optimizing energy consumption. This fault tolerant algorithm reduces the risks of data loss andensures the continuity of data transfer. We also simulated different network topologies in order to evaluate theirimpact on data completeness at the sink level. Thereafter, we propose an approach to evaluate the system’sstate of health using the random forests algorithm. In an offline phase, the random forest algorithm selects theparameters holding more information about the system’s health state. These parameters are used to constructthe decision trees that make the forest. By injecting the random aspect in the training set, the algorithm (thetrees) will have different starting points. In an online phase, the algorithm evaluates the current health stateusing the sensor data. Each tree will provide a decision, and the final class is the result of the majority voteof all trees. When sensors start to break down, the data describing a health indicator becomes incompleteor unavailable. Considering that the trees have different starting points, the absence of some data will notnecessarily result in the interruption of the prediction process
APA, Harvard, Vancouver, ISO, and other styles
38

Wallard, Henri. "Analyse des leviers : effets de colinéarité et hiérarchisation des impacts dans les études de marché et sociales." Electronic Thesis or Diss., Paris, CNAM, 2015. http://www.theses.fr/2015CNAM1019.

Full text
Abstract:
La colinéarité rend difficile l’utilisation de la régression linéaire pour estimer l’importance des variables dans les études de marché. D’autres approches ont donc été utilisées.Concernant la décomposition de la variance expliquée, une démonstration de l’égalité entre les méthodes lmg-Shapley et celle de Johnson avec deux prédicteurs est proposée. Il a aussi été montré que la méthode de Fabbris est différente des méthodes de Genizi et Johnson et que les CAR scores de deux prédicteurs ne s’égalisent pas lorsque leur corrélation tend vers 1.Une méthode nouvelle, weifila (weighted first last) a été définie et publiée en 2015.L’estimation de l’importance des variables avec les forêts aléatoires a également été analysée et les résultats montrent une bonne prise en compte des non-linéarités.Avec les réseaux bayésiens, la multiplicité des solutions et le recours à des restrictions et choix d’expert militent pour utilisation prudente même si les outils disponibles permettent une aide dans le choix des modèles.Le recours à weifila ou aux forêts aléatoires est recommandé plutôt que lmg-Shapley sans négliger les approches structurelles et les modèles conceptuels.Mots clés :régression, décomposition de la variance, importance, valeur de Shapley, forêts aléatoires, réseaux bayésiens
AbstractLinear regression is used in Market Research but faces difficulties due to multicollinearity. Other methods have been considered.A demonstration of the equality between lmg-Shapley and and Johnson methods for Variance Decomposition has been proposed. Also this research has shown that the decomposition proposed by Fabbris is not identical to those proposed by Genizi and Johnson, and that the CAR scores of two predictors do not equalize when their correlation tends towards 1. A new method, weifila (weighted first last) has been proposed and published in 2015.Also we have shown that permutation importance using Random Forest enables to take into account non linear relationships and deserves broader usage in Marketing Research.Regarding Bayesian Networks, there are multiple solutions available and expert driven restrictions and decisions support the recommendation to be careful in their usage and presentation, even if they allow to explore possible structures and make simulations.In the end, weifila or random forests are recommended instead of lmg-Shapley knowing that the benefit of structural and conceptual models should not be underestimated.Keywords :Linear regression, Variable Importance, Shapley Value, Random Forests, Bayesian Networks
APA, Harvard, Vancouver, ISO, and other styles
39

Duhalde, Jean-Pierre. "Sur des propriétés fractales et trajectorielles de processus de branchement continus." Thesis, Paris 6, 2015. http://www.theses.fr/2015PA066029/document.

Full text
Abstract:
Cette thèse étudie certaines propriétés fractales et trajectorielles de processus de branchement en temps et espace continus. De façon informelle, ce type de processus est obtenu en considérant l'évolution d'une population où les individus se reproduisent et meurent au cours du temps, et ce de manière aléatoire. Le premier chapitre concerne la classe des processus de branchement avec immigration. On donne une formule semi-explicite pour la transformée de Laplace des temps d'atteinte ainsi qu'une condition nécessaire et suffisante de récurrence-transience. Ces deux résultats illustrent la compétition branchement/immigration. Le second chapitre considère l'arbre Brownien et ses mesures de temps local, dites mesures de niveau. On montre que celles-ci s'obtiennent comme restriction, à une constante près explicitée, d'une certaine mesure de Hausdorff sur l'arbre. Le résultat est montré simultanément pour tous niveaux. Le troisième chapitre étudie le Super-mouvement Brownien associé à un mécanisme de branchement général. Sa mesure d'occupation totale est obtenue comme restriction d'une certaine mesure de packing dans l'espace euclidien. Le résultat est valable en grande dimension. La condition sur la dimension de l'espace ambiant est discutée à travers le calcul, sous des hypothèse de régularité faibles pour le mécanisme de branchement, de la dimension de packing du range total du processus
This thesis investigates some fractal and pathwise properties of branching processes with continuous time and state-space. Informally, this kind of process can be described by considering the evolution of a population where individuals reproduce and die over time, randomly. The first chapter deals with the class of continuous branching processes with immigration. We provide a semi-explicit formula for the hitting times and a necessary and sufficient condition for the process to be recurrent or transient. Those two results illustrate the competition between branching and immigration. The second chapter deals with the Brownian tree and its local time measures : the level-sets measures. We show that they can be obtained as the restriction, with an explicit multiplicative constant, of a Hausdorff measure on the tree. The result holds uniformly for all levels. The third chapter study the Super-Brownian motion associated with a general branching mechanism. Its total occupation measure is obtained as the restriction to the total range, of a given packing measure on the euclidean space. The result is valid for large dimensions. The condition on the dimension is discussed by computing the packing dimension of the total range. This is done under a weak assumption on the regularity of the branching mechanism
APA, Harvard, Vancouver, ISO, and other styles
40

Geremia, Ezequiel. "Spatial random forests for brain lesions segmentation in MRIs and model-based tumor cell extrapolation." Phd thesis, Université Nice Sophia Antipolis, 2013. http://tel.archives-ouvertes.fr/tel-00838795.

Full text
Abstract:
The large size of the datasets produced by medical imaging protocols contributes to the success of supervised discriminative methods for semantic labelling of images. Our study makes use of a general and efficient emerging framework, discriminative random forests, for the detection of brain lesions in multi-modal magnetic resonance images (MRIs). The contribution is three-fold. First, we focus on segmentation of brain lesions which is an essential task to diagnosis, prognosis and therapy planning. A context-aware random forest is designed for the automatic multi-class segmentation of MS lesions, low grade and high grade gliomas in MR images. It uses multi-channel MRIs, prior knowledge on tissue classes, symmetrical and long-range spatial context to discriminate lesions from background. Then, we investigate the promising perspective of estimating the brain tumor cell density from MRIs. A generative-discriminative framework is presented to learn the latent and clinically unavailable tumor cell density from model-based estimations associated with synthetic MRIs. The generative model is a validated and publicly available biophysiological tumor growth simulator. The discriminative model builds on multi-variate regression random forests to estimate the voxel-wise distribution of tumor cell density from input MRIs. Finally, we present the "Spatially Adaptive Random Forests" which merge the benefits of multi-scale and random forest methods and apply it to previously cited classification and regression settings. Quantitative evaluation of the proposed methods are carried out on publicly available labeled datasets and demonstrate state of the art performance.
APA, Harvard, Vancouver, ISO, and other styles
41

Taillardat, Maxime. "Méthodes Non-Paramétriques de Post-Traitement des Prévisions d'Ensemble." Electronic Thesis or Diss., Université Paris-Saclay (ComUE), 2017. http://www.theses.fr/2017SACLV072.

Full text
Abstract:
En prévision numérique du temps, les modèles de prévision d'ensemble sont devenus un outil incontournable pour quantifier l'incertitude des prévisions et fournir des prévisions probabilistes. Malheureusement, ces modèles ne sont pas parfaits et une correction simultanée de leur biais et de leur dispersion est nécessaire.Cette thèse présente de nouvelles méthodes de post-traitement statistique des prévisions d'ensemble. Celles-ci ont pour particularité d'être basées sur les forêts aléatoires.Contrairement à la plupart des techniques usuelles, ces méthodes non-paramétriques permettent de prendre en compte la dynamique non-linéaire de l'atmosphère.Elles permettent aussi d'ajouter des covariables (autres variables météorologiques, variables temporelles, géographiques...) facilement et sélectionnent elles-mêmes les prédicteurs les plus utiles dans la régression. De plus, nous ne faisons aucune hypothèse sur la distribution de la variable à traiter. Cette nouvelle approche surpasse les méthodes existantes pour des variables telles que la température et la vitesse du vent.Pour des variables reconnues comme difficiles à calibrer, telles que les précipitations sexti-horaires, des versions hybrides de nos techniques ont été créées. Nous montrons que ces versions hybrides (ainsi que nos versions originales) sont meilleures que les méthodes existantes. Elles amènent notamment une véritable valeur ajoutée pour les pluies extrêmes.La dernière partie de cette thèse concerne l'évaluation des prévisions d'ensemble pour les événements extrêmes. Nous avons montré quelques propriétés concernant le Continuous Ranked Probability Score (CRPS) pour les valeurs extrêmes. Nous avons aussi défini une nouvelle mesure combinant le CRPS et la théorie des valeurs extrêmes, dont nous examinons la cohérence sur une simulation ainsi que dans un cadre opérationnel.Les résultats de ce travail sont destinés à être insérés au sein de la chaîne de prévision et de vérification à Météo-France
In numerical weather prediction, ensemble forecasts systems have become an essential tool to quantifyforecast uncertainty and to provide probabilistic forecasts. Unfortunately, these models are not perfect and a simultaneouscorrection of their bias and their dispersion is needed.This thesis presents new statistical post-processing methods for ensemble forecasting. These are based onrandom forests algorithms, which are non-parametric.Contrary to state of the art procedures, random forests can take into account non-linear features of atmospheric states. They easily allowthe addition of covariables (such as other weather variables, seasonal or geographic predictors) by a self-selection of the mostuseful predictors for the regression. Moreover, we do not make assumptions on the distribution of the variable of interest. This new approachoutperforms the existing methods for variables such as surface temperature and wind speed.For variables well-known to be tricky to calibrate, such as six-hours accumulated rainfall, hybrid versions of our techniqueshave been created. We show that these versions (and our original methods) are better than existing ones. Especially, they provideadded value for extreme precipitations.The last part of this thesis deals with the verification of ensemble forecasts for extreme events. We have shown several properties ofthe Continuous Ranked Probability Score (CRPS) for extreme values. We have also defined a new index combining the CRPS and the extremevalue theory, whose consistency is investigated on both simulations and real cases.The contributions of this work are intended to be inserted into the forecasting and verification chain at Météo-France
APA, Harvard, Vancouver, ISO, and other styles
42

De, Moliner Anne. "Estimation robuste de courbes de consommmation électrique moyennes par sondage pour de petits domaines en présence de valeurs manquantes." Thesis, Bourgogne Franche-Comté, 2017. http://www.theses.fr/2017UBFCK021/document.

Full text
Abstract:
Dans cette thèse, nous nous intéressons à l'estimation robuste de courbes moyennes ou totales de consommation électrique par sondage en population finie, pour l'ensemble de la population ainsi que pour des petites sous-populations, en présence ou non de courbes partiellement inobservées.En effet, de nombreuses études réalisées dans le groupe EDF, que ce soit dans une optique commerciale ou de gestion du réseau de distribution par Enedis, se basent sur l'analyse de courbes de consommation électrique moyennes ou totales, pour différents groupes de clients partageant des caractéristiques communes. L'ensemble des consommations électriques de chacun des 35 millions de clients résidentiels et professionnels Français ne pouvant être mesurées pour des raisons de coût et de protection de la vie privée, ces courbes de consommation moyennes sont estimées par sondage à partir de panels. Nous prolongeons les travaux de Lardin (2012) sur l'estimation de courbes moyennes par sondage en nous intéressant à des aspects spécifiques de cette problématique, à savoir l'estimation robuste aux unités influentes, l'estimation sur des petits domaines, et l'estimation en présence de courbes partiellement ou totalement inobservées.Pour proposer des estimateurs robustes de courbes moyennes, nous adaptons au cadre fonctionnel l'approche unifiée d'estimation robuste en sondages basée sur le biais conditionnel proposée par Beaumont (2013). Pour cela, nous proposons et comparons sur des jeux de données réelles trois approches : l'application des méthodes usuelles sur les courbes discrétisées, la projection sur des bases de dimension finie (Ondelettes ou Composantes Principales de l'Analyse en Composantes Principales Sphériques Fonctionnelle en particulier) et la troncature fonctionnelle des biais conditionnels basée sur la notion de profondeur d'une courbe dans un jeu de données fonctionnelles. Des estimateurs d'erreur quadratique moyenne instantanée, explicites et par bootstrap, sont également proposés.Nous traitons ensuite la problématique de l'estimation sur de petites sous-populations. Dans ce cadre, nous proposons trois méthodes : les modèles linéaires mixtes au niveau unité appliqués sur les scores de l'Analyse en Composantes Principales ou les coefficients d'ondelettes, la régression fonctionnelle et enfin l'agrégation de prédictions de courbes individuelles réalisées à l'aide d'arbres de régression ou de forêts aléatoires pour une variable cible fonctionnelle. Des versions robustes de ces différents estimateurs sont ensuite proposées en déclinant la démarche d'estimation robuste basée sur les biais conditionnels proposée précédemment.Enfin, nous proposons quatre estimateurs de courbes moyennes en présence de courbes partiellement ou totalement inobservées. Le premier est un estimateur par repondération par lissage temporel non paramétrique adapté au contexte des sondages et de la non réponse et les suivants reposent sur des méthodes d'imputation. Les portions manquantes des courbes sont alors déterminées soit en utilisant l'estimateur par lissage précédemment cité, soit par imputation par les plus proches voisins adaptée au cadre fonctionnel ou enfin par une variante de l'interpolation linéaire permettant de prendre en compte le comportement moyen de l'ensemble des unités de l'échantillon. Des approximations de variance sont proposées dans chaque cas et l'ensemble des méthodes sont comparées sur des jeux de données réelles, pour des scénarios variés de valeurs manquantes
In this thesis, we address the problem of robust estimation of mean or total electricity consumption curves by sampling in a finite population for the entire population and for small areas. We are also interested in estimating mean curves by sampling in presence of partially missing trajectories.Indeed, many studies carried out in the French electricity company EDF, for marketing or power grid management purposes, are based on the analysis of mean or total electricity consumption curves at a fine time scale, for different groups of clients sharing some common characteristics.Because of privacy issues and financial costs, it is not possible to measure the electricity consumption curve of each customer so these mean curves are estimated using samples. In this thesis, we extend the work of Lardin (2012) on mean curve estimation by sampling by focusing on specific aspects of this problem such as robustness to influential units, small area estimation and estimation in presence of partially or totally unobserved curves.In order to build robust estimators of mean curves we adapt the unified approach to robust estimation in finite population proposed by Beaumont et al (2013) to the context of functional data. To that purpose we propose three approaches : application of the usual method for real variables on discretised curves, projection on Functional Spherical Principal Components or on a Wavelets basis and thirdly functional truncation of conditional biases based on the notion of depth.These methods are tested and compared to each other on real datasets and Mean Squared Error estimators are also proposed.Secondly we address the problem of small area estimation for functional means or totals. We introduce three methods: unit level linear mixed model applied on the scores of functional principal components analysis or on wavelets coefficients, functional regression and aggregation of individual curves predictions by functional regression trees or functional random forests. Robust versions of these estimators are then proposed by following the approach to robust estimation based on conditional biais presented before.Finally, we suggest four estimators of mean curves by sampling in presence of partially or totally unobserved trajectories. The first estimator is a reweighting estimator where the weights are determined using a temporal non parametric kernel smoothing adapted to the context of finite population and missing data and the other ones rely on imputation of missing data. Missing parts of the curves are determined either by using the smoothing estimator presented before, or by nearest neighbours imputation adapted to functional data or by a variant of linear interpolation which takes into account the mean trajectory of the entire sample. Variance approximations are proposed for each method and all the estimators are compared to each other on real datasets for various missing data scenarios
APA, Harvard, Vancouver, ISO, and other styles
43

Chaibou, Salaou Mahaman Sani. "Segmentation d'image par intégration itérative de connaissances." Thesis, Ecole nationale supérieure Mines-Télécom Atlantique Bretagne Pays de la Loire, 2019. http://www.theses.fr/2019IMTA0140.

Full text
Abstract:
Le traitement d’images est un axe de recherche très actif depuis des années. L’interprétation des images constitue une de ses branches les plus importantes de par ses applications socio-économiques et scientifiques. Cependant cette interprétation, comme la plupart des processus de traitements d’images, nécessite une phase de segmentation pour délimiter les régions à analyser. En fait l’interprétation est un traitement qui permet de donner un sens aux régions détectées par la phase de segmentation. Ainsi, la phase d’interprétation ne pourra analyser que les régions détectées lors de la segmentation. Bien que l’objectif de l’interprétation automatique soit d’avoir le même résultat qu’une interprétation humaine, la logique des techniques classiques de ce domaine ne marie pas celle de l’interprétation humaine. La majorité des approches classiques d’interprétation d’images séparent la phase de segmentation et celle de l’interprétation. Les images sont d’abord segmentées puis les régions détectées sont interprétées. En plus, au niveau de la segmentation les techniques classiques parcourent les images de manière séquentielle, dans l’ordre de stockage des pixels. Ce parcours ne reflète pas nécessairement le parcours de l’expert humain lors de son exploration de l’image. En effet ce dernier commence le plus souvent par balayer l’image à la recherche d’éventuelles zones d’intérêts. Dans le cas échéant, il analyse les zones potentielles sous trois niveaux de vue pour essayer de reconnaitre de quel objet s’agit-il. Premièrement, il analyse la zone en se basant sur ses caractéristiques physiques. Ensuite il considère les zones avoisinantes de celle-ci et enfin il zoome sur toute l’image afin d’avoir une vue complète tout en considérant les informations locales à la zone et celles de ses voisines. Pendant son exploration, l’expert, en plus des informations directement obtenues sur les caractéristiques physiques de l’image, fait appel à plusieurs sources d’informations qu’il fusionne pour interpréter l’image. Ces sources peuvent inclure les connaissent acquises grâce à son expérience professionnelle, les contraintes existantes entre les objets de ce type d’images, etc. L’idée de l’approche présentée ici est que simuler l’activité visuelle de l’expert permettrait une meilleure compatibilité entre les résultats de l’interprétation et ceux de l’expert. Ainsi nous retenons de cette analyse trois aspects importants du processus d’interprétation d’image que nous allons modéliser dans l’approche proposée dans ce travail : 1. Le processus de segmentation n’est pas nécessairement séquentiel comme la plus part des techniques de segmentations qu’on rencontre, mais plutôt une suite de décisions pouvant remettre en cause leurs prédécesseurs. L’essentiel étant à la fin d’avoir la meilleure classification des régions. L’interprétation ne doit pas être limitée par la segmentation. 2. Le processus de caractérisation d’une zone d’intérêt n’est pas strictement monotone i.e. que l’expert peut aller d’une vue centrée sur la zone à vue plus large incluant ses voisines pour ensuite retourner vers la vue contenant uniquement la zone et vice-versa. 3. Lors de la décision plusieurs sources d’informations sont sollicitées et fusionnées pour une meilleure certitude. La modélisation proposée de ces trois niveaux met particulièrement l’accent sur les connaissances utilisées et le raisonnement qui mène à la segmentation des images
Image processing has been a very active area of research for years. The interpretation of images is one of its most important branches because of its socio-economic and scientific applications. However, the interpretation, like most image processing processes, requires a segmentation phase to delimit the regions to be analyzed. In fact, interpretation is a process that gives meaning to the regions detected by the segmentation phase. Thus, the interpretation phase can only analyze the regions detected during the segmentation. Although the ultimate objective of automatic interpretation is to produce the same result as a human, the logic of classical techniques in this field does not marry that of human interpretation. Most conventional approaches to this task separate the segmentation phase from the interpretation phase. The images are first segmented and then the detected regions are interpreted. In addition, conventional techniques of segmentation scan images sequentially, in the order of pixels appearance. This way does not necessarily reflect the way of the expert during the image exploration. Indeed, a human usually starts by scanning the image for possible region of interest. When he finds a potential area, he analyzes it under three view points trying to recognize what object it is. First, he analyzes the area based on its physical characteristics. Then he considers the region's surrounding areas and finally he zooms in on the whole image in order to have a wider view while considering the information local to the region and those of its neighbors. In addition to information directly gathered from the physical characteristics of the image, the expert uses several sources of information that he merges to interpret the image. These sources include knowledge acquired through professional experience, existing constraints between objects from the images, and so on.The idea of the proposed approach, in this manuscript, is that simulating the visual activity of the expert would allow a better compatibility between the results of the interpretation and those ofthe expert. We retain from the analysis of the expert's behavior three important aspects of the image interpretation process that we will model in this work: 1. Unlike what most of the segmentation techniques suggest, the segmentation process is not necessarily sequential, but rather a series of decisions that each one may question the results of its predecessors. The main objective is to produce the best possible regions classification. 2. The process of characterizing an area of interest is not a one way process i.e. the expert can go from a local view restricted to the region of interest to a wider view of the area, including its neighbors and vice versa. 3. Several information sources are gathered and merged for a better certainty, during the decision of region characterisation. The proposed model of these three levels places particular emphasis on the knowledge used and the reasoning behind image segmentation
APA, Harvard, Vancouver, ISO, and other styles
44

Fouemkeu, Norbert. "Modélisation de l’incertitude sur les trajectoires d’avions." Thesis, Lyon 1, 2010. http://www.theses.fr/2010LYO10217/document.

Full text
Abstract:
Dans cette thèse, nous proposons des modèles probabilistes et statistiques d’analyse de données multidimensionnelles pour la prévision de l’incertitude sur les trajectoires d’aéronefs. En supposant que pendant le vol, chaque aéronef suit sa trajectoire 3D contenue dans son plan de vol déposé, nous avons utilisé l’ensemble des caractéristiques de l’environnement des vols comme variables indépendantes pour expliquer l’heure de passage des aéronefs sur les points de leur trajectoire de vol prévue. Ces caractéristiques sont : les conditions météorologiques et atmosphériques, les paramètres courants des vols, les informations contenues dans les plans de vol déposés et la complexité de trafic. Typiquement, la variable dépendante dans cette étude est la différence entre les instants observés pendant le vol et les instants prévus dans les plans de vol pour le passage des aéronefs sur les points de leur trajectoire prévue : c’est la variable écart temporel. En utilisant une technique basée sur le partitionnement récursif d’un échantillon des données, nous avons construit quatre modèles. Le premier modèle que nous avons appelé CART classique est basé sur le principe de la méthode CART de Breiman. Ici, nous utilisons un arbre de régression pour construire une typologie des points des trajectoires des vols en fonction des caractéristiques précédentes et de prévoir les instants de passage des aéronefs sur ces points. Le second modèle appelé CART modifié est une version améliorée du modèle précédent. Ce dernier est construit en remplaçant les prévisions calculées par l’estimation de la moyenne de la variable dépendante dans les nœuds terminaux du modèle CART classique par des nouvelles prévisions données par des régressions multiples à l’intérieur de ces nœuds. Ce nouveau modèle développé en utilisant l’algorithme de sélection et d’élimination des variables explicatives (Stepwise) est parcimonieux. En effet, pour chaque nœud terminal, il permet d’expliquer le temps de vol par des variables indépendantes les plus pertinentes pour ce nœud. Le troisième modèle est fondé sur la méthode MARS, modèle de régression multiple par les splines adaptatives. Outre la continuité de l’estimateur de la variable dépendante, ce modèle permet d’évaluer les effets directs des prédicteurs et de ceux de leurs interactions sur le temps de passage des aéronefs sur les points de leur trajectoire de vol prévue. Le quatrième modèle utilise la méthode d’échantillonnage bootstrap. Il s’agit notamment des forêts aléatoires où pour chaque échantillon bootstrap de l’échantillon de données initial, un modèle d’arbre de régression est construit, et la prévision du modèle général est obtenue par une agrégation des prévisions sur l’ensemble de ces arbres. Malgré le surapprentissage observé sur ce modèle, il est robuste et constitue une solution au problème d’instabilité des arbres de régression propre à la méthode CART. Les modèles ainsi construits ont été évalués et validés en utilisant les données test. Leur application au calcul des prévisions de la charge secteur en nombre d’avions entrants a montré qu’un horizon de prévision d’environ 20 minutes pour une fenêtre de temps supérieure à 20 minutes permettait d’obtenir les prévisions avec des erreurs relatives inférieures à 10%. Parmi ces modèles, CART classique et les forêts aléatoires présentaient de meilleures performances. Ainsi, pour l’autorité régulatrice des courants de trafic aérien, ces modèles constituent un outil d’aide pour la régulation et la planification de la charge des secteurs de l’espace aérien contrôlé
In this thesis we propose probabilistic and statistic models based on multidimensional data for forecasting uncertainty on aircraft trajectories. Assuming that during the flight, aircraft follows his 3D trajectory contained into his initial flight plan, we used all characteristics of flight environment as predictors to explain the crossing time of aircraft at given points on their planned trajectory. These characteristics are: weather and atmospheric conditions, flight current parameters, information contained into the flight plans and the air traffic complexity. Typically, in this study, the dependent variable is difference between actual time observed during flight and planned time to cross trajectory planned points: this variable is called temporal difference. We built four models using method based on partitioning recursive of the sample. The first called classical CART is based on Breiman CART method. Here, we use regression trees to build points typology of aircraft trajectories based on previous characteristics and to forecast crossing time of aircrafts on these points. The second model called amended CART is the previous model improved. This latter is built by replacing forecasting estimated by the mean of dependent variable inside the terminal nodes of classical CART by new forecasting given by multiple regression inside these nodes. This new model developed using Stepwise algorithm is parcimonious because for each terminal node it permits to explain the flight time by the most relevant predictors inside the node. The third model is built based on MARS (Multivariate adaptive regression splines) method. Besides continuity of the dependent variable estimator, this model allows to assess the direct and interaction effects of the explanatory variables on the crossing time on flight trajectory points. The fourth model uses boostrap sampling method. It’s random forests where for each bootstrap sample from the initial data, a tree regression model is built like in CART method. The general model forecasting is obtained by aggregating forecasting on the set of trees. Despite the overfitting observed on this model, it is robust and constitutes a solution against instability problem concerning regression trees obtained from CART method. The models we built have been assessed and validated using data test. Their using to compute the sector load forecasting in term to aircraft count entering the sector shown that, the forecast time horizon about 20 minutes with the interval time larger than 20 minutes, allowed to obtain forecasting with relative errors less than 10%. Among all these models, classical CART and random forests are more powerful. Hence, for regulator authority these models can be a very good help for managing the sector load of the airspace controlled
APA, Harvard, Vancouver, ISO, and other styles
45

Desir, Chesner. "Classification Automatique d'Images, Application à l'Imagerie du Poumon Profond." Phd thesis, Université de Rouen, 2013. http://tel.archives-ouvertes.fr/tel-00879356.

Full text
Abstract:
Cette thèse porte sur la classification automatique d'images, appliquée aux images acquises par alvéoscopie, une nouvelle technique d'imagerie du poumon profond. L'objectif est la conception et le développement d'un système d'aide au diagnostic permettant d'aider le praticien à analyser ces images jamais vues auparavant. Nous avons élaboré, au travers de deux contributions, des méthodes performantes, génériques et robustes permettant de classer de façon satisfaisante les images de patients sains et pathologiques. Nous avons proposé un premier système complet de classification basé à la fois sur une caractérisation locale et riche du contenu des images, une approche de classification par méthodes d'ensemble d'arbres aléatoires et un mécanisme de pilotage du rejet de décision, fournissant à l'expert médical un moyen de renforcer la fiabilité du système. Face à la complexité des images alvéoscopiques et la difficulté de caractériser les cas pathologiques, contrairement aux cas sains, nous nous sommes orientés vers la classification one-class qui permet d'apprendre à partir des seules données des cas sains. Nous avons alors proposé une approche one-class tirant partie des mécanismes de combinaison et d'injection d'aléatoire des méthodes d'ensemble d'arbres de décision pour répondre aux difficultés rencontrées dans les approches standards, notamment la malédiction de la dimension. Les résultats obtenus montrent que notre méthode est performante, robuste à la dimension, compétitive et même meilleure comparée aux méthodes de l'état de l'art sur une grande variété de bases publiques. Elle s'est notamment avérée pertinente pour notre problématique médicale.
APA, Harvard, Vancouver, ISO, and other styles
46

Desir, Chesner. "Classification automatique d'images, application à l'imagerie du poumon profond." Phd thesis, Rouen, 2013. http://www.theses.fr/2013ROUES053.

Full text
Abstract:
Cette thèse porte sur la classification automatique d’images, appliquée aux images acquises par alvéoscopie, une nouvelle technique d’imagerie du poumon profond. L’objectif est la conception et le développement d’un système d’aide au diagnostic permettant d’aider le praticien à analyser ces images jamais vues auparavant. Nous avons élaboré, au travers de deux contributions, des méthodes performantes, génériques et robustes permettant de classer de façon satisfaisante les images de patients sains et pathologiques. Nous avons proposé un premier système complet de classification basé à la fois sur une caractérisation locale et riche du contenu des images, une approche de classification par méthodes d’ensemble d’arbres aléatoires et un mécanisme de pilotage du rejet de décision, fournissant à l’expert médical un moyen de renforcer la fiabilité du système. Face à la complexité des images alvéoscopiques et la difficulté de caractériser les cas pathologiques, contrairement aux cas sains, nous nous sommes orientés vers la classification oneclass qui permet d’apprendre à partir des seules données des cas sains. Nous avons alors proposé une approche one-class tirant partie des mécanismes de combinaison et d’injection d’aléatoire des méthodes d’ensemble d’arbres de décision pour répondre aux difficultés rencontrées dans les approches standards, notamment la malédiction de la dimension. Les résultats obtenus montrent que notre méthode est performante, robuste à la dimension, compétitive et même meilleure comparée aux méthodes de l’état de l’art sur une grande variété de bases publiques. Elle s’est notamment avérée pertinente pour notre problématique médicale
This thesis deals with automated image classification, applied to images acquired with alveoscopy, a new imaging technique of the distal lung. The aim is to propose and develop a computer aided-diagnosis system, so as to help the clinician analyze these images never seen before. Our contributions lie in the development of effective, robust and generic methods to classify images of healthy and pathological patients. Our first classification system is based on a rich and local characterization of the images, an ensemble of random trees approach for classification and a rejection mechanism, providing the medical expert with tools to enhance the reliability of the system. Due to the complexity of alveoscopy images and to the lack of expertize on the pathological cases (unlike healthy cases), we adopt the one-class learning paradigm which allows to learn a classifier from healthy data only. We propose a one-class approach taking advantage of combining and randomization mechanisms of ensemble methods to respond to common issues such as the curse of dimensionality. Our method is shown to be effective, robust to the dimension, competitive and even better than state-of-the-art methods on various public datasets. It has proved to be particularly relevant to our medical problem
APA, Harvard, Vancouver, ISO, and other styles
47

Cabrol, Sébastien. "Les crises économiques et financières et les facteurs favorisant leur occurrence." Thesis, Paris 9, 2013. http://www.theses.fr/2013PA090019.

Full text
Abstract:
Cette étude vise à mettre en lumière les différences et similarités existant entre les principales crises économiques et financières ayant frappé un échantillon de 21 pays avancés depuis 1981. Nous analyserons plus particulièrement la crise des subprimes que nous rapprocherons avec des épisodes antérieurs. Nous étudierons à la fois les années du déclenchement des turbulences (analyse typologique) ainsi que celles les précédant (prévision). Cette analyse sera fondée sur l’utilisation de la méthode CART (Classification And Regression Trees). Cette technique non linéaire et non paramétrique permet de prendre en compte les effets de seuil et les interactions entre variables explicatives de façon à révéler plusieurs contextes distincts explicatifs d’un même événement. Dans le cadre d‘un modèle de prévision, l’analyse des années précédant les crises nous indique que les variables à surveiller sont : la variation et la volatilité du cours de l’once d’or, le déficit du compte courant en pourcentage du PIB et la variation de l’openness ratio et enfin la variation et la volatilité du taux de change. Dans le cadre de l’analyse typologique, l’étude des différentes variétés de crise (année du déclenchement de la crise) nous permettra d’identifier deux principaux types de turbulence d’un point de vue empirique. En premier lieu, nous retiendrons les crises globales caractérisées par un fort ralentissement ou une baisse de l’activité aux Etats-Unis et une faible croissance du PIB dans les pays touchés. D’autre part, nous mettrons en évidence des crises idiosyncratiques propres à un pays donné et caractérisées par une inflation et une volatilité du taux de change élevées
The aim of this thesis is to analyze, from an empirical point of view, both the different varieties of economic and financial crises (typological analysis) and the context’s characteristics, which could be associated with a likely occurrence of such events. Consequently, we analyze both: years seeing a crisis occurring and years preceding such events (leading contexts analysis, forecasting). This study contributes to the empirical literature by focusing exclusively on the crises in advanced economies over the last 30 years, by considering several theoretical types of crises and by taking into account a large number of both economic and financial explanatory variables. As part of this research, we also analyze stylized facts related to the 2007/2008 subprimes turmoil and our ability to foresee crises from an epistemological perspective. Our empirical results are based on the use of binary classification trees through CART (Classification And Regression Trees) methodology. This nonparametric and nonlinear statistical technique allows us to manage large data set and is suitable to identify threshold effects and complex interactions among variables. Furthermore, this methodology leads to characterize crises (or context preceding a crisis) by several distinct sets of independent variables. Thus, we identify as leading indicators of economic and financial crises: variation and volatility of both gold prices and nominal exchange rates, as well as current account balance (as % of GDP) and change in openness ratio. Regarding the typological analysis, we figure out two main different empirical varieties of crises. First, we highlight « global type » crises characterized by a slowdown in US economic activity (stressing the role and influence of the USA in global economic conditions) and low GDP growth in the countries affected by the turmoil. Second, we find that country-specific high level of both inflation and exchange rates volatility could be considered as evidence of « idiosyncratic type » crises
APA, Harvard, Vancouver, ISO, and other styles
48

Chaibou, salaou Mahaman Sani. "Segmentation d'image par intégration itérative de connaissances." Thesis, 2019. http://www.theses.fr/2019IMTA0140/document.

Full text
Abstract:
Le traitement d’images est un axe de recherche très actif depuis des années. L’interprétation des images constitue une de ses branches les plus importantes de par ses applications socio-économiques et scientifiques. Cependant cette interprétation, comme la plupart des processus de traitements d’images, nécessite une phase de segmentation pour délimiter les régions à analyser. En fait l’interprétation est un traitement qui permet de donner un sens aux régions détectées par la phase de segmentation. Ainsi, la phase d’interprétation ne pourra analyser que les régions détectées lors de la segmentation. Bien que l’objectif de l’interprétation automatique soit d’avoir le même résultat qu’une interprétation humaine, la logique des techniques classiques de ce domaine ne marie pas celle de l’interprétation humaine. La majorité des approches classiques d’interprétation d’images séparent la phase de segmentation et celle de l’interprétation. Les images sont d’abord segmentées puis les régions détectées sont interprétées. En plus, au niveau de la segmentation les techniques classiques parcourent les images de manière séquentielle, dans l’ordre de stockage des pixels. Ce parcours ne reflète pas nécessairement le parcours de l’expert humain lors de son exploration de l’image. En effet ce dernier commence le plus souvent par balayer l’image à la recherche d’éventuelles zones d’intérêts. Dans le cas échéant, il analyse les zones potentielles sous trois niveaux de vue pour essayer de reconnaitre de quel objet s’agit-il. Premièrement, il analyse la zone en se basant sur ses caractéristiques physiques. Ensuite il considère les zones avoisinantes de celle-ci et enfin il zoome sur toute l’image afin d’avoir une vue complète tout en considérant les informations locales à la zone et celles de ses voisines. Pendant son exploration, l’expert, en plus des informations directement obtenues sur les caractéristiques physiques de l’image, fait appel à plusieurs sources d’informations qu’il fusionne pour interpréter l’image. Ces sources peuvent inclure les connaissent acquises grâce à son expérience professionnelle, les contraintes existantes entre les objets de ce type d’images, etc. L’idée de l’approche présentée ici est que simuler l’activité visuelle de l’expert permettrait une meilleure compatibilité entre les résultats de l’interprétation et ceux de l’expert. Ainsi nous retenons de cette analyse trois aspects importants du processus d’interprétation d’image que nous allons modéliser dans l’approche proposée dans ce travail : 1. Le processus de segmentation n’est pas nécessairement séquentiel comme la plus part des techniques de segmentations qu’on rencontre, mais plutôt une suite de décisions pouvant remettre en cause leurs prédécesseurs. L’essentiel étant à la fin d’avoir la meilleure classification des régions. L’interprétation ne doit pas être limitée par la segmentation. 2. Le processus de caractérisation d’une zone d’intérêt n’est pas strictement monotone i.e. que l’expert peut aller d’une vue centrée sur la zone à vue plus large incluant ses voisines pour ensuite retourner vers la vue contenant uniquement la zone et vice-versa. 3. Lors de la décision plusieurs sources d’informations sont sollicitées et fusionnées pour une meilleure certitude. La modélisation proposée de ces trois niveaux met particulièrement l’accent sur les connaissances utilisées et le raisonnement qui mène à la segmentation des images
Image processing has been a very active area of research for years. The interpretation of images is one of its most important branches because of its socio-economic and scientific applications. However, the interpretation, like most image processing processes, requires a segmentation phase to delimit the regions to be analyzed. In fact, interpretation is a process that gives meaning to the regions detected by the segmentation phase. Thus, the interpretation phase can only analyze the regions detected during the segmentation. Although the ultimate objective of automatic interpretation is to produce the same result as a human, the logic of classical techniques in this field does not marry that of human interpretation. Most conventional approaches to this task separate the segmentation phase from the interpretation phase. The images are first segmented and then the detected regions are interpreted. In addition, conventional techniques of segmentation scan images sequentially, in the order of pixels appearance. This way does not necessarily reflect the way of the expert during the image exploration. Indeed, a human usually starts by scanning the image for possible region of interest. When he finds a potential area, he analyzes it under three view points trying to recognize what object it is. First, he analyzes the area based on its physical characteristics. Then he considers the region's surrounding areas and finally he zooms in on the whole image in order to have a wider view while considering the information local to the region and those of its neighbors. In addition to information directly gathered from the physical characteristics of the image, the expert uses several sources of information that he merges to interpret the image. These sources include knowledge acquired through professional experience, existing constraints between objects from the images, and so on.The idea of the proposed approach, in this manuscript, is that simulating the visual activity of the expert would allow a better compatibility between the results of the interpretation and those ofthe expert. We retain from the analysis of the expert's behavior three important aspects of the image interpretation process that we will model in this work: 1. Unlike what most of the segmentation techniques suggest, the segmentation process is not necessarily sequential, but rather a series of decisions that each one may question the results of its predecessors. The main objective is to produce the best possible regions classification. 2. The process of characterizing an area of interest is not a one way process i.e. the expert can go from a local view restricted to the region of interest to a wider view of the area, including its neighbors and vice versa. 3. Several information sources are gathered and merged for a better certainty, during the decision of region characterisation. The proposed model of these three levels places particular emphasis on the knowledge used and the reasoning behind image segmentation
APA, Harvard, Vancouver, ISO, and other styles
49

Fromont, Lauren A. "Verbing and nouning in French : toward an ecologically valid approach to sentence processing." Thèse, 2019. http://hdl.handle.net/1866/23521.

Full text
Abstract:
La présente thèse utilise la technique des potentiels évoqués afin d’étudier les méchanismes neurocognitifs qui sous-tendent la compréhension de la phrase. Plus particulièrement, cette recherche vise à clarifier l’interaction entre les processus syntaxiques et sémantiques chez les locuteurs natifs et les apprenants d’une deuxième langue (L2). Le modèle “syntaxe en premier” (Friederici, 2002, 2011) prédit que les catégories syntaxiques sont analysées de façon précoce: ce stade est reflété par la composante ELAN (Early anterior negativity, Négativité antérieure gauche), qui est induite par les erreurs de catégorie syntaxique. De plus, ces erreurs semblent empêcher l’apparition de la composante N400 qui reflète les processus lexico-sémantiques. Ce phénomène est défini comme le bloquage sémantique (Friederici et al., 1999). Cependant, la plupart des études qui observent la ELAN utilisent des protocoles expérimentaux problématiques dans lesquels les différences entre les contextes qui précèdent la cible pourraient être à l’origine de résultats fallacieux expliquant à la fois l’apparente “ELAN” et l’absence de N400 (Steinhauer & Drury, 2012). La première étude rééevalue l’approche de la “syntaxe en premier” en adoptant un paradigme expériemental novateur en français qui introduit des erreurs de catégorie syntaxique et les anomalies de sémantique lexicale. Ce dessin expérimental équilibré contrôle à la fois le mot-cible (nom vs. verbe) et le contexte qui le précède. Les résultats récoltés auprès de locuteurs natifs du français québécois ont révélé un complexe N400-P600 en réponse à toutes les anomalies, en contradiction avec les prédictions du modèle de Friederici. Les effets additifs des manipulations syntaxique et sémantique sur la N400 suggèrent la détection d’une incohérence entre la racine du mot qui avait été prédite et la cible, d’une part, et l’activation lexico-sémantique, d’autre part. Les réponses individuelles se sont pas caractérisées par une dominance vers la N400 ou la P600: au contraire, une onde biphasique est présente chez la majorité des participants. Cette activation peut donc être considérée comme un index fiable des mécanismes qui sous-tendent le traitement des structures syntagmatiques. La deuxième étude se concentre sur les même processus chez les apprenants tardifs du français L2. L’hypothèse de la convergence (Green, 2003 ; Steinhauer, 2014) prédit que les apprenants d’une L2, s’ils atteignent un niveau avancé, mettent en place des processus de traitement en ligne similaires aux locuteurs natifs. Cependant, il est difficile de considérer en même temps un grand nombre de facteurs qui se rapportent à leurs compétences linguistiques, à l’exposition à la L2 et à l’âge d’acquisition. Cette étude continue d’explorer les différences inter-individuelles en modélisant les données de potentiels-évoqués avec les Forêts aléatoires, qui ont révélé que le pourcentage d’explosition au français ansi que le niveau de langue sont les prédicteurs les plus fiables pour expliquer les réponses électrophysiologiques des participants. Plus ceux-ci sont élevés, plus l’amplitude des composantes N400 et P600 augmente, ce qui confirme en partie les prédictions faites par l’hypothèse de la convergence. En conclusion, le modèle de la “syntaxe en premier” n’est pas viable et doit être remplacé. Nous suggérons un nouveau paradigme basé sur une approche prédictive, où les informations sémantiques et syntaxiques sont activées en parallèle dans un premier temps, puis intégrées via un recrutement de mécanismes contrôlés. Ces derniers sont modérés par les capacités inter-individuelles reflétées par l’exposition et la performance.
The present thesis uses event-related potentials (ERPs) to investigate neurocognitve mechanisms underlying sentence comprehension. In particular, these two experiments seek to clarify the interplay between syntactic and semantic processes in native speakers and second language learners. Friederici’s (2002, 2011) “syntax-first” model predicts that syntactic categories are analyzed at the earliest stages of speech perception reflected by the ELAN (Early left anterior negativity), reported for syntactic category violations. Further, syntactic category violations seem to prevent the appearance of N400s (linked to lexical-semantic processing), a phenomenon known as “semantic blocking” (Friederici et al., 1999). However, a review article by Steinhauer and Drury (2012) argued that most ELAN studies used flawed designs, where pre-target context differences may have caused ELAN-like artifacts as well as the absence of N400s. The first study reevaluates syntax-first approaches to sentence processing by implementing a novel paradigm in French that included correct sentences, pure syntactic category violations, lexical-semantic anomalies, and combined anomalies. This balanced design systematically controlled for target word (noun vs. verb) and the context immediately preceding it. Group results from native speakers of Quebec French revealed an N400-P600 complex in response to all anomalous conditions, providing strong evidence against the syntax-first and semantic blocking hypotheses. Additive effects of syntactic category and lexical-semantic anomalies on the N400 may reflect a mismatch detection between a predicted word-stem and the actual target, in parallel with lexical-semantic retrieval. An interactive rather than additive effect on the P600 reveals that the same neurocognitive resources are recruited for syntactic and semantic integration. Analyses of individual data showed that participants did not rely on one single cognitive mechanism reflected by either the N400 or the P600 effect but on both, suggesting that the biphasic N400-P600 ERP wave can indeed be considered to be an index of phrase-structure violation processing in most individuals. The second study investigates the underlying mechanisms of phrase-structure building in late second language learners of French. The convergence hypothesis (Green, 2003; Steinhauer, 2014) predicts that second language learners can achieve native-like online- processing with sufficient proficiency. However, considering together different factors that relate to proficiency, exposure, and age of acquisition has proven challenging. This study further explores individual data modeling using a Random Forests approach. It revealed that daily usage and proficiency are the most reliable predictors in explaining the ERP responses, with N400 and P600 effects getting larger as these variables increased, partly confirming and extending the convergence hypothesis. This thesis demonstrates that the “syntax-first” model is not viable and should be replaced. A new account is suggested, based on predictive approaches, where semantic and syntactic information are first used in parallel to facilitate retrieval, and then controlled mechanisms are recruited to analyze sentences at the interface of syntax and semantics. Those mechanisms are mediated by inter-individual abilities reflected by language exposure and performance.
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography