Literatura académica sobre el tema "Élagage de forêts aléatoires"

Crea una cita precisa en los estilos APA, MLA, Chicago, Harvard y otros

Elija tipo de fuente:

Consulte las listas temáticas de artículos, libros, tesis, actas de conferencias y otras fuentes académicas sobre el tema "Élagage de forêts aléatoires".

Junto a cada fuente en la lista de referencias hay un botón "Agregar a la bibliografía". Pulsa este botón, y generaremos automáticamente la referencia bibliográfica para la obra elegida en el estilo de cita que necesites: APA, MLA, Harvard, Vancouver, Chicago, etc.

También puede descargar el texto completo de la publicación académica en formato pdf y leer en línea su resumen siempre que esté disponible en los metadatos.

Artículos de revistas sobre el tema "Élagage de forêts aléatoires"

1

LAYELMAM, Mohammed. "Production des cartes de probabilité de présence des criquets pèlerins sur le territoire marocain à partir des données de télédétection". Revue Française de Photogrammétrie et de Télédétection, n.º 216 (19 de abril de 2018): 49–59. http://dx.doi.org/10.52638/rfpt.2018.324.

Texto completo
Resumen
Le criquet pèlerin, Schistocerca gregaria, est l'une des espèces acridiennes les plus redoutées en raison de l'ampleur des dégâts qu'il occasionne sur les cultures. Les pays touchés par cet insecte mobilisent des équipes de prospecteurs pour surveiller les habitats favorables à leur développement. Pour faciliter les interventions de ces prospecteurs et prédire la présence ou l'absence de criquets pèlerins, nous proposons pour le cas du Maroc une méthode basée sur l'historique des prospections et les variables explicatives calculées à la base des données de télédétection. Les données de télédétection utilisées sont issues du capteur MODIS et la technique CMORPH (NOAA CPC MORPHING Technique), ces données sont l'indice de végétation par différence normalisée (NDVI), la température de surface (LST) et la pluviométrie (P). Durant cette étude, nous avons testé deux modèles statistiques (Régression logistique et Forêts aléatoires) dans le but de trouver la meilleure approche à utiliser pour la production des cartes de prédiction. La comparaison des indicateurs extraits à partir de la matrice de confusion de chaque modèle nous a permis de conclure que la prévision par l'approche de forêts aléatoires semble meilleure que la régression logistique. Avec la modélisation statistique nous avons montré qu'il est possible de produire des cartes de prédiction de la présence/absence des criquets pèlerins en se basant sur les données de télédétection. Cette étude est une étape supplémentaire dans l'élaboration de cartes qui vont aider les prospecteurs à mieux orienter les missions de terrain et faciliter la localisation des zones favorables au développement des criquets pèlerins.
Los estilos APA, Harvard, Vancouver, ISO, etc.
2

Matsaguim Nguimdo, Cédric Aurélien y Emmanuel D. Tiomo. "FORET D'ARBRES ALEATOIRES ET CLASSIFICATION D'IMAGES SATELLITES : RELATION ENTRE LA PRECISION DU MODELE D'ENTRAINEMENT ET LA PRECISION GLOBALE DE LA CLASSIFICATION". Revue Française de Photogrammétrie et de Télédétection, n.º 222 (26 de noviembre de 2020): 3–14. http://dx.doi.org/10.52638/rfpt.2020.477.

Texto completo
Resumen
Résumé: En télédétection, il existe un grand nombre d'algorithmes permettant de classifier une image satellite. Parmi ces algorithmes de classification, la Forêt d'Arbres Aléatoires apparait comme particulièrement performant. Cette étude a pour objectifs d'évaluer (1) l'importance de la sélection des images pour le niveau de précision du modèle d'entrainement et (2) la nature de la relation qui existe entre le niveau de précision du modèle et celui de la précision globale de la carte thématique résultant de la classification de l'image satellite avec cet algorithme de classification. A partir d'une image Landsat 8 OLI prise au-dessus d'une zone de montagne tropicale : la région de l'Ouest Cameroun, 35 modèles ont été construits et testés. Les résultats montrent que le niveau de la précision globale des résultats de la Forêts d'Arbres Aléatoires est étroitement dépendant d'une part de la précision du modèle d'entrainement utilisé pour classifier l'image satellite, et d'autre part du choix des images utilisées pour entrainer ce modèle. De plus, la sélection de ces images est elle-même dépendante de la qualité des zones d'entrainement qui serviront à la construction du modèle. Il est donc important de mettre en accent particulier sur la qualité des données d'entrée afin de garantir des résultats satisfaisants avec cet algorithme. Mots clés : Forêt d’Arbres Aléatoires ; précision ; modèle d’entrainement ; télédétection ; Cameroun
Los estilos APA, Harvard, Vancouver, ISO, etc.
3

Beguet, Benoît, Nesrine Chehata, Samia Boukir y Dominique Guyon. "Quantification et cartographie de la structure forestière à partir de la texture des images Pléiades". Revue Française de Photogrammétrie et de Télédétection, n.º 208 (5 de septiembre de 2014): 83–88. http://dx.doi.org/10.52638/rfpt.2014.126.

Texto completo
Resumen
Cette étude montre le potentiel de l'information texturale des images à très haute résolution spatiale Pléiades pour la quantification et la cartographie de la structure forestière des peuplements de pin maritime du sud-ouest de la France (massif landais). Une première étape montre qu'il est possible d'estimer, par régressions linéaires multiples, les variables de structure forestière (comme le diamètre des couronnes ou la hauteur des arbres) à partir d'un ensemble d'attributs de texture automatiquement sélectionnés parmi un grand nombre de paramétrages possibles. La classification de l'image est ensuite effectuée en utilisant l'algorithme des forêts aléatoires (RF) pour discriminer cinq classes de structure forestière avec une approche hiérarchique. L'importance de variable des RF est utilisée pour la sélection des attributs de texture. Les résultats montrent l'intérêt de l'automatisation du processus, et de l'utilisation conjointe des deux résolutions des images Pléiades (panchromatique et multispectral) pour dériver les attributs de texture les plus performants pour détecter de fines variations de structure forestière.
Los estilos APA, Harvard, Vancouver, ISO, etc.
4

Chehata, Nesrine, Karim Ghariani, Arnaud Le Bris y Philippe Lagacherie. "Apport des images pléiades pour la délimitation des parcelles agricoles à grande échelle". Revue Française de Photogrammétrie et de Télédétection, n.º 209 (29 de enero de 2015): 165–71. http://dx.doi.org/10.52638/rfpt.2015.220.

Texto completo
Resumen
Les pratiques et les arrangements spatiaux des parcelles agricoles ont un fort impact sur les flux d'eau dans les paysages cultivés . Afin de surveiller les paysages à grande échelle, il ya un fort besoin de délimitation automatique ou semi-automatique des parcelles agricoles. Cet article montre la contribution des images satellitaires à très haute résolution spatiales, telles que Pléiades, pour délimiter le parcellaire agricole de manière automatique .On propose une approche originale utilisant une classification binaire supervisée des limites. Une approche d'apprentissage actif est proposée afin d'adapter le modèle de classifieur au contexte local permettant ainsi la délimitation parcellaire à grande échelle.Le classifieur des Forêts Aléatoires est utilisé pour la classification et la sélection des attributs . Le concept de marge non supervisée est utilisé comme mesure d'incertitude dans l'algorithme d'apprentissage actif. En outre, un étiquetage automatique des pixels incertains est proposé en utilisant une approche hybride qui combinant une approche région et le concept de marge.Des résultats satisfaisants sont obtenus sur une image Pléiades. Différentes stratégies d'apprentissage sont comparées et discutées . Pour un cas d'étude opérationnel, un modèle global ou bien un modèle simple enrichi peuvent être utilisés en fonction des données de terrain disponibles.
Los estilos APA, Harvard, Vancouver, ISO, etc.
5

Le Bris, Arnaud, Cyril Wendl, Nesrine Chehata, Anne Puissant y Tristan Postadjian. "Fusion tardive d'images SPOT-6/7 et de données multi-temporelles Sentinel-2 pour la détection de la tâche urbaine". Revue Française de Photogrammétrie et de Télédétection, n.º 217-218 (21 de septiembre de 2018): 87–97. http://dx.doi.org/10.52638/rfpt.2018.415.

Texto completo
Resumen
La fusion d'images multispectrales à très haute résolution spatiale (THR) avec des séries temporelles d'images moins résolues spatialement mais comportant plus de bandes spectrales permet d'améliorer la classification de l'occupation du sol. Elle tire en effet le meilleur parti des points forts géométriques et sémantiques de ces deux sources. Ce travail s'intéresse à un processus d'extraction automatique de la tache urbaine fondé sur la fusion tardive de classifications calculées respectivement à partir d'images satellitaires Sentinel-2 et SPOT-6/7. Ces deux sources sont d'abord classées indépendamment selon 5 classes, respectivement par forêts aléatoires et réseaux de neurones convolutifs. Les résultats sont alors fusionnés afin d'extraire les bâtiments le plus finement possible. Cette étape de fusion inclut une fusion au niveau pixellaire suivie d'une étape de régularisation spatiale intégrant un terme lié au contraste de l'image. Le résultat obtenu connaît ensuite une seconde fusion afin d'en déduire une tache urbaine : une mesure a priori de se trouver en zone urbaine est calculée à partir des objets bâtiments détectés précédemment et est fusionnée avec une classification binaire dérivée de la classification originale des données Sentinel-2.
Los estilos APA, Harvard, Vancouver, ISO, etc.
6

Ferraz, Antonio. "DÉTECTION À HAUTE RÉSOLUTION SPATIALE DE LA DESSERTE FORESTIÈRE EN MILIEU MONTAGNEUX". Revue Française de Photogrammétrie et de Télédétection 1, n.º 211-212 (6 de diciembre de 2015): 103–17. http://dx.doi.org/10.52638/rfpt.2015.549.

Texto completo
Resumen
En milieu montagneux et forestier, la localisation de la route et ses caractéristiques géométriques sont des informations cruciale pour de nombreuses applications écologiques et liées à la gestion forestière. Par ailleurs, le lidar aéroporté topographique est devenu une technique de télédétection reconnue pour la caractérisation fine de la surface terrestre : les Modèles Numériques de Terrain (MNT) en sont le produit standard.Cet article aborde le problème de la détection de routes sur de grandes surfaces (>1000 km2) dans de tels environnements. Pour cela, nous avons proposé une méthode fondée sur l’hypothèse que les routes peuvent être modélisées par des objets planaires suivant une direction privilégiée et avec de fortes variations du relief dans la direction orthogonale. La connaissance seule du MNT lidar à 1 m de résolution est suffisante dans notre processus, qui ne requiert donc pas le traitement supplémentaire des nuages de points 3D lidar ni de données à retour d’onde complète. L’intégralité de l’analyse se fait donc en deux dimensions. Tout d’abord, trois attributs morphologiques sont extraits du MNT et introduits dans une classification supervisée par Forêts Aléatoires des zones potentiellement "routes". Ensuite, un graphe est créé à partir de ce masque de focalisation afin de combler les éventuels manques et occlusions dus principalement à la végétation. En particulier, les noeuds sont sélectionnés avec un Processus Ponctuel, puis le graphe est élagué en suivant le modèle de route initial. Enfin, la largeur et la pente des routes sont estimées grâce au MNT avec une analyse orientée-objet. D’une part, on obtient une qualité de détection convaincante, tant au niveau de l’exhaustivité (>80%) que de la précision géométrique, supérieure à celle des bases de données topographiques 2D existantes. De plus, de nouvelles routes sont détectées grâce à la capacité du lidar à restituer le terrain sous le couvert végétal. Cependant, en présence d’un trop faible nombre de mesures lidar au niveau du sol, des routes peuvent ne pas être restituées. Enfin, nous montrons que notre méthode est adaptée à une analyse sur de grandes surfaces puisqu’elle permet des rendements de moins de 2 minutes par km2.
Los estilos APA, Harvard, Vancouver, ISO, etc.
7

Morales, Alejandro H. y Ekaterina A. Vassilieva. "Bijective evaluation of the connection coefficients of the double coset algebra". Discrete Mathematics & Theoretical Computer Science DMTCS Proceedings vol. AO,..., Proceedings (1 de enero de 2011). http://dx.doi.org/10.46298/dmtcs.2944.

Texto completo
Resumen
International audience This paper is devoted to the evaluation of the generating series of the connection coefficients of the double cosets of the hyperoctahedral group. Hanlon, Stanley, Stembridge (1992) showed that this series, indexed by a partition $ν$, gives the spectral distribution of some random matrices that are of interest in random matrix theory. We provide an explicit evaluation of this series when $ν =(n)$ in terms of monomial symmetric functions. Our development relies on an interpretation of the connection coefficients in terms of locally orientable hypermaps and a new bijective construction between partitioned locally orientable hypermaps and some permuted forests. Cet article est dédié à l'évaluation des séries génératrices des coefficients de connexion des classes doubles (cosets) du groupe hyperoctaédral. Hanlon, Stanley, Stembridge (1992) ont montré que ces séries indexées par une partition $ν$ donnent la distribution spectrale de certaines matrices aléatoires jouant un rôle important dans la théorie des matrices aléatoires. Nous fournissons une évaluation explicite de ces séries dans le cas $ν =(n)$ en termes de monômes symétriques. Notre développement est fondé sur une interprétation des coefficients de connexion en termes d'hypercartes localement orientables et sur une nouvelle bijection entre les hypercartes localement orientables partitionnées et certaines forêts permutées.
Los estilos APA, Harvard, Vancouver, ISO, etc.
8

Dossa, Maximilien. "Des forêts aléatoires pour déchiffrer les commentaires sur Amazon La compatibilité du lecteur d'écran est activée." Management & Data Science, junio de 2020. http://dx.doi.org/10.36863/mds.a.13696.

Texto completo
Resumen
Dans le domaine de l’analytique, si l'on combine les principales sources de données non structurées (forums, blogs, e-commerce ou réseaux sociaux), près de deux milliards de personnes livrent quotidiennement des informations sur ce qu'elles aiment, ce qu'elles font ou ce qu'elles pensent d'un produit, d'un film, d'une musique, etc. Ces données représentent une véritable mine d'or pour les entreprises et leur maîtrise est devenue, en quelques années, un atout majeur en matière de compétitivité. Dans cet article, nous présentons une application de l'algorithme des forêts aléatoires (Breiman, 2001) sur un jeu de données non structurées provenant d’Amazon. L'objectif est de construire un modèle de classification permettant, à partir d'un commentaire, de prédire et d'expliquer une note attribuée par un consommateur pour un produit donné. Nous présentons la démarche globale, de l'acquisition des données à leur analyse, en prenant en compte le caractère non structuré de celles-ci.
Los estilos APA, Harvard, Vancouver, ISO, etc.
9

Beal, Pierre, Emmanuel Buisson, Victor Bruyere, Benjamin Chabanon, Gwenaëlle Hourdin, BouAlem Mesbah y David Poulet. "VIGIPOL : Pollution à l'ozone : mise en place d'un outil de vigilance par application des techniques des forêts aléatoires". Pollution atmosphérique, N°198-199 (2008). http://dx.doi.org/10.4267/pollution-atmospherique.1331.

Texto completo
Los estilos APA, Harvard, Vancouver, ISO, etc.
10

Habonayo, Richard, Akomian Fortuné Azihou, Gbèwonmèdéa Hospice Dassou, André Nduwimana, Aristide Cossi Adomou y Bernadette Habonimana. "Influence de la liane envahissante Sericostachys scandens Gilg & Lopr. (Amaranthaceae) sur la structure des peuplements ligneux du Parc National de la Kibira au Burundi". Tropicultura, 2023. http://dx.doi.org/10.25518/2295-8010.2227.

Texto completo
Resumen
Sericostachys scandens Gilg & Lopr. (Amaranthaceae), liane envahissante, représente une menace pour les espèces ligneuses des forêts tropicales. Cette étude vise à comparer les paramètres dendrométriques des peuplements ligneux entre les milieux envahis par S. scandens et les milieux non envahis, puis à estimer l’influence de S. scandens sur les stades de développement des espèces ligneuses (régénération, jeune arbre, arbre) dans le Parc National de la Kibira (PNK) au Burundi. L’abondance de S. scandens et des autres espèces ligneuses a été évaluée dans 100 placeaux de 50 m x 50 m (équitablement répartis entre les milieux envahis et les milieux non envahis du PNK) et soumise à une analyse de la covariance, à un test t de Student et à un modèle linéaire mixte avec pente et ordonnée à l’origine aléatoires. Les paramètres dendrométriques (densité, diamètre, hauteur et surface terrière) sont significativement plus élevées dans les milieux non envahis comparativement aux milieux envahis. La prolifération de S. scandens a un effet négatif sur la densité de tous les stades de développement. S. scandens affecte négativement les peuplements forestiers du PNK. Le contrôle de S. scandens pourrait améliorer le recrutement des espèces ligneuses.
Los estilos APA, Harvard, Vancouver, ISO, etc.

Tesis sobre el tema "Élagage de forêts aléatoires"

1

Cherfaoui, Farah. "Echantillonnage pour l'accélération des méthodes à noyaux et sélection gloutonne pour les représentations parcimonieuses". Electronic Thesis or Diss., Aix-Marseille, 2022. http://www.theses.fr/2022AIXM0256.

Texto completo
Resumen
Les contributions de cette thèse se divisent en deux parties. Une première partie dédiée à l’accélération des méthodes à noyaux et une seconde à l'optimisation sous contrainte de parcimonie. Les méthodes à noyaux sont largement connues et utilisées en apprentissage automatique. Toutefois, la complexité de leur mise en œuvre est élevée et elles deviennent inutilisables lorsque le nombre de données est grand. Nous proposons dans un premier temps une approximation des Ridge Leverage Scores. Nous utilisons ensuite ces scores pour définir une distribution de probabilité pour le processus d'échantillonnage de la méthode de Nyström afin d’accélérer les méthodes à noyaux. Nous proposons dans un second temps un nouveau framework basé sur les noyaux, permettant de représenter et de comparer les distributions de probabilités discrètes. Nous exploitons ensuite le lien entre notre framework et la Maximum Mean Discrepancy pour proposer une approximation précise et peu coûteuse de cette dernière. La deuxième partie de cette thèse est consacrée à l’optimisation avec contrainte de parcimonie pour l’optimisation de signaux et l’élagage de forêts aléatoires. Tout d’abord, nous prouvons sous certaines conditions sur la cohérence du dictionnaire, les propriétés de reconstruction et de convergence de l’algorithme Frank-Wolfe. Ensuite, nous utilisons l'algorithme OMP pour réduire la taille de forêts aléatoires et ainsi réduire la taille nécessaire pour son stockage. La forêt élaguée est constituée d’un sous-ensemble d’arbres de la forêt initiale sélectionnés et pondérés par OMP de manière à minimiser son erreur empirique de prédiction
The contributions of this thesis are divided into two parts. The first part is dedicated to the acceleration of kernel methods and the second to optimization under sparsity constraints. Kernel methods are widely known and used in machine learning. However, the complexity of their implementation is high and they become unusable when the number of data is large. We first propose an approximation of Ridge leverage scores. We then use these scores to define a probability distribution for the sampling process of the Nyström method in order to speed up the kernel methods. We then propose a new kernel-based framework for representing and comparing discrete probability distributions. We then exploit the link between our framework and the maximum mean discrepancy to propose an accurate and fast approximation of the latter. The second part of this thesis is devoted to optimization with sparsity constraint for signal optimization and random forest pruning. First, we prove under certain conditions on the coherence of the dictionary, the reconstruction and convergence properties of the Frank-Wolfe algorithm. Then, we use the OMP algorithm to reduce the size of random forests and thus reduce the size needed for its storage. The pruned forest consists of a subset of trees from the initial forest selected and weighted by OMP in order to minimize its empirical prediction error
Los estilos APA, Harvard, Vancouver, ISO, etc.
2

Zirakiza, Brice. "Forêts Aléatoires PAC-Bayésiennes". Thesis, Université Laval, 2013. http://www.theses.ulaval.ca/2013/29815/29815.pdf.

Texto completo
Resumen
Dans ce mémoire de maîtrise, nous présentons dans un premier temps un algorithme de l'état de l'art appelé Forêts aléatoires introduit par Léo Breiman. Cet algorithme effectue un vote de majorité uniforme d'arbres de décision construits en utilisant l'algorithme CART sans élagage. Par après, nous introduisons l'algorithme que nous avons nommé SORF. L'algorithme SORF s'inspire de l'approche PAC-Bayes, qui pour minimiser le risque du classificateur de Bayes, minimise le risque du classificateur de Gibbs avec un régularisateur. Le risque du classificateur de Gibbs constitue en effet, une fonction convexe bornant supérieurement le risque du classificateur de Bayes. Pour chercher la distribution qui pourrait être optimale, l'algorithme SORF se réduit à être un simple programme quadratique minimisant le risque quadratique de Gibbs pour chercher une distribution Q sur les classificateurs de base qui sont des arbres de la forêt. Les résultasts empiriques montrent que généralement SORF est presqu'aussi bien performant que les forêts aléatoires, et que dans certains cas, il peut même mieux performer que les forêts aléatoires.
In this master's thesis, we present at first an algorithm of the state of the art called Random Forests introduced by Léo Breiman. This algorithm construct a uniformly weighted majority vote of decision trees built using the CART algorithm without pruning. Thereafter, we introduce an algorithm that we called SORF. The SORF algorithm is based on the PAC-Bayes approach, which in order to minimize the risk of Bayes classifier, minimizes the risk of the Gibbs classifier with a regularizer. The risk of Gibbs classifier is indeed a convex function which is an upper bound of the risk of Bayes classifier. To find the distribution that would be optimal, the SORF algorithm is reduced to being a simple quadratic program minimizing the quadratic risk of Gibbs classifier to seek a distribution Q of base classifiers which are trees of the forest. Empirical results show that generally SORF is almost as efficient as Random forests, and in some cases, it can even outperform Random forests.
Los estilos APA, Harvard, Vancouver, ISO, etc.
3

Zirakiza, Brice y Brice Zirakiza. "Forêts Aléatoires PAC-Bayésiennes". Master's thesis, Université Laval, 2013. http://hdl.handle.net/20.500.11794/24036.

Texto completo
Resumen
Dans ce mémoire de maîtrise, nous présentons dans un premier temps un algorithme de l'état de l'art appelé Forêts aléatoires introduit par Léo Breiman. Cet algorithme effectue un vote de majorité uniforme d'arbres de décision construits en utilisant l'algorithme CART sans élagage. Par après, nous introduisons l'algorithme que nous avons nommé SORF. L'algorithme SORF s'inspire de l'approche PAC-Bayes, qui pour minimiser le risque du classificateur de Bayes, minimise le risque du classificateur de Gibbs avec un régularisateur. Le risque du classificateur de Gibbs constitue en effet, une fonction convexe bornant supérieurement le risque du classificateur de Bayes. Pour chercher la distribution qui pourrait être optimale, l'algorithme SORF se réduit à être un simple programme quadratique minimisant le risque quadratique de Gibbs pour chercher une distribution Q sur les classificateurs de base qui sont des arbres de la forêt. Les résultasts empiriques montrent que généralement SORF est presqu'aussi bien performant que les forêts aléatoires, et que dans certains cas, il peut même mieux performer que les forêts aléatoires.
Dans ce mémoire de maîtrise, nous présentons dans un premier temps un algorithme de l'état de l'art appelé Forêts aléatoires introduit par Léo Breiman. Cet algorithme effectue un vote de majorité uniforme d'arbres de décision construits en utilisant l'algorithme CART sans élagage. Par après, nous introduisons l'algorithme que nous avons nommé SORF. L'algorithme SORF s'inspire de l'approche PAC-Bayes, qui pour minimiser le risque du classificateur de Bayes, minimise le risque du classificateur de Gibbs avec un régularisateur. Le risque du classificateur de Gibbs constitue en effet, une fonction convexe bornant supérieurement le risque du classificateur de Bayes. Pour chercher la distribution qui pourrait être optimale, l'algorithme SORF se réduit à être un simple programme quadratique minimisant le risque quadratique de Gibbs pour chercher une distribution Q sur les classificateurs de base qui sont des arbres de la forêt. Les résultasts empiriques montrent que généralement SORF est presqu'aussi bien performant que les forêts aléatoires, et que dans certains cas, il peut même mieux performer que les forêts aléatoires.
In this master's thesis, we present at first an algorithm of the state of the art called Random Forests introduced by Léo Breiman. This algorithm construct a uniformly weighted majority vote of decision trees built using the CART algorithm without pruning. Thereafter, we introduce an algorithm that we called SORF. The SORF algorithm is based on the PAC-Bayes approach, which in order to minimize the risk of Bayes classifier, minimizes the risk of the Gibbs classifier with a regularizer. The risk of Gibbs classifier is indeed a convex function which is an upper bound of the risk of Bayes classifier. To find the distribution that would be optimal, the SORF algorithm is reduced to being a simple quadratic program minimizing the quadratic risk of Gibbs classifier to seek a distribution Q of base classifiers which are trees of the forest. Empirical results show that generally SORF is almost as efficient as Random forests, and in some cases, it can even outperform Random forests.
In this master's thesis, we present at first an algorithm of the state of the art called Random Forests introduced by Léo Breiman. This algorithm construct a uniformly weighted majority vote of decision trees built using the CART algorithm without pruning. Thereafter, we introduce an algorithm that we called SORF. The SORF algorithm is based on the PAC-Bayes approach, which in order to minimize the risk of Bayes classifier, minimizes the risk of the Gibbs classifier with a regularizer. The risk of Gibbs classifier is indeed a convex function which is an upper bound of the risk of Bayes classifier. To find the distribution that would be optimal, the SORF algorithm is reduced to being a simple quadratic program minimizing the quadratic risk of Gibbs classifier to seek a distribution Q of base classifiers which are trees of the forest. Empirical results show that generally SORF is almost as efficient as Random forests, and in some cases, it can even outperform Random forests.
Los estilos APA, Harvard, Vancouver, ISO, etc.
4

Scornet, Erwan. "Apprentissage et forêts aléatoires". Thesis, Paris 6, 2015. http://www.theses.fr/2015PA066533/document.

Texto completo
Resumen
Cette thèse est consacrée aux forêts aléatoires, une méthode d'apprentissage non paramétrique introduite par Breiman en 2001. Très répandues dans le monde des applications, les forêts aléatoires possèdent de bonnes performances et permettent de traiter efficacement de grands volumes de données. Cependant, la théorie des forêts ne permet pas d'expliquer à ce jour l'ensemble des bonnes propriétés de l'algorithme. Après avoir dressé un état de l'art des résultats théoriques existants, nous nous intéressons en premier lieu au lien entre les forêts infinies (analysées en théorie) et les forêts finies (utilisées en pratique). Nous proposons en particulier une manière de choisir le nombre d'arbres pour que les erreurs des forêts finies et infinies soient proches. D'autre part, nous étudions les forêts quantiles, un type d'algorithme proche des forêts de Breiman. Dans ce cadre, nous démontrons l'intérêt d'agréger des arbres : même si chaque arbre de la forêt quantile est inconsistant, grâce à un sous-échantillonnage adapté, la forêt quantile est consistante. Dans un deuxième temps, nous prouvons que les forêts aléatoires sont naturellement liées à des estimateurs à noyau que nous explicitons. Des bornes sur la vitesse de convergence de ces estimateurs sont également établies. Nous démontrons, dans une troisième approche, deux théorèmes sur la consistance des forêts de Breiman élaguées et complètement développées. Dans ce dernier cas, nous soulignons, comme pour les forêts quantiles, l'importance du sous-échantillonnage dans la consistance de la forêt. Enfin, nous présentons un travail indépendant portant sur l'estimation de la toxicité de certains composés chimiques
This is devoted to a nonparametric estimation method called random forests, introduced by Breiman in 2001. Extensively used in a variety of areas, random forests exhibit good empirical performance and can handle massive data sets. However, the mathematical forces driving the algorithm remain largely unknown. After reviewing theoretical literature, we focus on the link between infinite forests (theoretically analyzed) and finite forests (used in practice) aiming at narrowing the gap between theory and practice. In particular, we propose a way to select the number of trees such that the errors of finite and infinite forests are similar. On the other hand, we study quantile forests, a type of algorithms close in spirit to Breiman's forests. In this context, we prove the benefit of trees aggregation: while each tree of quantile forest is not consistent, with a proper subsampling step, the forest is. Next, we show the connection between forests and some particular kernel estimates, which can be made explicit in some cases. We also establish upper bounds on the rate of convergence for these kernel estimates. Then we demonstrate two theorems on the consistency of both pruned and unpruned Breiman forests. We stress the importance of subsampling to demonstrate the consistency of the unpruned Breiman's forests. At last, we present the results of a Dreamchallenge whose goal was to predict the toxicity of several compounds for several patients based on their genetic profile
Los estilos APA, Harvard, Vancouver, ISO, etc.
5

Genuer, Robin. "Forêts aléatoires : aspects théoriques, sélection de variables et applications". Phd thesis, Université Paris Sud - Paris XI, 2010. http://tel.archives-ouvertes.fr/tel-00550989.

Texto completo
Resumen
Cette thèse s'inscrit dans le cadre de l'apprentissage statistique et est consacrée à l'étude de la méthode des forêts aléatoires, introduite par Breiman en 2001. Les forêts aléatoires sont une méthode statistique non paramétrique, qui s'avère être très performante dans de nombreuses applications, aussi bien pour des problèmes de régression que de classification supervisée. Elles présentent également un bon comportement sur des données de très grande dimension, pour lesquelles le nombre de variables dépasse largement le nombre d'observations. Dans une première partie, nous développons une procédure de sélection de variables, basée sur l'indice d'importance des variables calculée par les forêts aléatoires. Cet indice d'importance permet de distinguer les variables pertinentes des variables inutiles. La procédure consiste alors à sélectionner automatiquement un sous-ensemble de variables dans un but d'interprétation ou de prédiction. La deuxième partie illustre la capacité de cette procédure de sélection de variables à être performante pour des problèmes très différents. La première application est un problème de classification en très grande dimension sur des données de neuroimagerie, alors que la seconde traite des données génomiques qui constituent un problème de régression en plus petite dimension. Une dernière partie, théorique, établit des bornes de risque pour une version simplifiée des forêts aléatoires. Dans un contexte de régression, avec une seule variable explicative, nous montrons d'une part que les estimateurs associés à un arbre et à une forêt atteignent tous deux la vitesse minimax de convergence, et d'autre part que la forêt apporte une amélioration en réduisant la variance de l'estimateur d'un facteur de trois quarts.
Los estilos APA, Harvard, Vancouver, ISO, etc.
6

Poterie, Audrey. "Arbres de décision et forêts aléatoires pour variables groupées". Thesis, Rennes, INSA, 2018. http://www.theses.fr/2018ISAR0011/document.

Texto completo
Resumen
Dans de nombreux problèmes en apprentissage supervisé, les entrées ont une structure de groupes connue et/ou clairement identifiable. Dans ce contexte, l'élaboration d'une règle de prédiction utilisant les groupes plutôt que les variables individuelles peut être plus pertinente tant au niveau des performances prédictives que de l'interprétation. L'objectif de la thèse est de développer des méthodes par arbres adaptées aux variables groupées. Nous proposons deux approches qui utilisent la structure groupée des variables pour construire des arbres de décisions. La première méthode permet de construire des arbres binaires en classification. Une coupure est définie par le choix d'un groupe et d'une combinaison linéaire des variables du dit groupe. La seconde approche, qui peut être utilisée en régression et en classification, construit un arbre non-binaire dans lequel chaque coupure est un arbre binaire. Ces deux approches construisent un arbre maximal qui est ensuite élagué. Nous proposons pour cela deux stratégies d'élagage dont une est une généralisation du minimal cost-complexity pruning. Les arbres de décision étant instables, nous introduisons une méthode de forêts aléatoires pour variables groupées. Outre l'aspect prédiction, ces méthodes peuvent aussi être utilisées pour faire de la sélection de groupes grâce à l'introduction d'indices d'importance des groupes. Ce travail est complété par une partie indépendante dans laquelle nous nous plaçons dans un cadre d'apprentissage non supervisé. Nous introduisons un nouvel algorithme de clustering. Sous des hypothèses classiques, nous obtenons des vitesses de convergence pour le risque de clustering de l'algorithme proposé
In many problems in supervised learning, inputs have a known and/or obvious group structure. In this context, elaborating a prediction rule that takes into account the group structure can be more relevant than using an approach based only on the individual variables for both prediction accuracy and interpretation. The goal of this thesis is to develop some tree-based methods adapted to grouped variables. Here, we propose two new tree-based approaches which use the group structure to build decision trees. The first approach allows to build binary decision trees for classification problems. A split of a node is defined according to the choice of both a splitting group and a linear combination of the inputs belonging to the splitting group. The second method, which can be used for prediction problems in both regression and classification, builds a non-binary tree in which each split is a binary tree. These two approaches build a maximal tree which is next pruned. To this end, we propose two pruning strategies, one of which is a generalization of the minimal cost-complexity pruning algorithm. Since decisions trees are known to be unstable, we introduce a method of random forests that deals with groups of inputs. In addition to the prediction purpose, these new methods can be also use to perform group variable selection thanks to the introduction of some measures of group importance, This thesis work is supplemented by an independent part in which we consider the unsupervised framework. We introduce a new clustering algorithm. Under some classical regularity and sparsity assumptions, we obtain the rate of convergence of the clustering risk for the proposed alqorithm
Los estilos APA, Harvard, Vancouver, ISO, etc.
7

Ciss, Saïp. "Forêts uniformément aléatoires et détection des irrégularités aux cotisations sociales". Thesis, Paris 10, 2014. http://www.theses.fr/2014PA100063/document.

Texto completo
Resumen
Nous présentons dans cette thèse une application de l'apprentissage statistique à la détection des irrégularités aux cotisations sociales. L'apprentissage statistique a pour but de modéliser des problèmes dans lesquels il existe une relation, généralement non déterministe, entre des variables et le phénomène que l'on cherche à évaluer. Un aspect essentiel de cette modélisation est la prédiction des occurrences inconnues du phénomène, à partir des données déjà observées. Dans le cas des cotisations sociales, la représentation du problème s'exprime par le postulat de l'existence d'une relation entre les déclarations de cotisation des entreprises et les contrôles effectués par les organismes de recouvrement. Les inspecteurs du contrôle certifient le caractère exact ou inexact d'un certain nombre de déclarations et notifient, le cas échéant, un redressement aux entreprises concernées. L'algorithme d'apprentissage "apprend", grâce à un modèle, la relation entre les déclarations et les résultats des contrôles, puis produit une évaluation de l'ensemble des déclarations non encore contrôlées. La première partie de l'évaluation attribue un caractère régulier ou irrégulier à chaque déclaration, avec une certaine probabilité. La seconde estime les montants de redressement espérés pour chaque déclaration. Au sein de l'URSSAF (Union de Recouvrement des cotisations de Sécurité sociale et d'Allocations Familiales) d'Île-de-France, et dans le cadre d'un contrat CIFRE (Conventions Industrielles de Formation par la Recherche), nous avons développé un modèle de détection des irrégularités aux cotisations sociales que nous présentons et détaillons tout au long de la thèse. L'algorithme fonctionne sous le logiciel libre R. Il est entièrement opérationnel et a été expérimenté en situation réelle durant l'année 2012. Pour garantir ses propriétés et résultats, des outils probabilistes et statistiques sont nécessaires et nous discutons des aspects théoriques ayant accompagné sa conception. Dans la première partie de la thèse, nous effectuons une présentation générale du problème de la détection des irrégularités aux cotisations sociales. Dans la seconde, nous abordons la détection spécifiquement, à travers les données utilisées pour définir et évaluer les irrégularités. En particulier, les seules données disponibles suffisent à modéliser la détection. Nous y présentons également un nouvel algorithme de forêts aléatoires, nommé "forêt uniformément aléatoire", qui constitue le moteur de détection. Dans la troisième partie, nous détaillons les propriétés théoriques des forêts uniformément aléatoires. Dans la quatrième, nous présentons un point de vue économique, lorsque les irrégularités aux cotisations sociales ont un caractère volontaire, cela dans le cadre de la lutte contre le travail dissimulé. En particulier, nous nous intéressons au lien entre la situation financière des entreprises et la fraude aux cotisations sociales. La dernière partie est consacrée aux résultats expérimentaux et réels du modèle, dont nous discutons.Chacun des chapitres de la thèse peut être lu indépendamment des autres et quelques notions sont redondantes afin de faciliter l'exploration du contenu
We present in this thesis an application of machine learning to irregularities in the case of social contributions. These are, in France, all contributions due by employees and companies to the "Sécurité sociale", the french system of social welfare (alternative incomes in case of unemployement, Medicare, pensions, ...). Social contributions are paid by companies to the URSSAF network which in charge to recover them. Our main goal was to build a model that would be able to detect irregularities with a little false positive rate. We, first, begin the thesis by presenting the URSSAF and how irregularities can appear, how can we handle them and what are the data we can use. Then, we talk about a new machine learning algorithm we have developped for, "random uniform forests" (and its R package "randomUniformForest") which are a variant of Breiman "random Forests" (tm), since they share the same principles but in in a different way. We present theorical background of the model and provide several examples. Then, we use it to show, when irregularities are fraud, how financial situation of firms can affect their propensity for fraud. In the last chapter, we provide a full evaluation for declarations of social contributions of all firms in Ile-de-France for year 2013, by using the model to predict if declarations present irregularities or not
Los estilos APA, Harvard, Vancouver, ISO, etc.
8

Mourtada, Jaouad. "Contributions à l'apprentissage statistique : estimation de densité, agrégation d'experts et forêts aléatoires". Thesis, Institut polytechnique de Paris, 2020. http://www.theses.fr/2020IPPAX014.

Texto completo
Resumen
L’apprentissage statistique fournit un cadre aux problèmes de prédiction, où l’on cherche à prédire des quantités inconnues à partir d’exemples.La première partie de cette thèse porte sur les méthodes de Forêts aléatoires, une famille d'algorithmes couramment utilisés en pratique, mais dont l'étude théorique s'avère délicate. Notre principale contribution est l'analyse précise d'une variante stylisée, les forêts de Mondrian, pour lesquelles nous établissons des vitesses de convergence non paramétriques minimax ainsi qu'un avantage des forêts sur les arbres. Nous étudions également une variante "en ligne" des forêts de Mondrian.La seconde partie est dédiée à l'agrégation d'experts, où il s'agit de combiner plusieurs sources de prédictions (experts) afin de prédire aussi bien que la meilleure d'entre elles. Nous analysons l'algorithme classique d'agrégation à poids exponentiels dans le cas stochastique, où il exhibe une certaine adaptativité à la difficulté du problème. Nous étudions également une variante du problème avec une classe croissante d'experts.La troisième partie porte sur des problèmes de régression et d'estimation de densité. Notre première contribution principale est une analyse minimax détaillée de la prédiction linéaire avec design aléatoire, en fonction de la loi des variables prédictives; nos bornes supérieures reposent sur un contrôle de la queue inférieure de matrices de covariance empiriques. Notre seconde contribution principale est l'introduction d'une procédure générale pour l'estimation de densité avec perte logarithmique, qui admet des bornes optimales d'excès de risque ne se dégradant pas dans le cas mal spécifié. Dans le cas de la régression logistique, cette procédure admet une forme simple et atteint des vitesses de convergence rapides inaccessibles aux estimateurs de type plug-in
Statistical machine learning is a general framework to study predictive problems, where one aims to predict unobserved quantities using examples.The first part of this thesis is devoted to Random forests, a family of methods which are widely used in practice, but whose theoretical analysis has proved challenging. Our main contribution is the precise analysis of a simplified variant called Mondrian forests, for which we establish minimax nonparametric rates of convergence and an advantage of forests over trees. We also study an online variant of Mondrian forests.The second part is about prediction with expert advice, where one aims to sequentially combine different sources of predictions (experts) so as to perform almost as well as the best one in retrospect. We analyze the standard exponential weights algorithm on favorable stochastic instances, showing in particular that it exhibits some adaptivity to the hardness of the problem. We also study a variant of the problem with a growing expert class.The third part deals with regression and density estimation problems. Our first main contribution is a detailed minimax analysis of linear least squares prediction, as a function of the distribution of covariates; our upper bounds rely on a control of the lower tail of empirical covariance matrices. Our second main contribution is a general procedure for density estimation under entropy risk, which achieves optimal excess risk rates that do not degrade under model misspecification. When applied to logistic regression, this procedure has a simple form and achieves fast rates of convergence, bypassing some intrinsic limitations of plug-in estimators
Los estilos APA, Harvard, Vancouver, ISO, etc.
9

Bernard, Simon. "Forêts aléatoires : de l’analyse des mécanismes de fonctionnement à la construction dynamique". Phd thesis, Rouen, 2009. http://www.theses.fr/2009ROUES011.

Texto completo
Resumen
Les travaux de cette thèse se situent dans le domaine de l’apprentissage automatique et concernent plus particulièrement la paramétrisation des forêts aléatoires, une technique d’ensembles de classifieurs utilisant des arbres de décision. Nous nous intéressons à deux paramètres importants pour l’induction de ces forêts : le nombre de caractéristiques choisies aléatoirement à chaque noeud et le nombre d’arbres. Nous montrons d’abord que la valeur du premier paramètre doit être choisie en fonction des propriétés de l’espace de description, et proposons dans ce cadre un nouvel algorithme nommé Forest-RK exploitant ces propriétés. Nous montrons ensuite qu’avec un processus statique d’induction de Forêts, certains arbres provoquent une diminution des performances de l’ensemble, en dégradant le compromis force/corrélation. Nous en déduisons un algorithme d’induction dynamique particulièrement performant en comparaison avec les procédures d’induction statique
This research work is related to machine learning and more particularlydealswiththeparametrizationofRandomForests,whichareclassifierensemble methods that use decision trees as base classifiers. We focus on two important parameters of the forest induction : the number of features randomly selected at each node and the number of trees. We first show that the number of random features has to be chosen regarding to the feature space properties, and we propose hence a new algorithm called Forest-RK that exploits those properties. We then show that a static induction process implies that some of the trees of the forest make the ensemble generalisation error decrease, by deteriorating the strength/correlation compromise. We finaly propose an original random forest dynamic induction algorithm that favorably compares to static induction processes
Los estilos APA, Harvard, Vancouver, ISO, etc.
10

Bernard, Simon. "Forêts Aléatoires: De l'Analyse des Mécanismes de Fonctionnement à la Construction Dynamique". Phd thesis, Université de Rouen, 2009. http://tel.archives-ouvertes.fr/tel-00598441.

Texto completo
Resumen
Les travaux de cette thèse se situent dans le domaine de l'apprentissage automatique et concernent plus particulièrement la paramétrisation des forêts aléatoires, une technique d'ensembles de classifieurs utilisant des arbres de décision. Nous nous intéressons à deux paramètres importants pour l'induction de ces forêts: le nombre de caractéristiques choisies aléatoirement à chaque noeud et le nombre d'arbres. Nous montrons d'abord que la valeur du premier paramètre doit être choisie en fonction des propriétés de l'espace de description, et proposons dans ce cadre un nouvel algorithme nommé Forest-RK exploitant ces propriétés. Nous montrons ensuite qu'avec un processus statique d'induction de Forêts, certains arbres provoquent une diminution des performances de l'ensemble, en dégradant le compromis force/ corrélation. Nous en déduisons un algorithme d'induction dynamique particulièrement performant en comparaison avec les procédures d'induction statique.
Los estilos APA, Harvard, Vancouver, ISO, etc.

Libros sobre el tema "Élagage de forêts aléatoires"

1

Poggi, Jean-Michel y Robin Genuer. Les forêts aléatoires avec R. PU RENNES, 2019.

Buscar texto completo
Los estilos APA, Harvard, Vancouver, ISO, etc.
Ofrecemos descuentos en todos los planes premium para autores cuyas obras están incluidas en selecciones literarias temáticas. ¡Contáctenos para obtener un código promocional único!

Pasar a la bibliografía