Добірка наукової літератури з теми "Forêt d'arbres décisionnels"

Оформте джерело за APA, MLA, Chicago, Harvard та іншими стилями

Оберіть тип джерела:

Ознайомтеся зі списками актуальних статей, книг, дисертацій, тез та інших наукових джерел на тему "Forêt d'arbres décisionnels".

Біля кожної праці в переліку літератури доступна кнопка «Додати до бібліографії». Скористайтеся нею – і ми автоматично оформимо бібліографічне посилання на обрану працю в потрібному вам стилі цитування: APA, MLA, «Гарвард», «Чикаго», «Ванкувер» тощо.

Також ви можете завантажити повний текст наукової публікації у форматі «.pdf» та прочитати онлайн анотацію до роботи, якщо відповідні параметри наявні в метаданих.

Дисертації з теми "Forêt d'arbres décisionnels":

1

Chuchuk, Olga. "Optimisation de l'accès aux données au CERN et dans la Grille de calcul mondiale pour le LHC (WLCG)." Electronic Thesis or Diss., Université Côte d'Azur, 2024. http://www.theses.fr/2024COAZ4005.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
La Grille de calcul mondiale pour le LHC (WLCG) offre une infrastructure informatique distribuée considérable dédiée à la communauté scientifique impliquée dans le Grand Collisionneur de Hadrons (LHC) du CERN. Avec un stockage total d'environ un exaoctet, le WLCG répond aux besoins de traitement et de stockage des données de milliers de scientifiques internationaux. À mesure que la phase du High-Luminosity LHC (HL-LHC) approche, le volume de données à analyser augmentera considérablement, dépassant les gains attendus grâce à l'avancement de la technologie de stockage. Par conséquent, de nouvelles approches pour un accès et une gestion efficaces des données, telles que les caches, deviennent essentielles. Cette thèse se plonge dans une exploration exhaustive de l'accès au stockage au sein du WLCG, dans le but d'améliorer le débit scientifique global tout en limitant les coûts. Au cœur de cette recherche se trouve l'analyse des journaux d'accès aux fichiers réels provenant du système de surveillance du WLCG, mettant en évidence les véritables schémas d'utilisation.Dans un contexte scientifique, la mise en cache a des implications profondes. Contrairement à des applications plus commerciales telles que la diffusion de vidéos, les caches de données scientifiques traitent des tailles de fichiers variables, allant de quelques octets à plusieurs téraoctets. De plus, les associations logiques inhérentes entre les fichiers influencent considérablement les schémas d'accès des utilisateurs. La recherche traditionnelle sur la mise en cache s'est principalement concentrée sur des tailles de fichiers uniformes et des modèles de référence indépendants. Au contraire, les charges de travail scientifiques rencontrent des variations de taille de fichier, et les interconnexions logiques entre les fichiers influencent de manière significative les schémas d'accès des utilisateurs.Mes investigations montrent comment l'organisation hiérarchique des données du LHC, en particulier leur compartimentation en "datasets", influence les schémas de demande. Reconnaissant cette opportunité, j'introduis des algorithmes de mise en cache innovants qui mettent l'accent sur la connaissance spécifique des datasets et je compare leur efficacité avec les stratégies traditionnelles axées sur les fichiers. De plus, mes découvertes mettent en évidence le phénomène des "hits retardés" déclenché par une connectivité limitée entre les sites de calcul et de stockage, mettant en lumière ses répercussions potentielles sur l'efficacité de la mise en cache.Reconnaissant le défi de longue date que représente la prédiction de la Popularité des Données dans la communauté de la Physique des Hautes Énergies (PHE), en particulier avec les énigmes de stockage à l'approche de l'ère du HL-LHC, ma recherche intègre des outils de Machine Learning (ML). Plus précisément, j'utilise l'algorithme Random Forest, connu pour sa pertinence dans le traitement des Big Data. En utilisant le ML pour prédire les futurs schémas de réutilisation des fichiers, je présente une méthode en deux étapes pour informer les politiques d'éviction de cache. Cette stratégie combine la puissance de l'analyse prédictive et des algorithmes établis d'éviction de cache, créant ainsi un système de mise en cache plus résilient pour le WLCG.En conclusion, cette recherche souligne l'importance de services de stockage robustes, suggérant une orientation vers des caches sans état pour les petits sites afin d'alléger les exigences complexes de gestion de stockage et d'ouvrir la voie à un niveau supplémentaire dans la hiérarchie de stockage. À travers cette thèse, je vise à naviguer à travers les défis et les complexités du stockage et de la récupération de données, élaborant des méthodes plus efficaces qui résonnent avec les besoins évolutifs du WLCG et de sa communauté mondiale
The Worldwide LHC Computing Grid (WLCG) offers an extensive distributed computing infrastructure dedicated to the scientific community involved with CERN's Large Hadron Collider (LHC). With storage that totals roughly an exabyte, the WLCG addresses the data processing and storage requirements of thousands of international scientists. As the High-Luminosity LHC phase approaches, the volume of data to be analysed will increase steeply, outpacing the expected gain through the advancement of storage technology. Therefore, new approaches to effective data access and management, such as caches, become essential. This thesis delves into a comprehensive exploration of storage access within the WLCG, aiming to enhance the aggregate science throughput while limiting the cost. Central to this research is the analysis of real file access logs sourced from the WLCG monitoring system, highlighting genuine usage patterns.In a scientific setting, caching has profound implications. Unlike more commercial applications such as video streaming, scientific data caches deal with varying file sizes—from a mere few bytes to multiple terabytes. Moreover, the inherent logical associations between files considerably influence user access patterns. Traditional caching research has predominantly revolved around uniform file sizes and independent reference models. Contrarily, scientific workloads encounter variances in file sizes, and logical file interconnections significantly influence user access patterns.My investigations show how LHC's hierarchical data organization, particularly its compartmentalization into datasets, impacts request patterns. Recognizing the opportunity, I introduce innovative caching policies that emphasize dataset-specific knowledge, and compare their effectiveness with traditional file-centric strategies. Furthermore, my findings underscore the "delayed hits" phenomenon triggered by limited connectivity between computing and storage locales, shedding light on its potential repercussions for caching efficiency.Acknowledging the long-standing challenge of predicting Data Popularity in the High Energy Physics (HEP) community, especially with the upcoming HL-LHC era's storage conundrums, my research integrates Machine Learning (ML) tools. Specifically, I employ the Random Forest algorithm, known for its suitability with Big Data. By harnessing ML to predict future file reuse patterns, I present a dual-stage method to inform cache eviction policies. This strategy combines the power of predictive analytics and established cache eviction algorithms, thereby devising a more resilient caching system for the WLCG. In conclusion, this research underscores the significance of robust storage services, suggesting a direction towards stateless caches for smaller sites to alleviate complex storage management requirements and open the path to an additional level in the storage hierarchy. Through this thesis, I aim to navigate the challenges and complexities of data storage and retrieval, crafting more efficient methods that resonate with the evolving needs of the WLCG and its global community
2

Caron, Maxime. "Données confidentielles : génération de jeux de données synthétisés par forêts aléatoires pour des variables catégoriques." Master's thesis, Université Laval, 2015. http://hdl.handle.net/20.500.11794/25935.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
La confidentialité des données est devenue primordiale en statistique. Une méthode souvent utilisée pour diminuer le risque de réidentification est la génération de jeux de données partiellement synthétiques. On explique le concept de jeux de données synthétiques, et on décrit une méthode basée sur les forêts aléatoires pour traiter les variables catégoriques. On s’intéresse à la formule qui permet de faire de l’inférence avec plusieurs jeux synthétiques. On montre que l’ordre des variables à synthétiser a un impact sur l’estimation de la variance des estimateurs. On propose une variante de l’algorithme inspirée du concept de confidentialité différentielle. On montre que dans ce cas, on ne peut estimer adéquatement ni un coefficient de régression, ni sa variance. On montre l’impact de l’utilisation de jeux synthétiques sur des modèles d’équations structurelles. On conclut que les jeux synthétiques ne changent pratiquement pas les coefficients entre les variables latentes et les variables mesurées.
Confidential data are very common in statistics nowadays. One way to treat them is to create partially synthetic datasets for data sharing. We will present an algorithm based on random forest to generate such datasets for categorical variables. We are interested by the formula used to make inference from multiple synthetic dataset. We show that the order of the synthesis has an impact on the estimation of the variance with the formula. We propose a variant of the algorithm inspired by differential privacy, and show that we are then not able to estimate a regression coefficient nor its variance. We show the impact of synthetic datasets on structural equations modeling. One conclusion is that the synthetic dataset does not really affect the coefficients between latent variables and measured variables.
3

Rancourt, Marie-Pierre. "Programmes d'aide à l'emploi et solidarité sociale : analyse causale des effets de la participation par l'approche des forêts aléatoires." Master's thesis, Université Laval, 2020. http://hdl.handle.net/20.500.11794/67007.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Dans ce mémoire, nous évaluons l’effet des programmes d’aide à l’emploi sur le nombre de sorties de l’aide sociale et la durée cumulative passée en dehors de celle-ci chez les prestataires vivant avec des contraintes sévères à l’emploi. Il est évident que tous les prestataires ne tireront pas les mêmes bénéfices de la participation à un programme et pour cette raison il est utile d’évaluer des effets de traitement conditionnellement aux caractéristiques de chaque individu. Pour bien répondre à la question de recherche, nous avons besoin d’une méthode flexible nous permettant d’estimer des effets de traitement hétérogènes. Pour ce faire, nous utilisons une technique d’apprentissage automatique nommée generalized random forests (grf ) nous permettant d’évaluer des effets de traitement hétérogènes en conditionnant sur les caractéristiques des individus. Nous avons utilisé une base de données fournie par le Ministère du Travail, de l’Emploi et de la Solidarité sociale (MTESS) contenant les observations mensuelles de tous les prestataires d’aide et de solidarité sociale entre 1999 et 2018 au Québec. Grâce à la méthode grf et à la base de données du MTESS, nous avons trouvé que les prestataires présentant les plus longues durées cumulatives à l’aide sociale ont des effets de traitement moins élevés que ceux présentant des durées plus courtes. Nous avons également observé que les prestataires les plus jeunes et les plus scolarisés bénéficient davantage de la participation aux programmes que les autres. C’est également le cas des individus qui ont un diagnostic auditif et de ceux qui n’ont pas un diagnostic organique.
In this thesis, we assess the effect of employment assistance programs on the number of exits from social assistance and the cumulative duration spent outside of it among beneficiaries living with severe constraints. It is obvious that not all beneficiaries will derive the same benefits from participating in a program and for this reason it is useful to assess treatment effects conditional on the characteristics of each individual. To answer the research question, we need a flexible method that allows us to estimate differentiated treatment effects based on individual characteristics. To do this, we use a machine learning technique called generalized random forests (grf ) allowing us to evaluate heterogeneous treatment effects by conditioning on the characteristics of individuals. We used a database provided by the Ministère du Travail, de l’Emploi et de la Solidarité sociale (MTESS) containing monthly observations of all recipients of social assistance between 1999 and 2018 in Quebec. Using the grf method and the MTESS database, we found that beneficiaries with the longest cumulative durations on social assistance had lower treatment effects than those with shorter durations. We also observed that the younger and more educated beneficiaries benefited more from program participation than the others. This is also the case for individuals who have an auditory diagnosis and those who do not have an organic diagnosis.
4

Djiemon, Deuga Anicet, and Deuga Anicet Djiemon. "Les forêts d'arbres décisionnels et la régression linéaire pour étudier les effets du sous-solage et des drains agricoles sur la hauteur des plants de maïs et les nappes d'eau dans un sol à perméabilité réduite." Master's thesis, Université Laval, 2019. http://hdl.handle.net/20.500.11794/34905.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Les travaux de sous-solage qui améliorent le drainage interne et décompactent des horizons rendus pratiquement imperméables par la compaction profonde seraient bénéfiques aux sols de faible perméabilité. Le sous-solage profond exécuté perpendiculairement aux drains avec un bélier (bulldozer) pourrait être plus efficace pour temporairement améliorer le drainage de ces sols qu’une sous-soleuse conventionnelle attelée à un tracteur et opérée en mode parallèle aux drains. Toutefois, les aménagements réalisés pour améliorer le drainage de surface et interne de ces sols rendent complexe l’évaluation de ces pratiques en dispositif expérimental. L’objectif principal de ce projet était de comparer les forêts d’arbres décisionnelles (FAD) à la régression linéaire multiple (RLM) pour détecter les effets du sous-solage et des systèmes de drainage souterrain et de surface sur la hauteur des plants et la profondeur moyenne de la nappe durant la saison de croissance. Un essai de sous solage a été réalisé à l’automne 2014, dans une argilelimoneuse Kamouraska naturellement mal drainée, remodelée en planches arrondies et souffrant de compaction importante. L’essai comparait un témoin sans sous-solage à quatre traitements de sous-solage, soit une sous-soleuse sur bélier ou sur tracteur, opérées parallèlement ou perpendiculairement aux drains. Chaque traitement a été répété trois fois et disposé aléatoirement en autant de blocs. Au printemps 2016, 198 puits ont été creusés à 60 cm de profondeur pour enregistrer la profondeur de la nappe sous chaque traitement entre juin et juillet 2016. La photogrammétrie a été utilisée pour estimer la hauteur des plants de maïs. Les FAD et la RLM permettent de détecter les principaux facteurs affectant la hauteur des plants de maïs et la profondeur moyenne de la nappe, soit les aménagements antérieurs pour améliorer le drainage interne et le drainage de surface des sols. Les coefficients de détermination obtenus avec les FAD (R2 ≥ 0,94) étaient toutefois plus élevés que ceux obtenus avec la RLM (R2 ≥ 0,28). Aucun traitement de sous-solage n’a amélioré significativement le drainage interne ni la hauteur des plants de maïs par rapport au témoin sans sous-solage. Les FAD permettent en outre de mieux visualiser les relations non linéaires entre les variables prédites et les autres variables, notamment la position sur la planche et la distance aux drains souterrains, et finalement de déterminer les distances aux drains souterrains optimales (< 2 m) et critiques (> 4 m), la distance optimale à la raie de curage (> 8 m) et la profondeur moyenne critique de la nappe (< 0,25 m). Les FAD permettent ainsi de prédire la hauteur des plants de maïs et la profondeur moyenne de la nappe avec une plus grande précision qu’avec la RLM.
Les travaux de sous-solage qui améliorent le drainage interne et décompactent des horizons rendus pratiquement imperméables par la compaction profonde seraient bénéfiques aux sols de faible perméabilité. Le sous-solage profond exécuté perpendiculairement aux drains avec un bélier (bulldozer) pourrait être plus efficace pour temporairement améliorer le drainage de ces sols qu’une sous-soleuse conventionnelle attelée à un tracteur et opérée en mode parallèle aux drains. Toutefois, les aménagements réalisés pour améliorer le drainage de surface et interne de ces sols rendent complexe l’évaluation de ces pratiques en dispositif expérimental. L’objectif principal de ce projet était de comparer les forêts d’arbres décisionnelles (FAD) à la régression linéaire multiple (RLM) pour détecter les effets du sous-solage et des systèmes de drainage souterrain et de surface sur la hauteur des plants et la profondeur moyenne de la nappe durant la saison de croissance. Un essai de sous solage a été réalisé à l’automne 2014, dans une argilelimoneuse Kamouraska naturellement mal drainée, remodelée en planches arrondies et souffrant de compaction importante. L’essai comparait un témoin sans sous-solage à quatre traitements de sous-solage, soit une sous-soleuse sur bélier ou sur tracteur, opérées parallèlement ou perpendiculairement aux drains. Chaque traitement a été répété trois fois et disposé aléatoirement en autant de blocs. Au printemps 2016, 198 puits ont été creusés à 60 cm de profondeur pour enregistrer la profondeur de la nappe sous chaque traitement entre juin et juillet 2016. La photogrammétrie a été utilisée pour estimer la hauteur des plants de maïs. Les FAD et la RLM permettent de détecter les principaux facteurs affectant la hauteur des plants de maïs et la profondeur moyenne de la nappe, soit les aménagements antérieurs pour améliorer le drainage interne et le drainage de surface des sols. Les coefficients de détermination obtenus avec les FAD (R2 ≥ 0,94) étaient toutefois plus élevés que ceux obtenus avec la RLM (R2 ≥ 0,28). Aucun traitement de sous-solage n’a amélioré significativement le drainage interne ni la hauteur des plants de maïs par rapport au témoin sans sous-solage. Les FAD permettent en outre de mieux visualiser les relations non linéaires entre les variables prédites et les autres variables, notamment la position sur la planche et la distance aux drains souterrains, et finalement de déterminer les distances aux drains souterrains optimales (< 2 m) et critiques (> 4 m), la distance optimale à la raie de curage (> 8 m) et la profondeur moyenne critique de la nappe (< 0,25 m). Les FAD permettent ainsi de prédire la hauteur des plants de maïs et la profondeur moyenne de la nappe avec une plus grande précision qu’avec la RLM.
5

Jabiri, Fouad. "Applications de méthodes de classification non supervisées à la détection d'anomalies." Master's thesis, Université Laval, 2020. http://hdl.handle.net/20.500.11794/67914.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Dans ce présent mémoire, nous présenterons dans un premier temps l’algorithme d’arbres binaires de partitionnement et la forêt d’isolation. Les arbres binaires sont des classificateurs très populaires dans le domaine de l’apprentissage automatique supervisé. La forêt d’isolation appartient à la famille des méthodes non supervisées. Il s’agit d’un ensemble d’arbres binaires employés en commun pour isoler les instances qui semblent aberrantes ou anormales. Par la suite, nous présenterons l’approche que nous avons nommée "Exponential smoothig" (ou "pooling"). Cette technique consiste à encoder des séquences de variables de longueurs différentes en un seul vecteur de taille fixe. En effet, l’objectif de ce mémoire est d’appliquer l’algorithme des forêts d’isolation pour identifier les anomalies dans les réclamations et les formulaires d’assurances disponibles dans la base de données d’une grande compagnie d’assurances canadienne. Cependant, un formulaire est une séquence de réclamations. Chaque réclamation est caractérisée par un ensemble de variables. Ainsi, il serait impossible d’appliquer l’algorithme des forêts d’isolation directement sur ce genre de données. Pour cette raison, nous allons appliquer le pooling. Notre application parvient effectivement à isoler des réclamations et des formulaires anormaux. Nous constatons que ces derniers ont plus tendances à être audités parla compagnie que les formulaires normaux.
In this thesis, we will first present the binary tree partitioning algorithm and isolation forests. Binary trees are very popular classifiers in supervised machine learning. The isolation forest belongs to the family of unsupervised methods. It is an ensemble of binary trees used in common to isolate outlying instances. Subsequently, we will present the approach that we have named "Exponential smoothig" (or "pooling"). This technique consists in encoding sequences of variables of different lengths into a single vector of fixed size. Indeed, the objective of this thesis is to apply the algorithm of isolation forests to identify anomalies in insurance claim forms available in the database of a large Canadian insurance company in order to detect cases of fraud. However, a form is a sequence of claims. Each claim is characterized by a set of variables and thus it will be impossible to apply the isolation forest algorithm directly to this kind of data. It is for this reason that we are going to apply Exponential smoothing. Our application effectively isolates claims and abnormal forms, and we find that the latter tend to be audited by the company more often than regular forms.
6

Samarakoon, Prasad. "Random Regression Forests for Fully Automatic Multi-Organ Localization in CT Images." Thesis, Université Grenoble Alpes (ComUE), 2016. http://www.theses.fr/2016GREAM039/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
La localisation d'un organe dans une image médicale en délimitant cet organe spécifique par rapport à une entité telle qu'une boite ou sphère englobante est appelée localisation d'organes. La localisation multi-organes a lieu lorsque plusieurs organes sont localisés simultanément. La localisation d'organes est l'une des étapes les plus cruciales qui est impliquée dans toutes les phases du traitement du patient à partir de la phase de diagnostic à la phase finale de suivi. L'utilisation de la technique d'apprentissage supervisé appelée forêts aléatoires (Random Forests) a montré des résultats très encourageants dans de nombreuses sous-disciplines de l'analyse d'images médicales. De même, Random Regression Forests (RRF), une spécialisation des forêts aléatoires pour la régression, ont produit des résultats de l'état de l'art pour la localisation automatique multi-organes.Bien que l'état de l'art des RRF montrent des résultats dans la localisation automatique de plusieurs organes, la nouveauté relative de cette méthode dans ce domaine soulève encore de nombreuses questions sur la façon d'optimiser ses paramètres pour une utilisation cohérente et efficace. Basé sur une connaissance approfondie des rouages des RRF, le premier objectif de cette thèse est de proposer une paramétrisation cohérente et automatique des RRF. Dans un second temps, nous étudions empiriquement l'hypothèse d'indépendance spatiale utilisée par RRF. Enfin, nous proposons une nouvelle spécialisation des RRF appelé "Light Random Regression Forests" pour améliorant l'empreinte mémoire et l'efficacité calculatoire
Locating an organ in a medical image by bounding that particular organ with respect to an entity such as a bounding box or sphere is termed organ localization. Multi-organ localization takes place when multiple organs are localized simultaneously. Organ localization is one of the most crucial steps that is involved in all the phases of patient treatment starting from the diagnosis phase to the final follow-up phase. The use of the supervised machine learning technique called random forests has shown very encouraging results in many sub-disciplines of medical image analysis. Similarly, Random Regression Forests (RRF), a specialization of random forests for regression, have produced the state of the art results for fully automatic multi-organ localization.Although, RRF have produced state of the art results in multi-organ segmentation, the relative novelty of the method in this field still raises numerous questions about how to optimize its parameters for consistent and efficient usage. The first objective of this thesis is to acquire a thorough knowledge of the inner workings of RRF. After achieving the above mentioned goal, we proposed a consistent and automatic parametrization of RRF. Then, we empirically proved the spatial indenpendency hypothesis used by RRF. Finally, we proposed a novel RRF specialization called Light Random Regression Forests for multi-organ localization
7

Brédy, Jhemson, and Jhemson Brédy. "Prévision de la profondeur de la nappe phréatique d'un champ de canneberges à l'aide de deux approches de modélisation des arbres de décision." Master's thesis, Université Laval, 2019. http://hdl.handle.net/20.500.11794/37875.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
La gestion intégrée de l’eau souterraine constitue un défi majeur pour les activités industrielles, agricoles et domestiques. Dans certains systèmes agricoles, une gestion optimisée de la nappe phréatique représente un facteur important pour améliorer les rendements des cultures et l’utilisation de l'eau. La prévision de la profondeur de la nappe phréatique (PNP) devient l’une des stratégies utiles pour planifier et gérer en temps réel l’eau souterraine. Cette étude propose une approche de modélisation basée sur les arbres de décision pour prédire la PNP en fonction des précipitations, des précédentes PNP et de l'évapotranspiration pour la gestion de l’eau souterraine des champs de canneberges. Premièrement, deux modèles: « Random Forest (RF) » et « Extreme Gradient Boosting (XGB) » ont été paramétrisés et comparés afin de prédirela PNP jusqu'à 48 heures. Deuxièmement, l’importance des variables prédictives a été déterminée pour analyser leur influence sur la simulation de PNP. Les mesures de PNP de trois puits d'observation dans un champ de canneberges, pour la période de croissance du 8 juillet au 30 août 2017, ont été utilisées pour entraîner et valider les modèles. Des statistiques tels que l’erreur quadratique moyenne, le coefficient de détermination et le coefficient d’efficacité de Nash-Sutcliffe sont utilisés pour mesurer la performance des modèles. Les résultats montrent que l'algorithme XGB est plus performant que le modèle RF pour prédire la PNP et est sélectionné comme le modèle optimal. Parmi les variables prédictives, les valeurs précédentes de PNP étaient les plus importantes pour la simulation de PNP, suivie par la précipitation. L’erreur de prédiction du modèle optimal pour la plage de PNP était de ± 5 cm pour les simulations de 1, 12, 24, 36 et 48 heures. Le modèle XGB fournit des informations utiles sur la dynamique de PNP et une simulation rigoureuse pour la gestion de l’irrigation des canneberges.
La gestion intégrée de l’eau souterraine constitue un défi majeur pour les activités industrielles, agricoles et domestiques. Dans certains systèmes agricoles, une gestion optimisée de la nappe phréatique représente un facteur important pour améliorer les rendements des cultures et l’utilisation de l'eau. La prévision de la profondeur de la nappe phréatique (PNP) devient l’une des stratégies utiles pour planifier et gérer en temps réel l’eau souterraine. Cette étude propose une approche de modélisation basée sur les arbres de décision pour prédire la PNP en fonction des précipitations, des précédentes PNP et de l'évapotranspiration pour la gestion de l’eau souterraine des champs de canneberges. Premièrement, deux modèles: « Random Forest (RF) » et « Extreme Gradient Boosting (XGB) » ont été paramétrisés et comparés afin de prédirela PNP jusqu'à 48 heures. Deuxièmement, l’importance des variables prédictives a été déterminée pour analyser leur influence sur la simulation de PNP. Les mesures de PNP de trois puits d'observation dans un champ de canneberges, pour la période de croissance du 8 juillet au 30 août 2017, ont été utilisées pour entraîner et valider les modèles. Des statistiques tels que l’erreur quadratique moyenne, le coefficient de détermination et le coefficient d’efficacité de Nash-Sutcliffe sont utilisés pour mesurer la performance des modèles. Les résultats montrent que l'algorithme XGB est plus performant que le modèle RF pour prédire la PNP et est sélectionné comme le modèle optimal. Parmi les variables prédictives, les valeurs précédentes de PNP étaient les plus importantes pour la simulation de PNP, suivie par la précipitation. L’erreur de prédiction du modèle optimal pour la plage de PNP était de ± 5 cm pour les simulations de 1, 12, 24, 36 et 48 heures. Le modèle XGB fournit des informations utiles sur la dynamique de PNP et une simulation rigoureuse pour la gestion de l’irrigation des canneberges.
Integrated ground water management is a major challenge for industrial, agricultural and domestic activities. In some agricultural production systems, optimized water table management represents a significant factor to improve crop yields and water use. Therefore, predicting water table depth (WTD) becomes an important means to enable real-time planning and management of groundwater resources. This study proposes a decision-tree-based modelling approach for WTD forecasting as a function of precipitation, previous WTD values and evapotranspiration with applications in groundwater resources management for cranberry farming. Firstly, two models-based decision trees, namely Random Forest (RF) and Extrem Gradient Boosting (XGB), were parameterized and compared to predict the WTD up to 48-hours ahead for a cranberry farm located in Québec, Canada. Secondly, the importance of the predictor variables was analyzed to determine their influence on WTD simulation results. WTD measurements at three observation wells within acranberry field, for the growing period from July 8, 2017 to August 30, 2017, were used for training and testing the models. Statistical parameters such as the mean squared error, coefficient of determination and Nash-Sutcliffe efficiency coefficient were used to measure models performance. The results show that the XGB algorithm outperformed the RF model for predictions of WTD and was selected as the optimal model. Among the predictor variables, the antecedent WTD was the most important for water table depth simulation, followed by the precipitation. Base on the most important variables and optimal model, the prediction error for entire WTD range was within ± 5 cm for 1-, 12-, 24-, 26-and 48-hour prediction. The XGB model can provide useful information on the WTD dynamics and a rigorous simulation for irrigation planning and management in cranberry fields.
Integrated ground water management is a major challenge for industrial, agricultural and domestic activities. In some agricultural production systems, optimized water table management represents a significant factor to improve crop yields and water use. Therefore, predicting water table depth (WTD) becomes an important means to enable real-time planning and management of groundwater resources. This study proposes a decision-tree-based modelling approach for WTD forecasting as a function of precipitation, previous WTD values and evapotranspiration with applications in groundwater resources management for cranberry farming. Firstly, two models-based decision trees, namely Random Forest (RF) and Extrem Gradient Boosting (XGB), were parameterized and compared to predict the WTD up to 48-hours ahead for a cranberry farm located in Québec, Canada. Secondly, the importance of the predictor variables was analyzed to determine their influence on WTD simulation results. WTD measurements at three observation wells within acranberry field, for the growing period from July 8, 2017 to August 30, 2017, were used for training and testing the models. Statistical parameters such as the mean squared error, coefficient of determination and Nash-Sutcliffe efficiency coefficient were used to measure models performance. The results show that the XGB algorithm outperformed the RF model for predictions of WTD and was selected as the optimal model. Among the predictor variables, the antecedent WTD was the most important for water table depth simulation, followed by the precipitation. Base on the most important variables and optimal model, the prediction error for entire WTD range was within ± 5 cm for 1-, 12-, 24-, 26-and 48-hour prediction. The XGB model can provide useful information on the WTD dynamics and a rigorous simulation for irrigation planning and management in cranberry fields.
8

Laqrichi, Safae. "Approche pour la construction de modèles d'estimation réaliste de l'effort/coût de projet dans un environnement incertain : application au domaine du développement logiciel." Thesis, Ecole nationale des Mines d'Albi-Carmaux, 2015. http://www.theses.fr/2015EMAC0013/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
L'estimation de l'effort de développement logiciel est l'une des tâches les plus importantes dans le management de projets logiciels. Elle constitue la base pour la planification, le contrôle et la prise de décision. La réalisation d'estimations fiables en phase amont des projets est une activité complexe et difficile du fait, entre autres, d'un manque d'informations sur le projet et son avenir, de changements rapides dans les méthodes et technologies liées au domaine logiciel et d'un manque d'expérience avec des projets similaires. De nombreux modèles d'estimation existent, mais il est difficile d'identifier un modèle performant pour tous les types de projets et applicable à toutes les entreprises (différents niveaux d'expérience, technologies maitrisées et pratiques de management de projet). Globalement, l'ensemble de ces modèles formule l'hypothèse forte que (1) les données collectées sont complètes et suffisantes, (2) les lois reliant les paramètres caractérisant les projets sont parfaitement identifiables et (3) que les informations sur le nouveau projet sont certaines et déterministes. Or, dans la réalité du terrain cela est difficile à assurer. Deux problématiques émergent alors de ces constats : comment sélectionner un modèle d'estimation pour une entreprise spécifique ? et comment conduire une estimation pour un nouveau projet présentant des incertitudes ? Les travaux de cette thèse s'intéressent à répondre à ces questions en proposant une approche générale d'estimation. Cette approche couvre deux phases : une phase de construction du système d'estimation et une phase d'utilisation du système pour l'estimation de nouveaux projets. La phase de construction du système d'estimation est composée de trois processus : 1) évaluation et comparaison fiable de différents modèles d'estimation, et sélection du modèle d'estimation le plus adéquat, 2) construction d'un système d'estimation réaliste à partir du modèle d'estimation sélectionné et 3) utilisation du système d'estimation dans l'estimation d'effort de nouveaux projets caractérisés par des incertitudes. Cette approche intervient comme un outil d'aide à la décision pour les chefs de projets dans l'aide à l'estimation réaliste de l'effort, des coûts et des délais de leurs projets logiciels. L'implémentation de l'ensemble des processus et pratiques développés dans le cadre de ces travaux ont donné naissance à un prototype informatique open-source. Les résultats de cette thèse s'inscrivent dans le cadre du projet ProjEstimate FUI13
Software effort estimation is one of the most important tasks in the management of software projects. It is the basis for planning, control and decision making. Achieving reliable estimates in projects upstream phases is a complex and difficult activity because, among others, of the lack of information about the project and its future, the rapid changes in the methods and technologies related to the software field and the lack of experience with similar projects. Many estimation models exist, but it is difficult to identify a successful model for all types of projects and that is applicable to all companies (different levels of experience, mastered technologies and project management practices). Overall, all of these models form the strong assumption that (1) the data collected are complete and sufficient, (2) laws linking the parameters characterizing the projects are fully identifiable and (3) information on the new project are certain and deterministic. However, in reality on the ground, that is difficult to be ensured.Two problems then emerge from these observations: how to select an estimation model for a specific company ? and how to conduct an estimate for a new project that presents uncertainties ?The work of this thesis interested in answering these questions by proposing a general estimation framework. This framework covers two phases: the construction phase of the estimation system and system usage phase for estimating new projects. The construction phase of the rating system consists of two processes: 1) evaluation and reliable comparison of different estimation models then selection the most suitable estimation model, 2) construction of a realistic estimation system from the selected estimation model and 3) use of the estimation system in estimating effort of new projects that are characterized by uncertainties. This approach acts as an aid to decision making for project managers in supporting the realistic estimate of effort, cost and time of their software projects. The implementation of all processes and practices developed as part of this work has given rise to an open-source computer prototype. The results of this thesis fall in the context of ProjEstimate FUI13 project
9

Mercadier, Mathieu. "Banking risk indicators, machine learning and one-sided concentration inequalities." Thesis, Limoges, 2020. http://aurore.unilim.fr/theses/nxfile/default/a5bdd121-a1a2-434e-b7f9-598508c52104/blobholder:0/2020LIMO0001.pdf.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Cette thèse de doctorat comprend trois essais portant sur la mise en œuvre, et le cas échéant l'amélioration, de mesures de risques financiers et l'évaluation des risques bancaires, basée sur des méthodes issues de l'apprentissage machine. Le premier chapitre élabore une formule élémentaire, appelée E2C, d'estimation des primes de risque de crédit inspirée de CreditGrades, et en améliore la précision avec un algorithme de forêts d'arbres décisionnels. Nos résultats soulignent le rôle prépondérant tenu par cet estimateur et l'apport additionnel de la notation financière et de la taille de l'entreprise considérée. Le deuxième chapitre infère une version unilatérale de l'inégalité bornant la probabilité d'une variable aléatoire distribuée unimodalement. Nos résultats montrent que l'hypothèse d'unimodalité des rendements d'actions est généralement admissible, nous permettant ainsi d'affiner les bornes de mesures de risques individuels, de commenter les implications pour des multiplicateurs de risques extrêmes, et d'en déduire des versions simplifiées des bornes de mesures de risques systémiques. Le troisième chapitre fournit un outil d'aide à la décision regroupant les banques cotées par niveau de risque en s'appuyant sur une version ajustée de l'algorithme des k-moyennes. Ce processus entièrement automatisé s'appuie sur un très large univers d'indicateurs de risques individuels et systémiques synthétisés en un sous-ensemble de facteurs représentatifs. Les résultats obtenus sont agrégés par pays et région, offrant la possibilité d'étudier des zones de fragilité. Ils soulignent l'importance d'accorder une attention particulière à l'impact ambigu de la taille des banques sur les mesures de risques systémiques
This doctoral thesis is a collection of three essays aiming to implement, and if necessary to improve, financial risk measures and to assess banking risks, using machine learning methods. The first chapter offers an elementary formula inspired by CreditGrades, called E2C, estimating CDS spreads, whose accuracy is improved by a random forest algorithm. Our results emphasize the E2C's key role and the additional contribution of a specific company's debt rating and size. The second chapter infers a one-sided version of the inequality bounding the probability of a unimodal random variable. Our results show that the unimodal assumption for stock returns is generally accepted, allowing us to refine individual risk measures' bounds, to discuss implications for tail risk multipliers, and to infer simple versions of bounds of systemic measures. The third chapter provides a decision support tool clustering listed banks depending on their riskiness using an adjusted version of the k-means algorithm. This entirely automatic process is based on a very large set of stand-alone and systemic risk indicators reduced to representative factors. The obtained results are aggregated per country and region, offering the opportunity to study zones of fragility. They underline the importance of paying a particular attention to the ambiguous impact of banks' size on systemic measures
10

Truong, Arthur. "Analyse du contenu expressif des gestes corporels." Thesis, Evry, Institut national des télécommunications, 2016. http://www.theses.fr/2016TELE0015/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Aujourd’hui, les recherches portant sur le geste manquent de modèles génériques. Les spécialistes du geste doivent osciller entre une formalisation excessivement conceptuelle et une description purement visuelle du mouvement. Nous reprenons les concepts développés par le chorégraphe Rudolf Laban pour l’analyse de la danse classique contemporaine, et proposons leur extension afin d’élaborer un modèle générique du geste basé sur ses éléments expressifs. Nous présentons également deux corpus de gestes 3D que nous avons constitués. Le premier, ORCHESTRE-3D, se compose de gestes pré-segmentés de chefs d’orchestre enregistrés en répétition. Son annotation à l’aide d’émotions musicales est destinée à l’étude du contenu émotionnel de la direction musicale. Le deuxième corpus, HTI 2014-2015, propose des séquences d’actions variées de la vie quotidienne. Dans une première approche de reconnaissance dite « globale », nous définissons un descripteur qui se rapporte à l’entièreté du geste. Ce type de caractérisation nous permet de discriminer diverses actions, ainsi que de reconnaître les différentes émotions musicales que portent les gestes des chefs d’orchestre de notre base ORCHESTRE-3D. Dans une seconde approche dite « dynamique », nous définissons un descripteur de trame gestuelle (e.g. défini pour tout instant du geste). Les descripteurs de trame sont utilisés des poses-clés du mouvement, de sorte à en obtenir à tout instant une représentation simplifiée et utilisable pour reconnaître des actions à la volée. Nous testons notre approche sur plusieurs bases de geste, dont notre propre corpus HTI 2014-2015
Nowadays, researches dealing with gesture analysis suffer from a lack of unified mathematical models. On the one hand, gesture formalizations by human sciences remain purely theoretical and are not inclined to any quantification. On the other hand, the commonly used motion descriptors are generally purely intuitive, and limited to the visual aspects of the gesture. In the present work, we retain Laban Movement Analysis (LMA – originally designed for the study of dance movements) as a framework for building our own gesture descriptors, based on expressivity. Two datasets are introduced: the first one is called ORCHESTRE-3D, and is composed of pre-segmented orchestra conductors’ gestures, which have been annotated with the help of lexicon of musical emotions. The second one, HTI 2014-2015, comprises sequences of multiple daily actions. In a first experiment, we define a global feature vector based upon the expressive indices of our model and dedicated to the characterization of the whole gesture. This descriptor is used for action recognition purpose and to discriminate the different emotions of our orchestra conductors’ dataset. In a second approach, the different elements of our expressive model are used as a frame descriptor (e.g., describing the gesture at a given time). The feature space provided by such local characteristics is used to extract key poses of the motion. With the help of such poses, we obtain a per-frame sub-representation of body motions which is available for real-time action recognition purpose

До бібліографії