Dissertations / Theses on the topic 'Apprentissage d'ensemble'

To see the other types of publications on this topic, follow the link: Apprentissage d'ensemble.

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 18 dissertations / theses for your research on the topic 'Apprentissage d'ensemble.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Guo, Li. "Classifieurs multiples intégarnt la marge d'ensemble. Application aux données de télédétection." Bordeaux 3, 2011. http://www.theses.fr/2011BOR30022.

Full text
Abstract:
Cette thèse se concentre sur l’exploitation du concept de marge d’ensemble pour concevoir de meilleurs classifieurs. Des problèmes relatifs aux données d’apprentissage, tels que la redondance, les classes déséquilibrées et le bruit, sont abordés dans un cadre intégrant la marge d’ensemble. Une définition alternative de la marge d’ensemble est à la base de ce travail. Une approche innovante pour mesurer l’importance de chaque donnée vis-à-vis du processus d’apprentissage est introduite. Nous montrons qu’il y a moins de redondance dans les instances de plus faible marge que dans celles de plus forte marge. De plus, ces instances de plus faibles marge portent plus d’informations significatives que celles de plus forte marge. Par conséquent, ces instances de faible marge ont une influence majeure dans la constitution d’un échantillon d’apprentissage adéquat pour la construction d’un classifieur fiable. Nous proposons une nouvelle méthode de bagging de frontière, basée sur ces observations. Un autre problème majeur, abordé dans cette thèse, concerne la complexité induite par une méthode d’ensemble qui, souvent, implique un nombre significatif de classifieurs de base. Une nouvelle méthode efficace d’élagage d’ensembles est proposée. Elle consiste à ordonner tous les classifieurs de base selon un critère, inspiré de l’entropie, qui exploite aussi notre nouvelle version de la marge des méthodes d’ensemble. Finalement, les méthodes d’ensemble proposées sont appliquées à l’analyse de données de télédétection à trois niveaux d’apprentissage : niveau données, niveau variables, et niveau classifieur
This dissertation focuses on exploiting the ensemble margin concept to design better ensemble classifiers. Some training data set issues, such as redundancy, imbalanced classes and noise, are investigated in an ensemble margin framework. An alternative definition of the ensemble margin is at the core of this work. An innovative approach to measure the importance of each instance in the learning process is introduced. We show that there is less redundancy among smaller margin instances than among higher margin ones. In addition, these smaller margin instances carry more significant information than higher margin instances. Therefore, these low margin instances have a major influence in forming an appropriate training set to build up a reliable classifier. Based on these observations, we propose a new boundary bagging method. Another major issue that is investigated in this thesis is the complexity induced by an ensemble approach which usually involves a significant number of base classifiers. A new efficient ensemble pruning method is proposed. It consists in ordering all the base classifiers with respect to an entropy-inspired criterion that also exploits our new version of the margin of ensemble methods. Finally, the proposed ensemble methods are applied to remote sensing data analysis at three learning levels: data level, feature level and classifier level
APA, Harvard, Vancouver, ISO, and other styles
2

Roy, Jean-Francis. "Apprentissage automatique avec garanties de généralisation à l'aide de méthodes d'ensemble maximisant le désaccord." Doctoral thesis, Université Laval, 2018. http://hdl.handle.net/20.500.11794/29563.

Full text
Abstract:
Nous nous intéressons au domaine de l’apprentissage automatique, une branche de l’intelligence artificielle. Pour résoudre une tâche de classification, un algorithme d’apprentissage observe des données étiquetées et a comme objectif d’apprendre une fonction qui sera en mesure de classifier automatiquement les données qui lui seront présentées dans le futur. Plusieurs algorithmes classiques d’apprentissage cherchent à combiner des classificateurs simples en construisant avec ceux-ci un classificateur par vote de majorité. Dans cette thèse, nous explorons l’utilisation d’une borne sur le risque du classificateur par vote de majorité, nommée la C-borne. Celle-ci est définie en fonction de deux quantités : la performance individuelle des votants, et la corrélation de leurs erreurs (leur désaccord). Nous explorons d’une part son utilisation dans des bornes de généralisation des classificateurs par vote de majorité. D’autre part, nous l’étendons de la classification binaire vers un cadre généralisé de votes de majorité. Nous nous en inspirons finalement pour développer de nouveaux algorithmes d’apprentissage automatique, qui offrent des performances comparables aux algorithmes de l’état de l’art, en retournant des votes de majorité qui maximisent le désaccord entre les votants, tout en contrôlant la performance individuelle de ceux-ci. Les garanties de généralisation que nous développons dans cette thèse sont de la famille des bornes PAC-bayésiennes. Nous généralisons celles-ci en introduisant une borne générale, à partir de laquelle peuvent être retrouvées les bornes de la littérature. De cette même borne générale, nous introduisons des bornes de généralisation basées sur la C-borne. Nous simplifions également le processus de preuve des théorèmes PAC-bayésiens, nous permettant d’obtenir deux nouvelles familles de bornes. L’une est basée sur une différente notion de complexité, la divergence de Rényi plutôt que la divergence Kullback-Leibler classique, et l’autre est spécialisée au cadre de l’apprentissage transductif plutôt que l’apprentissage inductif. Les deux algorithmes d’apprentissage que nous introduisons, MinCq et CqBoost, retournent un classificateur par vote de majorité maximisant le désaccord des votants. Un hyperparamètre permet de directement contrôler leur performance individuelle. Ces deux algorithmes étant construits pour minimiser une borne PAC-bayésienne, ils sont rigoureusement justifiés théoriquement. À l’aide d’une évaluation empirique, nous montrons que MinCq et CqBoost ont une performance comparable aux algorithmes classiques de l’état de l’art.
We focus on machine learning, a branch of artificial intelligence. When solving a classification problem, a learning algorithm is provided labelled data and has the task of learning a function that will be able to automatically classify future, unseen data. Many classical learning algorithms are designed to combine simple classifiers by building a weighted majority vote classifier out of them. In this thesis, we extend the usage of the C-bound, bound on the risk of the majority vote classifier. This bound is defined using two quantities : the individual performance of the voters, and the correlation of their errors (their disagreement). First, we design majority vote generalization bounds based on the C-bound. Then, we extend this bound from binary classification to generalized majority votes. Finally, we develop new learning algorithms with state-of-the-art performance, by constructing majority votes that maximize the voters’ disagreement, while controlling their individual performance. The generalization guarantees that we develop in this thesis are in the family of PAC-Bayesian bounds. We generalize the PAC-Bayesian theory by introducing a general theorem, from which the classical bounds from the literature can be recovered. Using this same theorem, we introduce generalization bounds based on the C-bound. We also simplify the proof process of PAC-Bayesian theorems, easing the development of new families of bounds. We introduce two new families of PAC-Bayesian bounds. One is based on a different notion of complexity than usual bounds, the Rényi divergence, instead of the classical Kullback-Leibler divergence. The second family is specialized to transductive learning, instead of inductive learning. The two learning algorithms that we introduce, MinCq and CqBoost, output a majority vote classifier that maximizes the disagreement between voters. An hyperparameter of the algorithms gives a direct control over the individual performance of the voters. These two algorithms being designed to minimize PAC-Bayesian generalization bounds on the risk of the majority vote classifier, they come with rigorous theoretical guarantees. By performing an empirical evaluation, we show that MinCq and CqBoost perform as well as classical stateof- the-art algorithms.
APA, Harvard, Vancouver, ISO, and other styles
3

Baudin, Paul. "Prévision séquentielle par agrégation d'ensemble : application à des prévisions météorologiques assorties d'incertitudes." Thesis, Université Paris-Saclay (ComUE), 2015. http://www.theses.fr/2015SACLS117/document.

Full text
Abstract:
Dans cette thèse, nous nous intéressons à des problèmes de prévision tour après tour. L'objectif est d'imaginer et d'appliquer des stratégies automatiques, qui tirent de l'expérience du passé et s'aident éventuellement de prédicteurs élémentaires. Nous souhaitons que ces stratégies obtiennent des garanties mathématiques robustes et soient valables dans des cas de figure très généraux. Cela nous permet en pratique d'appliquer les algorithmes qui en découlent à la prévision concrète de grandeurs météorologiques. Enfin, nous nous intéressons aux déclinaisons théoriques et pratiques dans un cadre de prévision de fonctions de répartition. Nous étudions dans un premier temps la prévision séquentielle de processus bornés stationnaires ergodiques. Dans ce but, nous nous plaçons dans le cadre des suites individuelles et proposons un arbre de régression déterministe dont les prévisions sont asymptotiquement meilleures que le meilleur prédicteur lipschitzien pour une certaine constante L. Puis nous montrons que les bornes de regret obtenues impliquent que les stratégies envisagées sont asymptotiquement optimales par rapport à la classe des processus stationnaire ergodique bornés. Dans un second temps, nous présentons une méthode d'agrégation séquentielle des simulations météorologiques de pression réduite au niveau de la mer. L'objectif est d'obtenir, grâce à l'algorithme ridge, de meilleures performances en prévision qu'une certaine prévision de référence, à préciser. Tout d'abord, nous rappelons le cadre mathématique et les fondamentaux des sciences environnementales. Puis nous décrivons en détail les jeux de données utilisés et les performances pratiques de l'algorithme. Enfin, nous précisons certains aspects du jeu de données et certaines sensibilités aux paramètres l'algorithme ridge. Puis, nous déclinons la méthode précédente à l'étude d'une seconde grandeur physique : la norme de la vitesse du vent à dix mètres au-dessus du sol. Plusieurs remarques d'ordre physique sont faites au passage concernant ce jeu de données. Dans le dernier chapitre, nous présentons les enjeux et les outils de la prévision probabiliste avant de mettre en pratique deux algorithmes sur les jeux de données décrits précédemment. La première partie motive l'utilisation de prévisions probabilistes et expose l'état de l'art dans ce domaine et la seconde partie présente des scores probabilistes historiques et populaires. Les algorithmes utilisés sont ensuite décrits dans la troisième partie avant que ne soient détaillés les résultats empiriques de ceux-ci sur les jeux de données de pression réduite au niveau de la mer et de norme de la vitesse du vent
In this thesis, we study sequential prediction problems. The goal is to devise and apply automatic strategy, learning from the past, with potential help from basis predictors. We desire these strategies to have strong mathematical guarantees and to be valid in the most general cases. This enables us to apply the algorithms deriving from the strategies to meteorological data predictions. Finally, we are interested in theoretical and practical versions of this sequential prediction framework to cumulative density function prediction. Firstly, we study online prediction of bounded stationary ergodic processes. To do so, we consider the setting of prediction of individual sequences and propose a deterministic regression tree that performs asymptotically as well as the best L-Lipschitz predictor. Then, we show why the obtained regret bound entails the asymptotical optimality with respect to the class of bounded stationary ergodic processes. Secondly, we propose a specific sequential aggregation method of meteorological simulation of mean sea level pressure. The aim is to obtain, with a ridge regression algorithm, better prediction performance than a reference prediction, belonging to the constant linear prediction of basis predictors. We begin by recalling the mathematical framework and basic notions of environmental science. Then, the used datasets and practical performance of strategies are studied, as well as the sensitivity of the algorithm to parameter tuning. We then transpose the former method to another meteorological variable: the wind speed 10 meter above ground. This study shows that the wind speed exhibits different behaviors on a macro level. In the last chapter, we present the tools used in a probabilistic prediction framework and underline their merits. First, we explain the relevancy of probabilistic prediction and expose this domain's state of the art. We carry on with an historical approach of popular probabilistic scores. The used algorithms are then thoroughly described before the descriptions of their empirical results on the mean sea level pressure and wind speed
APA, Harvard, Vancouver, ISO, and other styles
4

Loth, Manuel. "Algorithmes d'Ensemble Actif pour le LASSO." Phd thesis, Université des Sciences et Technologie de Lille - Lille I, 2011. http://tel.archives-ouvertes.fr/tel-00845441.

Full text
Abstract:
Cette thèse aborde le calcul de l'opérateur LASSO (Least Absolute Shrinkage and Selection Operator), ainsi que des problématiques qui lui sont associées, dans le domaine de la régression. Cet opérateur a suscité une attention croissante depuis son introduction par Robert Tibshirani en 1996, par sa capacité à produire ou identi fier des modèles linéaires parcimonieux à partir d'observations bruitées, la parcimonie signi fiant que seules quelques unes parmi de nombreuses variables explicatives apparaissent dans le modèle proposé. Cette sélection est produite par l'ajout à la méthode des moindres-carrés d'une contrainte ou pénalisation sur la somme des valeurs absolues des coe fficients linéaires, également appelée norme l1 du vecteur de coeffi cients. Après un rappel des motivations, principes et problématiques de la régression, des estimateurs linéaires, de la méthode des moindres-carrés, de la sélection de modèle et de la régularisation, les deux formulations équivalentes du LASSO contrainte ou régularisée sont présentées; elles dé finissent toutes deux un problème de calcul non trivial pour associer un estimateur à un ensemble d'observations et un paramètre de sélection. Un bref historique des algorithmes résolvant ce problème est dressé, et les deux approches permettant de gérer la non-di fferentiabilité de la norme l1 sont présentées, ainsi que l'équivalence de ces problèmes avec un programme quadratique. La seconde partie se concentre sur l'aspect pratique des algorithmes de résolution du LASSO. L'un d'eux, proposé par Michael Osborne en 2000, est reformulé. Cette reformulation consiste à donner une défi nition et explication générales de la méthode d'ensemble actif, qui généralise l'algorithme du simplex à la programmation convexe, puis à la spéci fier progressivement pour la programmation LASSO, et à adresser les questions d'optimisation des calculs algébriques. Bien que décrivant essentiellement le même algorithme que celui de Michael Osborne, la présentation qui en est faite ici a l'ambition d'en exposer clairement les mécanismes, et utilise des variables di fférentes. Outre le fait d'aider à mieux comprendre cet algorithme visiblement sous-estimé, l'angle par lequel il est présenté éclaire le fait nouveau que la même méthode s'applique naturellement à la formulation régularisée du LASSO, et non uniquement à la formulation contrainte. La populaire méthode par homotopie (ou LAR-LASSO, ou LARS) est ensuite présentée comme une dérivation de la méthode d'ensemble actif, amenant une formulation alternative et quelque peu simpli fiée de cet algorithme qui fournit les solutions du LASSO pour chaque valeur de son paramètre. Il est montré que, contrairement aux résultats d'une étude récente de Jerome H. Friedman, des implémentations de ces algorithmes suivant ces reformulations sont plus effi caces en terme de temps de calcul qu'une méthode de descente par coordonnées. La troisième partie étudie dans quelles mesures ces trois algorithmes (ensemble actif, homotopie, et descente par coordonnées) peuvent gérer certains cas particuliers, et peuvent être appliqués à des extensions du LASSO ou d'autres problèmes similaires. Les cas particuliers incluent les dégénérescences, comme la présence de variables lineairement dépendantes, ou la sélection/désélection simultanée de variables. Cette dernière problématique, qui était délaissée dans les travaux précédents, est ici expliquée plus largement et une solution simple et efficace y est apportée. Une autre cas particulier est la sélection LASSO à partir d'un nombre très large, voire infi ni de variables, cas pour lequel la méthode d'ensemble actif présente un avantage majeur. Une des extensions du LASSO est sa transposition dans un cadre d'apprentissage en ligne, où il est désirable ou nécessaire de résoudre le problème sur un ensemble d'observations qui évolue dans le temps. A nouveau, la flexibilité limitée de la méthode par homotopie la disquali fie au pro fit des deux autres. Une autre extension est l'utilisation de la pénalisation l1 sur d'autres fonction coûts que la norme l2 du résidu, ou en association avec d'autres pénalisations, et il est rappelé ou établi dans quelles mesures et de quelle façon chaque algorithme peut être transposé à ces problèmes.
APA, Harvard, Vancouver, ISO, and other styles
5

Tran, Anh-Tuan. "Ensemble learning-based approach for the global minimum variance portfolio." Electronic Thesis or Diss., Université Paris sciences et lettres, 2024. http://www.theses.fr/2024UPSLP010.

Full text
Abstract:
Ensemble Learning a une idée simple selon laquelle la combinaison de plusieurs algorithmes d'apprentissage a tendance à donner un meilleur résultat que n'importe quel algorithme d'apprentissage unique. Empiriquement, la méthode d'ensemble est meilleure si ses modèles de base sont diversifiés même s'il s'agit d'algorithmes aléatoires non intuitifs tels que des arbres de décision aléatoires. En raison de ses avantages, Ensemble Learning est utilisé dans diverses applications telles que les problèmes de détection de fraude. Plus en détail, les avantages d'Ensemble Learning tiennent à deux points : i) combine les points forts de ses modèles de base afin que chaque modèle soit complémentaire l'un de l'autre et ii) neutralise le bruit et les valeurs aberrantes parmi tous les modèles de base puis réduit leurs impacts sur le prévisions finales. Nous utilisons ces deux idées d'Ensemble Learning pour différentes applications dans les secteurs de l'apprentissage automatique et de la finance. Nos principales contributions dans cette thèse sont : i) traiter efficacement un scénario difficile de problème de données de déséquilibre dans l'apprentissage automatique, qui est un problème de données volumineuses extrêmement déséquilibré en utilisant la technique de sous-échantillonnage et l'apprentissage d'ensemble, ii) appliquer de manière appropriée la validation croisée des séries chronologiques et l'Ensemble Learning pour résoudre un problème de sélection d'estimateur de matrice de covariance dans le trading quantitatif et iii) réduire l'impact des valeurs aberrantes dans les estimations de la matrice de covariance afin d'augmenter la stabilité des portefeuilles en utilisant le sous-échantillonnage et l'Ensemble Learning
Ensemble Learning has a simple idea that combining several learning algorithms tend to yield a better result than any single learning algorithm. Empirically, the ensemble method is better if its base models are diversified even if they are non-intuitively random algorithms such as random decision trees. Because of its advantages, Ensemble Learning is used in various applications such as fraud detection problems. In more detail, the advantages of Ensemble Learning are because of two points: i) combines the strengths of its base models then each model is complementary to one another and ii) neutralizes the noise and outliers among all base models then reduces their impacts on the final predictions. We use these two ideas of Ensemble Learning for different applications in the Machine Learning and the Finance industry. Our main contributions in this thesis are: i) efficiently deal with a hard scenario of imbalance data problem in the Machine Learning which is extremely imbalance big data problem by using undersampling technique and the Ensemble Learning, ii) appropriately apply time-series Cross-Validation and the Ensemble Learning to resolve a covariance matrix estimator selection problem in Quantitative Trading and iii) reduce the impact of outliers in covariance matrix estimations in order to increase the stability of portfolios by using the undersampling and the Ensemble Learning
APA, Harvard, Vancouver, ISO, and other styles
6

Thorey, Jean. "Prévision d’ensemble par agrégation séquentielle appliquée à la prévision de production d’énergie photovoltaïque." Thesis, Paris 6, 2017. http://www.theses.fr/2017PA066526/document.

Full text
Abstract:
Notre principal objectif est d'améliorer la qualité des prévisions de production d'énergie photovoltaïque (PV). Ces prévisions sont imparfaites à cause des incertitudes météorologiques et de l'imprécision des modèles statistiques convertissant les prévisions météorologiques en prévisions de production d'énergie. Grâce à une ou plusieurs prévisions météorologiques, nous générons de multiples prévisions de production PV et nous construisons une combinaison linéaire de ces prévisions de production. La minimisation du Continuous Ranked Probability Score (CRPS) permet de calibrer statistiquement la combinaison de ces prévisions, et délivre une prévision probabiliste sous la forme d'une fonction de répartition empirique pondérée.Dans ce contexte, nous proposons une étude du biais du CRPS et une étude des propriétés des scores propres pouvant se décomposer en somme de scores pondérés par seuil ou en somme de scores pondérés par quantile. Des techniques d'apprentissage séquentiel sont mises en oeuvre pour réaliser cette minimisation. Ces techniques fournissent des garanties théoriques de robustesse en termes de qualité de prévision, sous des hypothèses minimes. Ces méthodes sont appliquées à la prévision d'ensoleillement et à la prévision de production PV, fondée sur des prévisions météorologiques à haute résolution et sur des ensembles de prévisions classiques
Our main objective is to improve the quality of photovoltaic power forecasts deriving from weather forecasts. Such forecasts are imperfect due to meteorological uncertainties and statistical modeling inaccuracies in the conversion of weather forecasts to power forecasts. First we gather several weather forecasts, secondly we generate multiple photovoltaic power forecasts, and finally we build linear combinations of the power forecasts. The minimization of the Continuous Ranked Probability Score (CRPS) allows to statistically calibrate the combination of these forecasts, and provides probabilistic forecasts under the form of a weighted empirical distribution function. We investigate the CRPS bias in this context and several properties of scoring rules which can be seen as a sum of quantile-weighted losses or a sum of threshold-weighted losses. The minimization procedure is achieved with online learning techniques. Such techniques come with theoretical guarantees of robustness on the predictive power of the combination of the forecasts. Essentially no assumptions are needed for the theoretical guarantees to hold. The proposed methods are applied to the forecast of solar radiation using satellite data, and the forecast of photovoltaic power based on high-resolution weather forecasts and standard ensembles of forecasts
APA, Harvard, Vancouver, ISO, and other styles
7

Jaber, Ghazal. "An approach for online learning in the presence of concept changes." Phd thesis, Université Paris Sud - Paris XI, 2013. http://tel.archives-ouvertes.fr/tel-00907486.

Full text
Abstract:
Learning from data streams is emerging as an important application area. When the environment changes, it is necessary to rely on on-line learning with the capability to adapt to changing conditions a.k.a. concept drifts. Adapting to concept drifts entails forgetting some or all of the old acquired knowledge when the concept changes while accumulating knowledge regarding the supposedly stationary underlying concept. This tradeoff is called the stability-plasticity dilemma. Ensemble methods have been among the most successful approaches. However, the management of the ensemble which ultimately controls how past data is forgotten has not been thoroughly investigated so far. Our work shows the importance of the forgetting strategy by comparing several approaches. The results thus obtained lead us to propose a new ensemble method with an enhanced forgetting strategy to adapt to concept drifts. Experimental comparisons show that our method compares favorably with the well-known state-of-the-art systems. The majority of previous works focused only on means to detect changes and to adapt to them. In our work, we go one step further by introducing a meta-learning mechanism that is able to detect relevant states of the environment, to recognize recurring contexts and to anticipate likely concepts changes. Hence, the method we suggest, deals with both the challenge of optimizing the stability-plasticity dilemma and with the anticipation and recognition of incoming concepts. This is accomplished through an ensemble method that controls a ensemble of incremental learners. The management of the ensemble of learners enables one to naturally adapt to the dynamics of the concept changes with very few parameters to set, while a learning mechanism managing the changes in the ensemble provides means for the anticipation of, and the quick adaptation to, the underlying modification of the context.
APA, Harvard, Vancouver, ISO, and other styles
8

Boulegane, Dihia. "Machine learning algorithms for dynamic Internet of Things." Electronic Thesis or Diss., Institut polytechnique de Paris, 2021. http://www.theses.fr/2021IPPAT048.

Full text
Abstract:
La croissance rapide de l’Internet des Objets (IdO) ainsi que la prolifération des capteurs ont donné lieu à diverses sources de données qui génèrent continuellement de grandes quantités de données et à une grande vitesse sous la forme de flux. Ces flux sont essentiels dans le processus de prise de décision dans différents secteurs d’activité et ce grâce aux techniques d’intelligence artificielle et d’apprentissage automatique afin d’extraire des connaissances précieuses et les transformer en actions pertinentes. Par ailleurs, les données sont souvent associées à un indicateur temporel, appelé flux de données temporel qui est défini comme étant une séquence infinie d’observations capturées à intervalles réguliers, mais pas nécessairement. La prévision est une tâche complexe dans le domaine de l’IA et vise à comprendre le processus générant les observations au fil du temps sur la base d’un historique de données afin de prédire le comportement futur. L’apprentissage incremental et adaptatif est le domaine de recherche émergeant dédié à l’analyse des flux de données. La thèse se penche sur les méthodes d’ensemble qui fusionnent de manière dynamique plusieurs modèles prédictifs accomplissant ainsi des résultats compétitifs malgré leur coût élevé en termes de mémoire et de temps de calcul. Nous étudions différentes approches pour estimer la performance de chaque modèle de prévision individuel compris dans l’ensemble en fonction des données en introduisant de nouvelles méthodes basées sur le fenêtrage et le méta-apprentissage. Nous proposons différentes méthodes de sélection qui visent à constituer un comité de modèles précis et divers. Les prédictions de ces modèles sont ensuite pondérées et agrégées. La deuxième partie de la thèse traite de la compression des méthodes d’ensemble qui vise à produire un modèle individuel afin d’imiter le comportement d’un ensemble complexe tout en réduisant son coût. Pour finir, nous présentons ”Real-Time Machine Learning Competition on Data Streams”, dans le cadre de BigDataCup Challenge de la conférence IEEE Big Data 2019 ainsi que la plateforme dédiée SCALAR
With the rapid growth of Internet-of-Things (IoT) devices and sensors, sources that are continuously releasing and curating vast amount of data at high pace in the form of stream. The ubiquitous data streams are essential for data driven decisionmaking in different business sectors using Artificial Intelligence (AI) and Machine Learning (ML) techniques in order to extract valuable knowledge and turn it to appropriate actions. Besides, the data being collected is often associated with a temporal indicator, referred to as temporal data stream that is a potentially infinite sequence of observations captured over time at regular intervals, but not necessarily. Forecasting is a challenging tasks in the field of AI and aims at understanding the process generating the observations over time based on past data in order to accurately predict future behavior. Stream Learning is the emerging research field which focuses on learning from infinite and evolving data streams. The thesis tackles dynamic model combination that achieves competitive results despite their high computational costs in terms of memory and time. We study several approaches to estimate the predictive performance of individual forecasting models according to the data and contribute by introducing novel windowing and meta-learning based methods to cope with evolving data streams. Subsequently, we propose different selection methods that aim at constituting a committee of accurate and diverse models. The predictions of these models are then weighted and aggregated. The second part addresses model compression that aims at building a single model to mimic the behavior of a highly performing and complex ensemble while reducing its complexity. Finally, we present the first streaming competition ”Real-time Machine Learning Competition on Data Streams”, at the IEEE Big Data 2019 conference, using the new SCALAR platform
APA, Harvard, Vancouver, ISO, and other styles
9

Tremblay, Guillaume. "Optimisation d'ensembles de classifieurs non paramétriques avec apprentissage par représentation partielle de l'information." Mémoire, École de technologie supérieure, 2004. http://espace.etsmtl.ca/716/1/TREMBLAY_Guillaume.pdf.

Full text
Abstract:
L'un des défis de la reconnaissance de formes (RF) est de concevoir des systèmes à la fois simples (peu de paramètres, faible coût de calcul) et performants (haut taux de reconnaissance). Il est démontré que les ensembles de classifieurs (EoC) peuvent permettre d'obtenir de meilleures performances qu'un classifieur unique, d'où la recherche d'un compromis entre simplicité et performance. L'utilisation de classifieurs non paramétriques de type k-NN ayant une représentation partielle de l'information favorise toutefois la simplicité d'un système de RF. Dans le présent travail, nous avons utilisé un tel ensemble de k-NN pour vérifier s'il était possible de concevoir des EoC par sélection de classifieurs pour améliorer la simplicité tout en augmentant la performance du système. L'utilisation d'un algorithme d'optimisation pouvant explorer de grands espaces mal définis est nécessaire pour atteindre cet objectif. Afin d'aider la recherche, différentes mesures de «diversité» sont proposées dans la littérature. Nous avons tenté d'optimiser un EoC à l'aide de différentes méthodes de recherche et avons testé l'effet de la maximisation conjointe de la performance avec un échantillon des mesures de diversité les plus populaires. Toutes les expériences ont été répétées 30 fois de façon à pouvoir comparer, à l'aide de tests statistiques, les différentes approches évaluées. Nous avons découvert que la maximisation conjointe de la simplicité et de la performance était la meilleure façon de créer un ensemble optimisant ces deux objectifs. Par contre, pour générer des ensembles ayant une performance maximale, l'utilisation d'un algorithme de recherche à un seul objectif est préférable. Contrairement à nos attentes, il n'a pas été possible de démontrer un avantage significatif à l'utilisation d'une mesure de diversité comme critère d'optimisation. À notre connaissance, c'était la première fois qu'était étudiée de manière exhaustive la façon de faire de la sélection de classifieurs de type k-NN basés sur le paradigme des sous-espaces aléatoires. L'application systématique de tests statistiques pour valider les résultats des stratégies de sélection de classifieurs a été rendue possible grâce à l'utilisation d'une grappe d'ordinateurs et à la création de base de données de votes précalculés. Cette validation statistique est rarement mise en oeuvre dans le domaine.
APA, Harvard, Vancouver, ISO, and other styles
10

Faddoul, Jean Baptiste. "Modèles d'Ensembles pour l'Apprentissage Multi-Tache, avec des taches Hétérogènes et sans Restrictions." Phd thesis, Université Charles de Gaulle - Lille III, 2012. http://tel.archives-ouvertes.fr/tel-00712710.

Full text
Abstract:
Apprendre des tâches simultanément peut améliorer le performance de prédiction par rapport à l'apprentissage de ces tâches de manière indépendante. dans cette thèse, nous considérons l'apprentissage multi-tâche lorsque le nombre de tâches est grand. En outre, nous détendons des restrictions imposées sur les tâches. Ces restrictions peuvent trouvées dans les méthodes de l'état de l'art. Plus précisément on trouve les restrictions suivantes : l'imposition du même espace d'étiquette sur les tâches, l'exigence des mêmes examples d'apprentissage entre tâches et / ou supposant une hypothèse de corrélation globale entre tâches. Nous proposons des nouveaux classificateurs multi-tâches qui relaxent les restrictions précédentes. Nos classificateurs sont considérés en fonction de la théorie de l'apprentissage PAC des classifieurs faibles, donc, afin de parvenir à un faible taux d'erreur de classification, un ensemble de ces classifieurs faibles doivent être appris. Ce cadre est appelé l'apprentissage d'ensembles, dans lequel nous proposons un algorithme d'apprentissage multi-tâche inspirée de l'algorithme Adaboost pour seule tâche. Différentes variantes sont proposées également, à savoir, les forêts aléatoires pour le multi-tâche, c'est une méthode d'apprentissage d'ensemble, mais fondée sur le principe statistique d'échantillonnage Bootstrap. Enfin, nous donnons une validation expérimentale qui montre que approche sur-performe des méthodes existants et permet d'apprendre des nouvelles configurations de tâches qui ne correspondent pas aux méthodes de l'état de l'art.
APA, Harvard, Vancouver, ISO, and other styles
11

Ezzeddine, Diala. "A contribution to topological learning and its application in Social Networks." Thesis, Lyon 2, 2014. http://www.theses.fr/2014LYO22011/document.

Full text
Abstract:
L'Apprentissage Supervisé est un domaine populaire de l'Apprentissage Automatique en progrès constant depuis plusieurs années. De nombreuses techniques ont été développées pour résoudre le problème de classification, mais, dans la plupart des cas, ces méthodes se basent sur la présence et le nombre de points d'une classe donnée dans des zones de l'espace que doit définir le classifieur. Á cause de cela la construction de ce classifieur est dépendante de la densité du nuage de points des données de départ. Dans cette thèse, nous montrons qu'utiliser la topologie des données peut être une bonne alternative lors de la construction des classifieurs. Pour cela, nous proposons d'utiliser les graphes topologiques comme le Graphe de Gabriel (GG) ou le Graphes des Voisins Relatifs (RNG). Ces dernier représentent la topologie de données car ils sont basées sur la notion de voisinages et ne sont pas dépendant de la densité. Pour appliquer ce concept, nous créons une nouvelle méthode appelée Classification aléatoire par Voisinages (Random Neighborhood Classification (RNC)). Cette méthode utilise des graphes topologiques pour construire des classifieurs. De plus, comme une Méthodes Ensemble (EM), elle utilise plusieurs classifieurs pour extraire toutes les informations pertinentes des données. Les EM sont bien connues dans l'Apprentissage Automatique. Elles génèrent de nombreux classifieurs à partir des données, puis agrègent ces classifieurs en un seul. Le classifieur global obtenu est reconnu pour être très eficace, ce qui a été montré dans de nombreuses études. Cela est possible car il s'appuie sur des informations obtenues auprès de chaque classifieur qui le compose. Nous avons comparé RNC à d'autres méthodes de classification supervisées connues sur des données issues du référentiel UCI Irvine. Nous constatons que RNC fonctionne bien par rapport aux meilleurs d'entre elles, telles que les Forêts Aléatoires (RF) et Support Vector Machines (SVM). La plupart du temps, RNC se classe parmi les trois premières méthodes en terme d'eficacité. Ce résultat nous a encouragé à étudier RNC sur des données réelles comme les tweets. Twitter est un réseau social de micro-blogging. Il est particulièrement utile pour étudier l'opinion à propos de l'actualité et sur tout sujet, en particulier la politique. Cependant, l'extraction de l'opinion politique depuis Twitter pose des défis particuliers. En effet, la taille des messages, le niveau de langage utilisé et ambiguïté des messages rend très diffcile d'utiliser les outils classiques d'analyse de texte basés sur des calculs de fréquence de mots ou des analyses en profondeur de phrases. C'est cela qui a motivé cette étude. Nous proposons d'étudier les couples auteur/sujet pour classer le tweet en fonction de l'opinion de son auteur à propos d'un politicien (un sujet du tweet). Nous proposons une procédure qui porte sur l'identification de ces opinions. Nous pensons que les tweets expriment rarement une opinion objective sur telle ou telle action d'un homme politique mais plus souvent une conviction profonde de son auteur à propos d'un mouvement politique. Détecter l'opinion de quelques auteurs nous permet ensuite d'utiliser la similitude dans les termes employés par les autres pour retrouver ces convictions à plus grande échelle. Cette procédure à 2 étapes, tout d'abord identifier l'opinion de quelques couples de manière semi-automatique afin de constituer un référentiel, puis ensuite d'utiliser l'ensemble des tweets d'un couple (tous les tweets d'un auteur mentionnant un politicien) pour les comparer avec ceux du référentiel. L'Apprentissage Topologique semble être un domaine très intéressant à étudier, en particulier pour résoudre les problèmes de classification
Supervised Learning is a popular field of Machine Learning that has made recent progress. In particular, many methods and procedures have been developed to solve the classification problem. Most classical methods in Supervised Learning use the density estimation of data to construct their classifiers.In this dissertation, we show that the topology of data can be a good alternative in constructing classifiers. We propose using topological graphs like Gabriel graphs (GG) and Relative Neighborhood Graphs (RNG) that can build the topology of data based on its neighborhood structure. To apply this concept, we create a new method called Random Neighborhood Classification (RNC).In this method, we use topological graphs to construct classifiers and then apply Ensemble Methods (EM) to get all relevant information from the data. EM is well known in Machine Learning, generates many classifiers from data and then aggregates these classifiers into one. Aggregate classifiers have been shown to be very efficient in many studies, because it leverages relevant and effective information from each generated classifier. We first compare RNC to other known classification methods using data from the UCI Irvine repository. We find that RNC works very well compared to very efficient methods such as Random Forests and Support Vector Machines. Most of the time, it ranks in the top three methods in efficiency. This result has encouraged us to study the efficiency of RNC on real data like tweets. Twitter, a microblogging Social Network, is especially useful to mine opinion on current affairs and topics that span the range of human interest, including politics. Mining political opinion from Twitter poses peculiar challenges such as the versatility of the authors when they express their political view, that motivate this study. We define a new attribute, called couple, that will be very helpful in the process to study the tweets opinion. A couple is an author that talk about a politician. We propose a new procedure that focuses on identifying the opinion on tweet using couples. We think that focusing on the couples's opinion expressed by several tweets can overcome the problems of analysing each single tweet. This approach can be useful to avoid the versatility, language ambiguity and many other artifacts that are easy to understand for a human being but not automatically for a machine.We use classical Machine Learning techniques like KNN, Random Forests (RF) and also our method RNC. We proceed in two steps : First, we build a reference set of classified couples using Naive Bayes. We also apply a second alternative method to Naive method, sampling plan procedure, to compare and evaluate the results of Naive method. Second, we evaluate the performance of this approach using proximity measures in order to use RNC, RF and KNN. The expirements used are based on real data of tweets from the French presidential election in 2012. The results show that this approach works well and that RNC performs very good in order to classify opinion in tweets.Topological Learning seems to be very intersting field to study, in particular to address the classification problem. Many concepts to get informations from topological graphs need to analyse like the ones described by Aupetit, M. in his work (2005). Our work show that Topological Learning can be an effective way to perform classification problem
APA, Harvard, Vancouver, ISO, and other styles
12

Gacquer, David. "Sur l'utilisation active de la diversité dans la construction d'ensembles classifieurs : application à la détection de fumées nocives sur site industriel." Valenciennes, 2009. http://ged.univ-valenciennes.fr/nuxeo/site/esupversions/2a04cf89-c324-43d6-a36b-052aa232f813.

Full text
Abstract:
L'influence de la diversité lors de la construction d'ensembles de classifieurs soulève de nombreuses discussions en Apprentissage Automatique. L’une des méthodes pour construire un ensemble de classifieurs, suit le paradigme « Surproduction et Sélection » et consiste à sélectionner certains membres d’un ensemble de classifieurs selon des critères prédéfinis. Les travaux présentés dans cette thèse ont pour objectif d'étudier le compromis entre la précision et la diversité qui caraCtérisent les ensembles de classifieurs. Nous présentons différents algorithmes d'apprentissage ainsi que les méthodes ensemblistes les plus fréquemment citées dans la littérature. Nous définissons ensuite le concept de diversité dans les ensembles de classifieurs ainsi que les différentes méthodes permettant de l'exploiter lors de la création de l'ensemble. Nous proposons un algorithme génétique que nous comparons avec différentes heuristiques de sélection de classifieurs proposées dans la littérature pour construire un ensemble selon le paradigme Surproduction et Sélection. Nous appliquons nos travaux de recherche au développement d'un système de classification supervisée pour le contrôle de la pollution atmosphérique sur des sites industriels. Ce système est basé sur l'analyse par traitement d'image concernant des situations à risque enregistrées à l'aide de caméras. Son principal objectif est de détecter des fumées nocives émises par des usines sidérurgiques ou pétrochimiques
Discussions about the influence of diversity when designing Multiple Classifier Systems is an active topic in Machine Learning. One possible way of considering the design of Multiple Classifier Systems is to select the ensemble members from a large pool of classifiers focusing on predefined criteria, which is known as the Overproduce and Choose paradigm. The objective of this PhD Thesis is to study the trade-off between accuracy and diversity which exists in multiple classifier systems. We review some well known Machine Learning algorithms and ensemble learning techniques from the literature and we present in details the concept of diversity and the way it is used by certain ensemble learning algorithms. We propose a genetic heuristic to design multiple classifier systems by controlling the trade-off between diversity and accuracy when selecting individual classifiers. We compare the proposed genetic selection with several heuristics described in the literature to build multiple classifier systems under the Overproduce and Choose paradigm. The application of our research work concerns the development of a supervised classification system to control atmospheric pollution around industrial complexes. This system is based on the analysis of visual scenes recorded by cameras and aims at detecting dangerous smoke trails rejected by steelworks or chemical factories
APA, Harvard, Vancouver, ISO, and other styles
13

Hadjem, Medina. "Contribution à l'analyse et à la détection automatique d'anomalies ECG dans le cas de l'ischémie myocardique." Thesis, Sorbonne Paris Cité, 2016. http://www.theses.fr/2016USPCB011.

Full text
Abstract:
Les récentes avancées dans le domaine de la miniaturisation des capteurs biomédicaux à ultra-faible consommation énergétique, permettent aujourd’hui la conception de systèmes de télésurveillance médicale, à la fois plus intelligents et moins invasifs. Ces capteurs sont capables de collecter des signaux vitaux tels que le rythme cardiaq ue, la température, la saturation en oxygène, la pression artérielle, l'ECG, l'EMG, etc., et de les transmettre sans fil à un smartphone ou un autre dispositif distant. Ces avancées sus-citées ont conduit une large communauté scientifique à s'intéresser à la conception de nouveaux systèmes d'analyse de données biomédicales, en particulier de l’électrocardiogramme (ECG). S’inscrivant dans cette thématique de recherche, la présente thèse s’intéresse principalement à l’analyse et à la détection automatique des maladies cardiaques coronariennes, en particulier l’ischémie myocardique et l’infarctus du myocarde (IDM). A cette fin, et compte tenu de la nature non stationnaire et fortement bruitée du signal ECG, le premier défi a été d'extraire les paramètres pertinents de l’ECG, sans altérer leurs caractéristiques essentielles. Cette problématique a déjà fait l’objet de plusieurs travaux et ne représente pas l’objectif principal de cette thèse. Néanmoins, étant un prérequis incontournable, elle a nécessité une étude et une compréhension de l'état de l'art afin de sélectionner la méthode la plus appropriée. En s'appuyant sur les paramètres ECG extraits, en particulier les paramètres relatifs au segment ST et à l'onde T, nous avons contribué dans cette thèse par deux approches d'analyse ECG : (1) Une première analyse réalisée au niveau de la série temporelle des paramètres ECG, son objectif est de détecter les élévations anormales du segment ST et de l'onde T, connues pour être un signe précoce d'une ischémie myocardique ou d’un IDM. (2) Une deuxième analyse réalisée au niveau des battements de l’ECG, dont l’objectif est la classification des anomalies du segment ST et de l’onde T en différentes catégories. Cette dernière approche est la plus utilisée dans la littérature, cependant, il est difficile d’interpréter les résultats des travaux existants en raison de l'absence d’une méthodologie standard de classification. Nous avons donc réalisé notre propre étude comparative des principales méthodes de classification utilisées dans la littérature, en prenant en compte diverses classes d'anomalies ST et T, plusieurs paramètres d'évaluation des performances ainsi que plusieurs dérivations du signal ECG. Afin d'aboutir à des résultats plus significatifs, nous avons également réalisé la même étude en prenant en compte la présence d'autres anomalies cardiaques fréquentes dans l’ECG (arythmies). Enfin, en nous basant sur les résultats de cette étude comparative, nous avons proposé une nouvelle approche de classification des anomalies ST-T en utilisant une combinaison de la technique du Boosting et du sous-échantillonnage aléatoire, notre objectif étant de trouver le meilleur compromis entre vrais-positifs et faux-positifs
Recent advances in sensing and miniaturization of ultra-low power devices allow for more intelligent and wearable health monitoring sensor-based systems. The sensors are capable of collecting vital signs, such as heart rate, temperature, oxygen saturation, blood pressure, ECG, EMG, etc., and communicate wirelessly the collected data to a remote device and/or smartphone. Nowadays, these aforementioned advances have led a large research community to have interest in the design and development of new biomedical data analysis systems, particularly electrocardiogram (ECG) analysis systems. Aimed at contributing to this broad research area, we have mainly focused in this thesis on the automatic analysis and detection of coronary heart diseases, such as Ischemia and Myocardial Infarction (MI), that are well known to be the leading death causes worldwide. Toward this end, and because the ECG signals are deemed to be very noisy and not stationary, our challenge was first to extract the relevant parameters without losing their main features. This particular issue has been widely addressed in the literature and does not represent the main purpose of this thesis. However, as it is a prerequisite, it required us to understand the state of the art proposed methods and select the most suitable one for our work. Based on the ECG parameters extracted, particularly the ST segment and the T wave parameters, we have contributed with two different approaches to analyze the ECG records: (1) the first analysis is performed in the time series level, in order to detect abnormal elevations of the ST segment and the T wave, known to be an accurate predictor of ischemia or MI; (2) the second analysis is performed at the ECG beat level to automatically classify the ST segment and T wave anomalies within different categories. This latter approach is the most commonly used in the literature. However, lacking a performance comparison standard in the state of the art existing works, we have carried out our own comparison of the actual classification methods by taking into account diverse ST and T anomaly classes, several performance evaluation parameters, as well as several ECG signal leads. To obtain more realistic performances, we have also performed the same study in the presence of other frequent cardiac anomalies, such as arrhythmia. Based on this substantial comparative study, we have proposed a new classification approach of seven ST-T anomaly classes, by using a hybrid of the boosting and the random under sampling methods, our goal was ultimately to reach the best tradeoff between true-positives and false-positives
APA, Harvard, Vancouver, ISO, and other styles
14

Desir, Chesner. "Classification automatique d'images, application à l'imagerie du poumon profond." Phd thesis, Rouen, 2013. http://www.theses.fr/2013ROUES053.

Full text
Abstract:
Cette thèse porte sur la classification automatique d’images, appliquée aux images acquises par alvéoscopie, une nouvelle technique d’imagerie du poumon profond. L’objectif est la conception et le développement d’un système d’aide au diagnostic permettant d’aider le praticien à analyser ces images jamais vues auparavant. Nous avons élaboré, au travers de deux contributions, des méthodes performantes, génériques et robustes permettant de classer de façon satisfaisante les images de patients sains et pathologiques. Nous avons proposé un premier système complet de classification basé à la fois sur une caractérisation locale et riche du contenu des images, une approche de classification par méthodes d’ensemble d’arbres aléatoires et un mécanisme de pilotage du rejet de décision, fournissant à l’expert médical un moyen de renforcer la fiabilité du système. Face à la complexité des images alvéoscopiques et la difficulté de caractériser les cas pathologiques, contrairement aux cas sains, nous nous sommes orientés vers la classification oneclass qui permet d’apprendre à partir des seules données des cas sains. Nous avons alors proposé une approche one-class tirant partie des mécanismes de combinaison et d’injection d’aléatoire des méthodes d’ensemble d’arbres de décision pour répondre aux difficultés rencontrées dans les approches standards, notamment la malédiction de la dimension. Les résultats obtenus montrent que notre méthode est performante, robuste à la dimension, compétitive et même meilleure comparée aux méthodes de l’état de l’art sur une grande variété de bases publiques. Elle s’est notamment avérée pertinente pour notre problématique médicale
This thesis deals with automated image classification, applied to images acquired with alveoscopy, a new imaging technique of the distal lung. The aim is to propose and develop a computer aided-diagnosis system, so as to help the clinician analyze these images never seen before. Our contributions lie in the development of effective, robust and generic methods to classify images of healthy and pathological patients. Our first classification system is based on a rich and local characterization of the images, an ensemble of random trees approach for classification and a rejection mechanism, providing the medical expert with tools to enhance the reliability of the system. Due to the complexity of alveoscopy images and to the lack of expertize on the pathological cases (unlike healthy cases), we adopt the one-class learning paradigm which allows to learn a classifier from healthy data only. We propose a one-class approach taking advantage of combining and randomization mechanisms of ensemble methods to respond to common issues such as the curse of dimensionality. Our method is shown to be effective, robust to the dimension, competitive and even better than state-of-the-art methods on various public datasets. It has proved to be particularly relevant to our medical problem
APA, Harvard, Vancouver, ISO, and other styles
15

Desir, Chesner. "Classification Automatique d'Images, Application à l'Imagerie du Poumon Profond." Phd thesis, Université de Rouen, 2013. http://tel.archives-ouvertes.fr/tel-00879356.

Full text
Abstract:
Cette thèse porte sur la classification automatique d'images, appliquée aux images acquises par alvéoscopie, une nouvelle technique d'imagerie du poumon profond. L'objectif est la conception et le développement d'un système d'aide au diagnostic permettant d'aider le praticien à analyser ces images jamais vues auparavant. Nous avons élaboré, au travers de deux contributions, des méthodes performantes, génériques et robustes permettant de classer de façon satisfaisante les images de patients sains et pathologiques. Nous avons proposé un premier système complet de classification basé à la fois sur une caractérisation locale et riche du contenu des images, une approche de classification par méthodes d'ensemble d'arbres aléatoires et un mécanisme de pilotage du rejet de décision, fournissant à l'expert médical un moyen de renforcer la fiabilité du système. Face à la complexité des images alvéoscopiques et la difficulté de caractériser les cas pathologiques, contrairement aux cas sains, nous nous sommes orientés vers la classification one-class qui permet d'apprendre à partir des seules données des cas sains. Nous avons alors proposé une approche one-class tirant partie des mécanismes de combinaison et d'injection d'aléatoire des méthodes d'ensemble d'arbres de décision pour répondre aux difficultés rencontrées dans les approches standards, notamment la malédiction de la dimension. Les résultats obtenus montrent que notre méthode est performante, robuste à la dimension, compétitive et même meilleure comparée aux méthodes de l'état de l'art sur une grande variété de bases publiques. Elle s'est notamment avérée pertinente pour notre problématique médicale.
APA, Harvard, Vancouver, ISO, and other styles
16

Hadjem, Medina. "Contribution à l'analyse et à la détection automatique d'anomalies ECG dans le cas de l'ischémie myocardique." Electronic Thesis or Diss., Sorbonne Paris Cité, 2016. http://www.theses.fr/2016USPCB011.

Full text
Abstract:
Les récentes avancées dans le domaine de la miniaturisation des capteurs biomédicaux à ultra-faible consommation énergétique, permettent aujourd’hui la conception de systèmes de télésurveillance médicale, à la fois plus intelligents et moins invasifs. Ces capteurs sont capables de collecter des signaux vitaux tels que le rythme cardiaq ue, la température, la saturation en oxygène, la pression artérielle, l'ECG, l'EMG, etc., et de les transmettre sans fil à un smartphone ou un autre dispositif distant. Ces avancées sus-citées ont conduit une large communauté scientifique à s'intéresser à la conception de nouveaux systèmes d'analyse de données biomédicales, en particulier de l’électrocardiogramme (ECG). S’inscrivant dans cette thématique de recherche, la présente thèse s’intéresse principalement à l’analyse et à la détection automatique des maladies cardiaques coronariennes, en particulier l’ischémie myocardique et l’infarctus du myocarde (IDM). A cette fin, et compte tenu de la nature non stationnaire et fortement bruitée du signal ECG, le premier défi a été d'extraire les paramètres pertinents de l’ECG, sans altérer leurs caractéristiques essentielles. Cette problématique a déjà fait l’objet de plusieurs travaux et ne représente pas l’objectif principal de cette thèse. Néanmoins, étant un prérequis incontournable, elle a nécessité une étude et une compréhension de l'état de l'art afin de sélectionner la méthode la plus appropriée. En s'appuyant sur les paramètres ECG extraits, en particulier les paramètres relatifs au segment ST et à l'onde T, nous avons contribué dans cette thèse par deux approches d'analyse ECG : (1) Une première analyse réalisée au niveau de la série temporelle des paramètres ECG, son objectif est de détecter les élévations anormales du segment ST et de l'onde T, connues pour être un signe précoce d'une ischémie myocardique ou d’un IDM. (2) Une deuxième analyse réalisée au niveau des battements de l’ECG, dont l’objectif est la classification des anomalies du segment ST et de l’onde T en différentes catégories. Cette dernière approche est la plus utilisée dans la littérature, cependant, il est difficile d’interpréter les résultats des travaux existants en raison de l'absence d’une méthodologie standard de classification. Nous avons donc réalisé notre propre étude comparative des principales méthodes de classification utilisées dans la littérature, en prenant en compte diverses classes d'anomalies ST et T, plusieurs paramètres d'évaluation des performances ainsi que plusieurs dérivations du signal ECG. Afin d'aboutir à des résultats plus significatifs, nous avons également réalisé la même étude en prenant en compte la présence d'autres anomalies cardiaques fréquentes dans l’ECG (arythmies). Enfin, en nous basant sur les résultats de cette étude comparative, nous avons proposé une nouvelle approche de classification des anomalies ST-T en utilisant une combinaison de la technique du Boosting et du sous-échantillonnage aléatoire, notre objectif étant de trouver le meilleur compromis entre vrais-positifs et faux-positifs
Recent advances in sensing and miniaturization of ultra-low power devices allow for more intelligent and wearable health monitoring sensor-based systems. The sensors are capable of collecting vital signs, such as heart rate, temperature, oxygen saturation, blood pressure, ECG, EMG, etc., and communicate wirelessly the collected data to a remote device and/or smartphone. Nowadays, these aforementioned advances have led a large research community to have interest in the design and development of new biomedical data analysis systems, particularly electrocardiogram (ECG) analysis systems. Aimed at contributing to this broad research area, we have mainly focused in this thesis on the automatic analysis and detection of coronary heart diseases, such as Ischemia and Myocardial Infarction (MI), that are well known to be the leading death causes worldwide. Toward this end, and because the ECG signals are deemed to be very noisy and not stationary, our challenge was first to extract the relevant parameters without losing their main features. This particular issue has been widely addressed in the literature and does not represent the main purpose of this thesis. However, as it is a prerequisite, it required us to understand the state of the art proposed methods and select the most suitable one for our work. Based on the ECG parameters extracted, particularly the ST segment and the T wave parameters, we have contributed with two different approaches to analyze the ECG records: (1) the first analysis is performed in the time series level, in order to detect abnormal elevations of the ST segment and the T wave, known to be an accurate predictor of ischemia or MI; (2) the second analysis is performed at the ECG beat level to automatically classify the ST segment and T wave anomalies within different categories. This latter approach is the most commonly used in the literature. However, lacking a performance comparison standard in the state of the art existing works, we have carried out our own comparison of the actual classification methods by taking into account diverse ST and T anomaly classes, several performance evaluation parameters, as well as several ECG signal leads. To obtain more realistic performances, we have also performed the same study in the presence of other frequent cardiac anomalies, such as arrhythmia. Based on this substantial comparative study, we have proposed a new classification approach of seven ST-T anomaly classes, by using a hybrid of the boosting and the random under sampling methods, our goal was ultimately to reach the best tradeoff between true-positives and false-positives
APA, Harvard, Vancouver, ISO, and other styles
17

Gacquer, David. "Sur l'utilisation active de la diversité dans la construction d'ensembles de classifieurs. Application à la détection de fumées nocives sur site industriel." Phd thesis, Université de Valenciennes et du Hainaut-Cambresis, 2008. http://tel.archives-ouvertes.fr/tel-00392616.

Full text
Abstract:
L'influence de la diversité lors de la construction d'ensembles de classifieurs a soulevé de nombreuses discussions au sein de la communauté de l'Apprentissage Automatique ces dernières années.
Une manière particulière de construire un ensemble de classifieurs consiste à sélectionner individuellement les membres de l'ensemble à partir d'un pool de classifieurs en se basant sur des critères prédéfinis.
La littérature fait référence à cette méthode sous le terme de paradigme Surproduction et Sélection, également appelé élagage d'ensemble de classifieurs.

Les travaux présentés dans cette thèse ont pour objectif d'étudier le compromis entre la précision et la diversité existant dans les ensembles de classifieurs. Nous apportons également certains éléments de réponse sur le comportement insaisissable de la diversité lorsqu'elle est utilisée de manière explicite lors de la construction d'un ensemble de classifieurs.

Nous commençons par étudier différents algorithmes d'apprentissage de la littérature. Nous présentons également les algorithmes ensemblistes les plus fréquemment utilisés. Nous définissons ensuite le concept de diversité dans les ensembles de classifieurs ainsi que les différentes méthodes permettant de l'utiliser directement lors de la création de l'ensemble.

Nous proposons un algorithme génétique permettant de construire un ensemble de classifieurs en contrôlant le compromis entre précision et diversité lors de la sélection des membres de l'ensemble. Nous comparons notre algorithme avec différentes heuristiques de sélection proposées dans la littérature pour construire un ensemble de classifieurs selon le paradigme Surproduction et Sélection.

Les différentes conclusions que nous tirons des résultats obtenus pour différents jeux de données de l'UCI Repository nous conduisent à la proposition de conditions spécifiques pour lesquelles l'utilisation de la diversité peut amener à une amélioration des performances de l'ensemble de classifieurs. Nous montrons également que l'efficacité de l'approche Surproduction et Sélection repose en grande partie sur la stabilité inhérente au problème posé.

Nous appliquons finalement nos travaux de recherche au développement d'un système de classification supervisée pour le contrôle de la pollution atmosphérique survenant sur des sites industriels. Ce système est basé sur l'analyse par traitement d'image de scènes à risque enregistrées à l'aide de caméras. Son principal objectif principal est de détecter les rejets de fumées dangereux émis par des usines sidérurgiques et pétro-chimiques.
APA, Harvard, Vancouver, ISO, and other styles
18

Boutaleb, Mohamed Yasser. "Egocentric Hand Activity Recognition : The principal components of an egocentric hand activity recognition framework, exploitable for augmented reality user assistance." Electronic Thesis or Diss., CentraleSupélec, 2022. http://www.theses.fr/2022CSUP0007.

Full text
Abstract:
Les êtres humains utilisent leurs mains pour diverses tâches dans la vie quotidienne et professionnelle, ce qui fait que la recherche dans ce domaine a récemment suscitée un grand intérêt. De plus, l'analyse et l'interprétation du comportement humain à l'aide de signaux visuels est l'un des domaines les plus actifs et les plus explorés de la vision par ordinateur. Avec l'arrivée des nouvelles technologies de réalité augmentée, les chercheurs s'intéressent de plus en plus à la compréhension de l'activité de la main d'un point de vue de la première personne, en explorant la pertinence de son utilisation pour le guidage et l'assistance humaine.L'objectif principal de cette thèse est de proposer un système de reconnaissance de l'activité de l'utilisateur incluant quatre composants essentiels, qui peut être utilisé pour assister les utilisateurs lors d'activités orientées vers des objectifs spécifiques : industrie 4.0 (par exemple, assemblage assisté, maintenance) et enseignement. Ainsi, le système observe les mains de l'utilisateur et les objets manipulés depuis le point de vue de l'utilisateur afin de reconnaître et comprendre ses activités manuelles réalisées. Le système de réalité augmenté souhaité doit reconnaître de manière robuste les activités habituelles de l'utilisateur. Néanmoins, il doit détecter les activités inhabituelles afin d'informer l'utilisateur et l'empêcher d'effectuer de mauvaises manœuvres, une exigence fondamentale pour l'assistance à l'utilisateur. Cette thèse combine donc des techniques issues des domaines de recherche de la vision par ordinateur et de l'apprentissage automatique afin de proposer des composants de reconnaissance de l'activité de l'utilisateur nécessaires à un outil d'assistance complet
Humans use their hands for various tasks in daily life and industry, making research in this area a recent focus of significant interest. Moreover, analyzing and interpreting human behavior using visual signals is one of the most animated and explored areas of computer vision. With the advent of new augmented reality technologies, researchers are increasingly interested in hand activity understanding from a first-person perspective exploring its suitability for human guidance and assistance. Our work is based on machine learning technology to contribute to this research area. Recently, deep neural networks have proven their outstanding effectiveness in many research areas, allowing researchers to jump significantly in efficiency and robustness.This thesis's main objective is to propose a user's activity recognition framework including four key components, which can be used to assist users during their activities oriented towards specific objectives: industry 4.0 (e.g., assisted assembly, maintenance) and teaching. Thus, the system observes the user's hands and the manipulated objects from the user's viewpoint to recognize his performed hand activity. The desired framework must robustly recognize the user's usual activities. Nevertheless, it must detect unusual ones to feedback and prevent him from performing wrong maneuvers, a fundamental requirement for user assistance. This thesis, therefore, combines techniques from the research fields of computer vision and machine learning to propose comprehensive hand activity recognition components essential for a complete assistance tool
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography