Tesis: "Apprentissage d'ensemble"

1

Guo, Li. "Classifieurs multiples intégarnt la marge d'ensemble. Application aux données de télédétection". Bordeaux 3, 2011. http://www.theses.fr/2011BOR30022.

Texto completo

Resumen

Cette thèse se concentre sur l’exploitation du concept de marge d’ensemble pour concevoir de meilleurs classifieurs. Des problèmes relatifs aux données d’apprentissage, tels que la redondance, les classes déséquilibrées et le bruit, sont abordés dans un cadre intégrant la marge d’ensemble. Une définition alternative de la marge d’ensemble est à la base de ce travail. Une approche innovante pour mesurer l’importance de chaque donnée vis-à-vis du processus d’apprentissage est introduite. Nous montrons qu’il y a moins de redondance dans les instances de plus faible marge que dans celles de plus forte marge. De plus, ces instances de plus faibles marge portent plus d’informations significatives que celles de plus forte marge. Par conséquent, ces instances de faible marge ont une influence majeure dans la constitution d’un échantillon d’apprentissage adéquat pour la construction d’un classifieur fiable. Nous proposons une nouvelle méthode de bagging de frontière, basée sur ces observations. Un autre problème majeur, abordé dans cette thèse, concerne la complexité induite par une méthode d’ensemble qui, souvent, implique un nombre significatif de classifieurs de base. Une nouvelle méthode efficace d’élagage d’ensembles est proposée. Elle consiste à ordonner tous les classifieurs de base selon un critère, inspiré de l’entropie, qui exploite aussi notre nouvelle version de la marge des méthodes d’ensemble. Finalement, les méthodes d’ensemble proposées sont appliquées à l’analyse de données de télédétection à trois niveaux d’apprentissage : niveau données, niveau variables, et niveau classifieur
This dissertation focuses on exploiting the ensemble margin concept to design better ensemble classifiers. Some training data set issues, such as redundancy, imbalanced classes and noise, are investigated in an ensemble margin framework. An alternative definition of the ensemble margin is at the core of this work. An innovative approach to measure the importance of each instance in the learning process is introduced. We show that there is less redundancy among smaller margin instances than among higher margin ones. In addition, these smaller margin instances carry more significant information than higher margin instances. Therefore, these low margin instances have a major influence in forming an appropriate training set to build up a reliable classifier. Based on these observations, we propose a new boundary bagging method. Another major issue that is investigated in this thesis is the complexity induced by an ensemble approach which usually involves a significant number of base classifiers. A new efficient ensemble pruning method is proposed. It consists in ordering all the base classifiers with respect to an entropy-inspired criterion that also exploits our new version of the margin of ensemble methods. Finally, the proposed ensemble methods are applied to remote sensing data analysis at three learning levels: data level, feature level and classifier level