Log in

Relevant bibliographies by topics / Réduction de dimension (Statistique) / Dissertations / Theses

Dissertations / Theses on the topic 'Réduction de dimension (Statistique)'

To see the other types of publications on this topic, follow the link: Réduction de dimension (Statistique).

Author: Grafiati

Published: 27 July 2024

Last updated: 28 July 2024

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Réduction de dimension (Statistique).'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Girard, Robin. "Réduction de dimension en statistique et application en imagerie hyper-spectrale." Phd thesis, Grenoble 1, 2008. http://www.theses.fr/2008GRE10074.

Full text

Abstract:

Cette thèse est consacrée à l'analyse statistique de données en grande dimension. Nous nous intéressons à trois problèmes statistiques motivés par des applications médicales : la classification supervisée de courbes, la segmentation supervisée d'images hyperspectrales et la segmentation non-supervisée d'images hyperspectrales. Les procédures développées reposent pour la plupart sur la théorie des tests d'hypothèses (tests multiples, minimax, robustes et fonctionnels) et la théorie de l'apprentissage statistique. Ces théories sont introduites dans une première partie. Nous nous intéressons, dans la deuxième partie, à la classification supervisée de données gaussiennes en grande dimension. Nous proposons une procédure de classification qui repose sur une méthode de réduction de dimension et justifions cette procédure sur le plan pratique et théorique. Dans la troisième et dernière partie, nous étudions le problème de segmentation d'images hyper-spectrales. D'une part, nous proposons un algorithme de segmentation supervisée reposant à la fois sur une analyse multi-échelle, une estimation par maximum de vraisemblance pénalisée, et une procédure de réduction de dimension. Nous justifions cet algorithme par des résultats théoriques et des applications pratiques. D'autre part, nous proposons un algorithme de segmentation non supervisée impliquant une décomposition en ondelette des spectres observées en chaque pixel, un lissage spatial par croissance adaptative de régions et une extraction des frontières par une méthode de vote majoritaire
This thesis deals with high dimensional statistical analysis. We focus on three different problems motivated by medical applications : curve classification, pixel classification and clustering in hyperspectral images. Our approaches are deeply linked with statistical testing procedures (multiple testing, minimax testing, robust testing, and functional testing) and learning theory. Both are introduced in the first part of this thesis. The second part focuses on classification of High dimensional Gaussian data. Our approach is based on a dimensionality reduction, and we show practical and theorical results. In the third and last part of this thesis we focus on hyperspectral image segmentation. We first propose a pixel classification algorithm based on multi-scale analysis, penalised maximum likelihood and feature selection. We give theorical results and simulations for this algorithm. We then propose a pixel clustering algorithm. It involves wavelet decomposition of observations in each pixel, smoothing with a growing region algorithm and frontier extraction based on a voting scheme

APA, Harvard, Vancouver, ISO, and other styles

2

Girard, Robin. "Réduction de dimension en statistique et application en imagerie hyper-spectrale." Phd thesis, Université Joseph Fourier (Grenoble), 2008. http://tel.archives-ouvertes.fr/tel-00379179.

Full text

Abstract:

Cette thèse est consacrée à l'analyse statistique de données en grande dimension. Nous nous intéressons à trois problèmes statistiques motivés par des applications médicales : la classification supervisée de courbes, la segmentation supervisée d'images hyperspectrales et la segmentation non-supervisée d'images hyperspectrales. Les procédures développées reposent pour la plupart sur la théorie des tests d'hypothèses (tests multiples, minimax, robustes et fonctionnels) et la théorie de l'apprentissage statistique. Ces théories sont introduites dans une première partie. Nous nous intéressons, dans la deuxième partie, à la classification supervisée de données gaussiennes en grande dimension. Nous proposons une procédure de classification qui repose sur une méthode de réduction de dimension et justifions cette procédure sur le plan pratique et théorique. Dans la troisième et dernière partie, nous étudions le problème de segmentation d'images hyper-spectrales. D'une part, nous proposons un algorithme de segmentation supervisée reposant à la fois sur une analyse multi-échelle, une estimation par maximum de vraisemblance pénalisée, et une procédure de réduction de dimension. Nous justifions cet algorithme par des résultats théoriques et des applications pratiques. D'autre part, nous proposons un algorithme de segmentation non supervisée impliquant une décomposition en ondelette des spectres observées en chaque pixel, un lissage spatial par croissance adaptative de régions et une extraction des frontières par une méthode de vote majoritaire.

APA, Harvard, Vancouver, ISO, and other styles

3

Kuentz, Vanessa. "Contributions à la réduction de dimension." Thesis, Bordeaux 1, 2009. http://www.theses.fr/2009BOR13871/document.

Full text

Abstract:

Cette thèse est consacrée au problème de la réduction de dimension. Cette thématique centrale en Statistique vise à rechercher des sous-espaces de faibles dimensions tout en minimisant la perte d'information contenue dans les données. Tout d'abord, nous nous intéressons à des méthodes de statistique multidimensionnelle dans le cas de variables qualitatives. Nous abordons la question de la rotation en Analyse des Correspondances Multiples (ACM). Nous définissons l'expression analytique de l'angle de rotation planaire optimal pour le critère de rotation choisi. Lorsque le nombre de composantes principales retenues est supérieur à deux, nous utilisons un algorithme de rotations planaires successives de paires de facteurs. Nous proposons également différents algorithmes de classification de variables qualitatives qui visent à optimiser un critère de partitionnement basé sur la notion de rapports de corrélation. Un jeu de données réelles illustre les intérêts pratiques de la rotation en ACM et permet de comparer empiriquement les différents algorithmes de classification de variables qualitatives proposés. Puis nous considérons un modèle de régression semiparamétrique, plus précisément nous nous intéressons à la méthode de régression inverse par tranchage (SIR pour Sliced Inverse Regression). Nous développons une approche basée sur un partitionnement de l'espace des covariables, qui est utilisable lorsque la condition fondamentale de linéarité de la variable explicative est violée. Une seconde adaptation, utilisant le bootstrap, est proposée afin d'améliorer l'estimation de la base du sous-espace de réduction de dimension. Des résultats asymptotiques sont donnés et une étude sur des données simulées démontre la supériorité des approches proposées. Enfin les différentes applications et collaborations interdisciplinaires réalisées durant la thèse sont décrites
This thesis concentrates on dimension reduction approaches, that seek for lower dimensional subspaces minimizing the lost of statistical information. First we focus on multivariate analysis for categorical data. The rotation problem in Multiple Correspondence Analysis (MCA) is treated. We give the analytic expression of the optimal angle of planar rotation for the chosen criterion. If more than two principal components are to be retained, this planar solution is used in a practical algorithm applying successive pairwise planar rotations. Different algorithms for the clustering of categorical variables are also proposed to maximize a given partitioning criterion based on correlation ratios. A real data application highlights the benefits of using rotation in MCA and provides an empirical comparison of the proposed algorithms for categorical variable clustering. Then we study the semiparametric regression method SIR (Sliced Inverse Regression). We propose an extension based on the partitioning of the predictor space that can be used when the crucial linearity condition of the predictor is not verified. We also introduce bagging versions of SIR to improve the estimation of the basis of the dimension reduction subspace. Asymptotic properties of the estimators are obtained and a simulation study shows the good numerical behaviour of the proposed methods. Finally applied multivariate data analysis on various areas is described

APA, Harvard, Vancouver, ISO, and other styles

4

Noyel, Guillaume. "Filtrage, réduction de dimension, classification et segmentation morphologique hyperspectrale." Phd thesis, École Nationale Supérieure des Mines de Paris, 2008. http://pastel.archives-ouvertes.fr/pastel-00004473.

Full text

Abstract:

Le traitement d'images hyperspectrales est la généralisation de l'analyse des images couleurs, à trois composantes rouge, vert et bleu, aux images multivariées à plusieurs dizaines ou plusieurs centaines de composantes. Dans un sens général, les images hyperspectrales ne sont pas uniquement acquises dans le domaine des longueurs d'ondes mais correspondent à une description d'un pixel par un ensemble de valeurs : c'est à dire un vecteur. Chacune des composantes d'une image hyperspectrale constitue un canal spectral, et le vecteur associé à chaque pixel est appelé spectre. Pour valider la généralité de nos méthodes de traitement, nous les avons appliquées à plusieurs types d'imagerie correspondant aux images hyperspectrales les plus variées : des photos avec quelques dizaines de composantes acquises dans le domaine des longueurs d'ondes, des images satellites de télédétection, des séries temporelles d'imagerie par résonance dynamique (DCE-MRI) et des séries temporelles d'imagerie thermique. Durant cette thèse, nous avons développé une chaîne complète de segmentation automatique des images hyperspectrales par des techniques morphologiques. Pour ce faire, nous avons mis au point une méthode efficace de débruitage spectral, par Analyse Factorielle des Correspondances (AFC), qui permet de conserver les contours spatiaux des objets, ce qui est très utile pour la segmentation morphologique. Puis nous avons fait de la réduction de dimension, par des méthodes d'analyse de données ou par modélisation des spectres, afin d'obtenir un autre représentation de l'image avec un nombre restreint de canaux. A partir de cette image de plus faible dimension, nous avons effectué une classification (supervisée ou non) pour grouper les pixels en classes spectralement homogènes. Cependant, les classes obtenues n'étant pas homogènes spatialement, i.e. connexes, une étape de segmentation s'est donc avérée nécessaire. Nous avons démontré que la méthode récente de la Ligne de Partage des Eaux Probabiliste était particulièrement adaptée à la segmentation des images hyperspectrales. Elle utilise différentes réalisations de marqueurs aléatoires, conditionnés par la classification spectrale, pour obtenir des réalisations de contours par Ligne de Partage des Eaux (LPE). Ces réalisations de contours permettent d'estimer une fonction de densité de probabilité de contours (pdf) qui est très facile à segmenter par une LPE classique. En définitive, la LPE probabiliste est conditionnée par la classification spectrale et produit donc des segmentations spatio-spectrales dont les contours sont très lisses. Cette chaîne de traitement à été mise en œuvre sur des séquences d'imagerie par résonance magnétique dynamique (DCE-MRI) et a permis d'établir une méthode automatique d'aide au diagnostic pour la détection de tumeurs cancéreuses. En outre, d'autres techniques de segmentation spatio-spectrales ont été développées pour les images hyperspectrales : les régions η-bornées et les boules µ-géodésiques. Grâce à l'introduction d'information régionale, elles améliorent les segmentations par zones quasi-plates qui n'utilisent quant à elles que de l'information locale. Enfin, nous avons mis au point une méthode très efficace de calcul de toutes les paires de distances géodésiques d'une image, puisqu'elle permet de réduire jusqu'à 50 % le nombre d'opérations par rapport à une approche naïve et jusqu'à 30 % par rapport aux autres méthodes. Le calcul efficace de ce tableau de distances offre des perspectives très prometteuses pour la réduction de dimension spatio-spectrale.

APA, Harvard, Vancouver, ISO, and other styles

5

Lopez, Olivier. "Réduction de dimension en présence de données censurées." Phd thesis, Rennes 1, 2007. http://tel.archives-ouvertes.fr/tel-00195261.

Full text

Abstract:

Nous considérons des modèles de régression où la variable expliquée est censurée à droite aléatoirement. Nous proposons de nouveaux estimateurs de la fonction de régression dans des modèles paramétriques, et nous proposons une procédure de test non paramétrique d'adéquation à ces modèles. Nous prolongeons ces méthodes à l'étude du modèle semi-paramétrique "single-index", généralisant ainsi des techniques de réduction de dimension utilisées en l'absence de censure. Nous nous penchons tout d'abord sur le cas d'un modèle où la variable de censure est indépendante de la variable expliquée ainsi que des variables explicatives. Nous travaillons dans un second temps dans un cadre moins restrictif où la variable expliquée et la censure sont indépendantes conditionnellement aux variables explicatives. Une difficulté spécifique à ce dernier type de modèle tient en l'impossibilité des techniques actuelles à estimer une espérance conditionnelle (de façon paramétrique ou non) en présence de plus d'une
variable explicative. Nous développons une nouvelle approche de réduction de la dimension afin de résoudre ce problème.

APA, Harvard, Vancouver, ISO, and other styles

6

Pedersen, Morten Akhøj. "Méthodes riemanniennes et sous-riemanniennes pour la réduction de dimension." Electronic Thesis or Diss., Université Côte d'Azur, 2023. http://www.theses.fr/2023COAZ4087.

Full text

Abstract:

Nous proposons dans cette thèse de nouvelles méthodes de réduction de dimension fondées sur la géométrie différentielle. Il s'agit de trouver une représentation d'un ensemble d'observations dans un espace de dimension inférieure à l'espace d'origine des données. Les méthodes de réduction de dimension constituent la pierre angulaire des statistiques et ont donc un très large éventail d'applications. Dans les statistiques euclidiennes ordinaires, les données appartiennent à un espace vectoriel et l'espace de dimension inférieure peut être un sous-espace linéaire ou une sous-variété non linéaire approximant les observations. L'étude de telles variétés lisses, la géométrie différentielle, joue naturellement un rôle important dans ce dernier cas. Lorsque l'espace des données est lui-même une variété, l'espace approximant de dimension réduite est naturellement une sous-variété de la variété initiale. Les méthodes d'analyse de ce type de données relèvent du domaine des statistiques géométriques. Les statistiques géométriques pour des observations appartenant à une variété riemannienne sont le point de départ de cette thèse, mais une partie de notre travail apporte une contribution même dans le cas de données appartenant à l'espace euclidien, mathbb{R}^d.Les formes, dans notre cas des courbes ou des surfaces discrètes ou continues, sont un exemple important de données à valeurs dans les variétés. En biologie évolutive, les chercheurs s'intéressent aux raisons et aux implications des différences morphologiques entre les espèces. Cette application motive la première contribution principale de la thèse. Nous généralisons une méthode de réduction de dimension utilisée en biologie évolutive, l'analyse en composantes principales phylogénétiques (P-PCA), pour travailler sur des données à valeur dans une variété riemannienne - afin qu'elle puisse être appliquée à des données de forme. P-PCA est une version de PCA pour des observations qui sont les feuilles d'un arbre phylogénétique. D'un point de vue statistique, la propriété importante de ces données est que les observations ne sont pas indépendantes. Nous définissons et estimons des moyennes et des covariances intrinsèquement pondérées sur une variété qui prennent en compte cette dépendance des observations. Nous définissons ensuite l'ACP phylogénétique sur une variété comme la décomposition propre de la covariance pondérée dans l'espace tangent de la moyenne pondérée. Nous montrons que l'estimateur de moyenne actuellement utilisé en biologie évolutive pour étudier la morphologie correspond à ne prendre qu'une seule étape de notre algorithme de descente de gradient riemannien pour la moyenne intrinsèque, lorsque les observations sont représentées dans l'espace des formes de Kendall.Notre deuxième contribution principale est une méthode non paramétrique de réduction de dimension fondée sur une classe très flexible de sous-variétés qui est novatrice même dans le cas de données euclidiennes. Grâce à une PCA locale, nous construisons tout d'abord un sous-fibré du fibré tangent sur la variété des données que nous appelons le sous-fibré principal. Cette distribution (au sens géométrique) induit une structure sous riemannienne. Nous montrons que les géodésiques sous-riemanniennes correspondantes restent proches de l'ensemble des observations et que l'ensemble des géodésiques partant d'un point donné génèrent localement une sous-variété qui est radialement alignée avec le sous-fibré principal, même lorsqu'il est non intégrables, ce qui apparait lorsque les données sont bruitées. Notre méthode démontre que la géométrie sous-riemannienne est le cadre naturel pour traiter de tels problèmes. Des expériences numériques illustrent la puissance de notre cadre en montrant que nous pouvons réaliser des reconstructions d'une extension importante, même en présence de niveaux de bruit assez élevés
In this thesis, we propose new methods for dimension reduction based on differential geometry, that is, finding a representation of a set of observations in a space of lower dimension than the original data space. Methods for dimension reduction form a cornerstone of statistics, and thus have a very wide range of applications. For instance, a lower dimensional representation of a data set allows visualization and is often necessary for subsequent statistical analyses. In ordinary Euclidean statistics, the data belong to a vector space and the lower dimensional space might be a linear subspace or a non-linear submanifold approximating the observations. The study of such smooth manifolds, differential geometry, naturally plays an important role in this last case, or when the data space is itself a known manifold. Methods for analysing this type of data form the field of geometric statistics. In this setting, the approximating space found by dimension reduction is naturally a submanifold of the given manifold. The starting point of this thesis is geometric statistics for observations belonging to a known Riemannian manifold, but parts of our work form a contribution even in the case of data belonging to Euclidean space, mathbb{R}^d.An important example of manifold valued data is shapes, in our case discrete or continuous curves or surfaces. In evolutionary biology, researchers are interested in studying reasons for and implications of morphological differences between species. Shape is one way to formalize morphology. This application motivates the first main contribution of the thesis. We generalize a dimension reduction method used in evolutionary biology, phylogenetic principal component analysis (P-PCA), to work for data on a Riemannian manifold - so that it can be applied to shape data. P-PCA is a version of PCA for observations that are assumed to be leaf nodes of a phylogenetic tree. From a statistical point of view, the important property of such data is that the observations (leaf node values) are not necessarily independent. We define and estimate intrinsic weighted means and covariances on a manifold which takes the dependency of the observations into account. We then define phylogenetic PCA on a manifold to be the eigendecomposition of the weighted covariance in the tangent space of the weighted mean. We show that the mean estimator that is currently used in evolutionary biology for studying morphology corresponds to taking only a single step of our Riemannian gradient descent algorithm for the intrinsic mean, when the observations are represented in Kendall's shape space. Our second main contribution is a non-parametric method for dimension reduction that can be used for approximating a set of observations based on a very flexible class of submanifolds. This method is novel even in the case of Euclidean data. The method works by constructing a subbundle of the tangent bundle on the data manifold via local PCA. We call this subbundle the principal subbundle. We then observe that this subbundle induces a sub-Riemannian structure and we show that the resulting sub-Riemannian geodesics with respect to this structure stay close to the set of observations. Moreover, we show that sub-Riemannian geodesics starting from a given point locally generate a submanifold which is radially aligned with the estimated subbundle, even for non-integrable subbundles. Non-integrability is likely to occur when the subbundle is estimated from noisy data, and our method demonstrates that sub-Riemannian geometry is a natural framework for dealing which such problems. Numerical experiments illustrate the power of our framework by showing that we can achieve impressively large range reconstructions even in the presence of quite high levels of noise
I denne afhandling præsenteres nye metoder til dimensionsreduktion, baseret p˚adifferential geometri. Det vil sige metoder til at finde en repræsentation af et datasæti et rum af lavere dimension end det opringelige rum. S˚adanne metoder spiller enhelt central rolle i statistik, og har et meget bredt anvendelsesomr˚ade. En laveredimensionalrepræsentation af et datasæt tillader visualisering og er ofte nødvendigtfor efterfølgende statistisk analyse. I traditionel, Euklidisk statistik ligger observationernei et vektor rum, og det lavere-dimensionale rum kan være et lineært underrumeller en ikke-lineær undermangfoldighed som approksimerer observationerne.Studiet af s˚adanne glatte mangfoldigheder, differential geometri, spiller en vigtig rollei sidstnævnte tilfælde, eller hvis rummet hvori observationerne ligger i sig selv er enmangfoldighed. Metoder til at analysere observationer p˚a en mangfoldighed udgørfeltet geometrisk statistik. I denne kontekst er det approksimerende rum, fundetvia dimensionsreduktion, naturligt en submangfoldighed af den givne mangfoldighed.Udgangspunktet for denne afhandling er geometrisk statistik for observationer p˚a ena priori kendt Riemannsk mangfoldighed, men dele af vores arbejde udgør et bidragselv i tilfældet med observationer i Euklidisk rum, Rd.Et vigtigt eksempel p˚a data p˚a en mangfoldighed er former, i vores tilfældediskrete kurver eller overflader. I evolutionsbiologi er forskere interesseret i at studeregrunde til og implikationer af morfologiske forskelle mellem arter. Former er ´en m˚adeat formalisere morfologi p˚a. Denne anvendelse motiverer det første hovedbidrag idenne afhandling. We generaliserer en metode til dimensionsreduktion brugt i evolutionsbiologi,phylogenetisk principal component analysis (P-PCA), til at virke for datap˚a en Riemannsk mangfoldighed - s˚a den kan anvendes til observationer af former. PPCAer en version af PCA for observationer som antages at være de yderste knuder iet phylogenetisk træ. Fra et statistisk synspunkt er den vigtige egenskab ved s˚adanneobservationer at de ikke nødvendigvis er uafhængige. We definerer og estimerer intrinsiskevægtede middelværdier og kovarianser p˚a en mangfoldighed, som tager højde fors˚adanne observationers afhængighed. Vi definerer derefter phylogenetisk PCA p˚a enmangfoldighed som egendekomposition af den vægtede kovarians i tanget-rummet tilden vægtede middelværdi. Vi viser at estimatoren af middelværdien som pt. bruges ievolutionsbiologi til at studere morfologi svarer til at tage kun et enkelt skridt af voresRiemannske gradient descent algoritme for den intrinsiske middelværdi, n˚ar formernerepræsenteres i Kendall´s form-mangfoldighed.Vores andet hovedbidrag er en ikke-parametrisk metode til dimensionsreduktionsom kan bruges til at approksimere et data sæt baseret p˚a en meget flexibel klasse afsubmangfoldigheder. Denne metode er ny ogs˚a i tilfældet med Euklidisk data. Metodenvirker ved at konstruere et under-bundt af tangentbundet p˚a datamangfoldighedenM via lokale PCA´er. Vi kalder dette underbundt principal underbundtet. Viobserverer at dette underbundt inducerer en sub-Riemannsk struktur p˚a M og vi viserat sub-Riemannske geodæter fra et givent punkt lokalt genererer en submangfoldighedsom radialt flugter med det estimerede subbundt, selv for ikke-integrable subbundter.Ved støjfyldt data forekommer ikke-integrabilitet med stor sandsynlighed, og voresmetode demonstrerer at sub-Riemannsk geometri er en naturlig tilgang til at h˚andteredette. Numeriske eksperimenter illustrerer styrkerne ved metoden ved at vise at denopn˚ar rekonstruktioner over store afstande, selv under høje niveauer af støj

APA, Harvard, Vancouver, ISO, and other styles

7

Damon, Cécilia. "Réduction de dimension et régularisation pour l'apprentissage statistique et la prédiction individuelle en IRMf." Paris 11, 2010. http://www.theses.fr/2010PA112107.

Full text

Abstract:

Les méthodes prédictives multivariées sont encore peu utilisées pour l'analyse de groupe en IRMf. La variabilité anatomo-fonctionnelle inter-¬individuelle et la grande dimension des données en comparaison au petit nombre de sujets rendent difficile l'identification de la variabilité fonctionnelle spécifiquement associée à un phénotype d'intérêt et accentuent le phénomène de sur-apprentissage des méthodes de prédiction multivariées. Notre premier objectif vise à explorer les différentes approches disponibles dans la littérature de l'apprentissage statistique supervisé pour gérer ce problème de sur-apprentissage et plus particulièrement les voies de la sélection d'attributs et de la classification linéaire régularisée. Notre deuxième objectif est de définir une méthodologie de comparaison à plusieurs niveaux des différentes stratégies proposées: (i) global: comparaison de l'ensemble des stratégies sur j'ensemble des jeux de données; (ii) local: comparaison limitée à un sous-ensemble de stratégies d'intérêt sur tous les jeux de données; (iii) individuel: comparaison de deux stratégies sur un seul jeu de données. Nous avons testé 4 couples de données (contraste d'IRMf, information phénotypique) extraits d'une base de données d'environ 200 sujets sains. Nous avons également construit deux jeux de simulation possédant un signal discriminant multivarié. L'analyse comparative ainsi que la visualisation des patterns fonctionnels a permis d'identifier une stratégie qui combine la sélection d'attributs multivariée RFE et le classifieur SRDA. Cette stratégie a identifié des patterns prédictifs parcimonieux et a obtenu de bonnes performances de prédiction
Predictive multivariate methods have yet been rarely explored in fMRI at the inter-subject level. An important inter-subjects anatomo-functional variability and the large dimension of fMRI data in comparison to the few number of subjects complicates the identification of the inter-subjects functional variability specific to a phenotype of interest and increases the overfitting phenomenon of classification techniques. Our first objective aims to explore the various approaches available in the field of supervised statistical learning and well-known to control the overfitting problem and more specifically two means: the feature selection and the regularised classification. Our second goal consist in defining a rigorous methodology of the different proposed strategies at several levels: (i) global: comparison of all the strategies based on all the datasets; (ii) local: comparison restricted to a particular subset of strategies based on all the datasets; (iii) individual: comparison of a pair of strategies based on a single dataset. We tested four couples of data (fMRI contrast, phenotypic information) extracted from a large database, including about 200 healthy subjects that have realized the same experimental protocol. We also constructed simulated datasets with a multivariate discriminant signal. The comparative analysis and the function patterns visualisation revealed the strategy combining the multivariate features selection RFE and the SRDA classifier as the most efficient. This strategy identified parcimonious predictive patterns and obtained good predictive performances proved to be relevant only when the contrast-to-noise ratio was strong

APA, Harvard, Vancouver, ISO, and other styles

8

Tournier, Maxime. "Réduction de dimension pour l'animation de personnages." Phd thesis, Université de Grenoble, 2011. http://tel.archives-ouvertes.fr/tel-00650696.

Full text

Abstract:

Dans cette thèse, nous proposons de nouvelles representations pourles poses du mouvement humain, apprises sur des données réelles, envue d'une synthèse de nouveaux mouvements en temps-réel. Dans unepremière partie, nous exploitons une méthode statistique adaptée auxgroupes de Lie (Analyse en Géodésiques Principales, AGP) pour approximerla variété des poses d'un sujet en mouvement, à partir de donnéesde capture de mouvement. Nous proposons un algorithme de cinématiqueinverse exploitant cette paramétrisation réduite, permettantpar construction de synthétiser des poses proches des données initiales.Nous validons ce modèle cinématique par une application à la compressionde données de mouvements, dans laquelle seules quelques trajectoiresdes extrémités des membres du squelettes permettent de reconstruireune bonne approximation de l'ensemble des données initiales.Dans une deuxième partie, nous étendons cette approche à l'animationphysique de personnages virtuels. La paramétrisation réduitepar AGP fournit les coordonnées généralisées de la formulation Lagrangiennede la mécanique. Nous dérivons un intégrateur temporelexplicite basé sur les intégrateurs variationnels. Afin d'en améliorer lastabilité, nous proposons un modèle d'amortissement inspiré de l'algorithmede Levenberg-Marquardt. Nous présentons également une méthodegéométrique d'apprentissage des limites angulaires sur des donnéesde capture de mouvement, ainsi que leur application comme contraintescinématiques.Dans une troisième partie, nous abordons le problème du contrôledu mouvement. En formulant les étapes de la simulation physique d'unepart, et de la cinématique inverse d'autre part comme deux programmesquadratiques, nous proposons un algorithme de pseudo-contrôle parinterpolation des métriques, permettant un compromis intuitif entre simulationphysique non-contrôlée, et cinématique inverse. Cette approchefaisant intervenir des forces externes, nous proposons une formulationalternative, utilisant uniquement les forces associées à la paramétrisationréduite des poses. Cette formulation est obtenue par relaxationdu problème théorique de contrôle sous contraintes unilatérales, nonconvexe,en un programme quadratique convexe. Ces algorithmes sontévalués sur des contrôleurs d'équilibre et de suivi.

APA, Harvard, Vancouver, ISO, and other styles

9

Zapien, Durand-Viel Karina. "Algorithme de chemin de régularisation pour l'apprentissage statistique." Phd thesis, INSA de Rouen, 2009. http://tel.archives-ouvertes.fr/tel-00557888.

Full text

Abstract:

La sélection d'un modèle approprié est l'une des tâches essentielles de l'apprentissage statistique. En général, pour une tâche d'apprentissage donnée, on considère plusieurs classes de modèles ordonnées selon un certain ordre de " complexité". Dans ce cadre, le processus de sélection de modèle revient 'a trouver la " complexité " optimale, permettant d'estimer un modèle assurant une bonne généralisation. Ce problème de sélection de modèle se résume à l'estimation d'un ou plusieurs hyper-paramètres définissant la complexité du modèle, par opposition aux paramètres qui permettent de spécifier le modèle dans la classe de complexité choisie. L'approche habituelle pour déterminer ces hyper-paramètres consiste à utiliser une " grille ". On se donne un ensemble de valeurs possibles et on estime, pour chacune de ces valeurs, l'erreur de généralisation du meilleur modèle. On s'intéresse, dans cette thèse, à une approche alternative consistant à calculer l'ensemble des solutions possibles pour toutes les valeurs des hyper-paramètres. C'est ce qu'on appelle le chemin de régularisation. Il se trouve que pour les problèmes d'apprentissage qui nous intéressent, des programmes quadratiques paramétriques, on montre que le chemin de régularisation associé à certains hyper-paramètres est linéaire par morceaux et que son calcul a une complexité numérique de l'ordre d'un multiple entier de la complexité de calcul d'un modèle avec un seul jeu hyper-paramètres. La thèse est organisée en trois parties. La première donne le cadre général des problèmes d'apprentissage de type SVM (Séparateurs à Vaste Marge ou Support Vector Machines) ainsi que les outils théoriques et algorithmiques permettant d'appréhender ce problème. La deuxième partie traite du problème d'apprentissage supervisé pour la classification et l'ordonnancement dans le cadre des SVM. On montre que le chemin de régularisation de ces problèmes est linéaire par morceaux. Ce résultat nous permet de développer des algorithmes originaux de discrimination et d'ordonnancement. La troisième partie aborde successivement les problèmes d'apprentissage semi supervisé et non supervisé. Pour l'apprentissage semi supervisé, nous introduisons un critère de parcimonie et proposons l'algorithme de chemin de régularisation associé. En ce qui concerne l'apprentissage non supervisé nous utilisons une approche de type " réduction de dimension ". Contrairement aux méthodes à base de graphes de similarité qui utilisent un nombre fixe de voisins, nous introduisons une nouvelle méthode permettant un choix adaptatif et approprié du nombre de voisins.

APA, Harvard, Vancouver, ISO, and other styles

10

Janon, Alexandre. "Analyse de sensibilité et réduction de dimension. Application à l'océanographie." Phd thesis, Université de Grenoble, 2012. http://tel.archives-ouvertes.fr/tel-00757101.

Full text

Abstract:

Les modèles mathématiques ont pour but de décrire le comportement d'un système. Bien souvent, cette description est imparfaite, notamment en raison des incertitudes sur les paramètres qui définissent le modèle. Dans le contexte de la modélisation des fluides géophysiques, ces paramètres peuvent être par exemple la géométrie du domaine, l'état initial, le forçage par le vent, ou les coefficients de frottement ou de viscosité. L'objet de l'analyse de sensibilité est de mesurer l'impact de l'incertitude attachée à chaque paramètre d'entrée sur la solution du modèle, et, plus particulièrement, identifier les paramètres (ou groupes de paramètres) og sensibles fg. Parmi les différentes méthodes d'analyse de sensibilité, nous privilégierons la méthode reposant sur le calcul des indices de sensibilité de Sobol. Le calcul numérique de ces indices de Sobol nécessite l'obtention des solutions numériques du modèle pour un grand nombre d'instances des paramètres d'entrée. Cependant, dans de nombreux contextes, dont celui des modèles géophysiques, chaque lancement du modèle peut nécessiter un temps de calcul important, ce qui rend inenvisageable, ou tout au moins peu pratique, d'effectuer le nombre de lancements suffisant pour estimer les indices de Sobol avec la précision désirée. Ceci amène à remplacer le modèle initial par un emph{métamodèle} (aussi appelé emph{surface de réponse} ou emph{modèle de substitution}). Il s'agit d'un modèle approchant le modèle numérique de départ, qui nécessite un temps de calcul par lancement nettement diminué par rapport au modèle original. Cette thèse se centre sur l'utilisation d'un métamodèle dans le cadre du calcul des indices de Sobol, plus particulièrement sur la quantification de l'impact du remplacement du modèle par un métamodèle en terme d'erreur d'estimation des indices de Sobol. Nous nous intéressons également à une méthode de construction d'un métamodèle efficace et rigoureux pouvant être utilisé dans le contexte géophysique.

APA, Harvard, Vancouver, ISO, and other styles

11

Karina, Zapien. "Algorithme de Chemin de Régularisation pour l'apprentissage Statistique." Phd thesis, INSA de Rouen, 2009. http://tel.archives-ouvertes.fr/tel-00422854.

Full text

Abstract:

La sélection d'un modèle approprié est l'une des tâches essentielles de l'apprentissage statistique. En général, pour une tâche d'apprentissage donnée, on considère plusieurs classes de modèles ordonnées selon un certain ordre de "complexité". Dans ce cadre, le processus de sélection de modèle revient à trouver la "complexité" optimale, permettant d'estimer un modèle assurant une bonne généralisation. Ce problème de sélection de modèle se résume à l'estimation d'un ou plusieurs hyperparamètres définissant la complexité du modèle, par opposition aux paramètres qui permettent de spécifier le modèle dans la classe de complexité choisie.
L'approche habituelle pour déterminer ces hyperparamètres consiste à utiliser une "grille". On se donne un ensemble de valeurs possibles et on estime, pour chacune de ces valeurs, l'erreur de généralisation du meilleur modèle. On s'intéresse, dans cette thèse, à une approche alternative consistant à calculer l'ensemble des solutions possibles pour toutes les valeurs des hyperparamètres. C'est ce qu'on appelle le chemin de régularisation. Il se trouve que pour les problèmes d'apprentissage qui nous intéressent, des programmes quadratiques paramétriques, on montre que le chemin de régularisation associé à certains hyperparamètres est linéaire par morceaux et que son calcul a une complexité numérique de l'ordre d'un multiple entier de la complexité de calcul d'un modèle avec un seul jeu hyper-paramètres.
La thèse est organisée en trois parties. La première donne le cadre général des problèmes d'apprentissage de type SVM (Séparateurs à Vaste Marge ou Support Vector Machines) ainsi que les outils théoriques et algorithmiques permettant d'appréhender ce problème. La deuxième partie traite du problème d'apprentissage supervisé pour la classification et l'ordonnancement dans le cadre des SVM. On montre que le chemin de régularisation de ces problèmes est linéaire par morceaux. Ce résultat nous permet de développer des algorithmes originaux de discrimination et d'ordonnancement. La troisième partie aborde successivement les problèmes d'apprentissage semi supervisé et non supervisé. Pour l'apprentissage semi supervisé, nous introduisons un critère de parcimonie et proposons l'algorithme de chemin de régularisation associé. En ce qui concerne l'apprentissage non supervisé nous utilisons une approche de type "réduction de dimension". Contrairement aux méthodes à base de graphes de similarité qui utilisent un nombre fixe de voisins, nous introduisons une nouvelle méthode permettant un choix adaptatif et approprié du nombre de voisins.

APA, Harvard, Vancouver, ISO, and other styles

12

Alawieh, Hiba. "Fitting distances and dimension reduction methods with applications." Thesis, Lille 1, 2017. http://www.theses.fr/2017LIL10018/document.

Full text

Abstract:

Dans la plupart des études, le nombre de variables peut prendre des valeurs élevées ce qui rend leur analyse et leur visualisation assez difficile. Cependant, plusieurs méthodes statistiques ont été conçues pour réduire la complexité de ces données et permettant ainsi une meilleure compréhension des connaissances disponibles dans ces données. Dans cette thèse, notre objectif est de proposer deux nouvelles méthodes d’analyse des données multivariées intitulées en anglais : " Multidimensional Fitting" et "Projection under pairwise distance control". La première méthode est une dérivée de la méthode de positionnement multidimensionnelle dont l’application nécessite la disponibilité des deux matrices décrivant la même population : une matrice de coordonnées et une matrice de distances et l’objective est de modifier la matrice des coordonnées de telle sorte que les distances calculées sur cette matrice soient les plus proches possible des distances observées sur la matrice de distances. Nous avons élargi deux extensions de cette méthode : la première en pénalisant les vecteurs de modification des coordonnées et la deuxième en prenant en compte les effets aléatoires qui peuvent intervenir lors de la modification. La deuxième méthode est une nouvelle méthode de réduction de dimension basée sur la projection non linéaire des données dans un espace de dimension réduite et qui tient en compte la qualité de chaque point projeté pris individuellement dans l’espace réduit. La projection des points s’effectue en introduisant des variables supplémentaires, qui s’appellent "rayons", et indiquent dans quelle mesure la projection d’un point donné est précise
In various studies the number of variables can take high values which makes their analysis and visualization quite difficult. However, several statistical methods have been developed to reduce the complexity of these data, allowing a better comprehension of the knowledge available in these data. In this thesis, our aim is to propose two new methods of multivariate data analysis called: " Multidimensional Fitting" and "Projection under pairwise distance control". The first method is a derivative of multidimensional scaling method (MDS) whose the application requires the availability of two matrices describing the same population: a coordinate matrix and a distance matrix and the objective is to modify the coordinate matrix such that the distances calculated on the modified matrix are as close as possible to the distances observed on the distance matrix. Two extensions of this method have been extended: the first by penalizing the modification vectors of the coordinates and the second by taking into account the random effects that may occur during the modification. The second method is a new method of dimensionality reduction techniques based on the non-linearly projection of the points in a reduced space by taking into account the projection quality of each projected point taken individually in the reduced space. The projection of the points is done by introducing additional variables, called "radii", and indicate to which extent the projection of each point is accurate

APA, Harvard, Vancouver, ISO, and other styles

13

Dalalyan, Arnak. "Contribution à la statistique des diffusions. Estimation semiparamétrique et efficacité au second ordre.Agrégation et réduction de dimension pour le modèle de régression." Habilitation à diriger des recherches, Université Pierre et Marie Curie - Paris VI, 2007. http://tel.archives-ouvertes.fr/tel-00192080.

Full text

Abstract:

Ce texte constitue une synthèse de mes travaux de recherche menés depuis 2000 en statistique mathématique. Ces travaux s'articulent autour de 4 thèmes: la statistique non paramétrique pour les processus de diffusion, efficacité au second ordre pour l'estimation semiparamétrique, agrégation par des poids exponentiels et réduction de dimension pour la régression non paramétrique.
Le premier chapitre contient une description générale des résultats obtenus en les replaçant dans un contexte historique et en présentant les motivations qui nous ont animées pour étudier ces problèmes. J'y décris également de façon informelle les idées clés des démonstrations.

Au second chapitre, je présente les définitions principales nécessaires pour énoncer de façon rigoureuse les résultats les plus importants. Ce chapitre contient également une discussion plus formelle permettant de mettre en lumière certains aspects théoriques et pratiques de nos résultats.

APA, Harvard, Vancouver, ISO, and other styles

14

Zapién, Arreola Karina. "Algorithme de chemin de régularisation pour l'apprentissage statistique." Thesis, Rouen, INSA, 2009. http://www.theses.fr/2009ISAM0001/document.

Full text

Abstract:

La sélection d’un modèle approprié est l’une des tâches essentielles de l’apprentissage statistique. En général, pour une tâche d’apprentissage donnée, on considère plusieurs classes de modèles ordonnées selon un certain ordre de « complexité». Dans ce cadre, le processus de sélection de modèle revient `a trouver la « complexité » optimale, permettant d’estimer un modèle assurant une bonne généralisation. Ce problème de sélection de modèle se résume à l’estimation d’un ou plusieurs hyper-paramètres définissant la complexité du modèle, par opposition aux paramètres qui permettent de spécifier le modèle dans la classe de complexité choisie. L’approche habituelle pour déterminer ces hyper-paramètres consiste à utiliser une « grille ». On se donne un ensemble de valeurs possibles et on estime, pour chacune de ces valeurs, l’erreur de généralisation du meilleur modèle. On s’intéresse, dans cette thèse, à une approche alternative consistant à calculer l’ensemble des solutions possibles pour toutes les valeurs des hyper-paramètres. C’est ce qu’on appelle le chemin de régularisation. Il se trouve que pour les problèmes d’apprentissage qui nous intéressent, des programmes quadratiques paramétriques, on montre que le chemin de régularisation associé à certains hyper-paramètres est linéaire par morceaux et que son calcul a une complexité numérique de l’ordre d’un multiple entier de la complexité de calcul d’un modèle avec un seul jeu hyper-paramètres. La thèse est organisée en trois parties. La première donne le cadre général des problèmes d’apprentissage de type SVM (Séparateurs à Vaste Marge ou Support Vector Machines) ainsi que les outils théoriques et algorithmiques permettant d’appréhender ce problème. La deuxième partie traite du problème d’apprentissage supervisé pour la classification et l’ordonnancement dans le cadre des SVM. On montre que le chemin de régularisation de ces problèmes est linéaire par morceaux. Ce résultat nous permet de développer des algorithmes originaux de discrimination et d’ordonnancement. La troisième partie aborde successivement les problèmes d’apprentissage semi supervisé et non supervisé. Pour l’apprentissage semi supervisé, nous introduisons un critère de parcimonie et proposons l’algorithme de chemin de régularisation associé. En ce qui concerne l’apprentissage non supervisé nous utilisons une approche de type « réduction de dimension ». Contrairement aux méthodes à base de graphes de similarité qui utilisent un nombre fixe de voisins, nous introduisons une nouvelle méthode permettant un choix adaptatif et approprié du nombre de voisins
The selection of a proper model is an essential task in statistical learning. In general, for a given learning task, a set of parameters has to be chosen, each parameter corresponds to a different degree of “complexity”. In this situation, the model selection procedure becomes a search for the optimal “complexity”, allowing us to estimate a model that assures a good generalization. This model selection problem can be summarized as the calculation of one or more hyperparameters defining the model complexity in contrast to the parameters that allow to specify a model in the chosen complexity class. The usual approach to determine these parameters is to use a “grid search”. Given a set of possible values, the generalization error for the best model is estimated for each of these values. This thesis is focused in an alternative approach consisting in calculating the complete set of possible solution for all hyperparameter values. This is what is called the regularization path. It can be shown that for the problems we are interested in, parametric quadratic programming (PQP), the corresponding regularization path is piece wise linear. Moreover, its calculation is no more complex than calculating a single PQP solution. This thesis is organized in three chapters, the first one introduces the general setting of a learning problem under the Support Vector Machines’ (SVM) framework together with the theory and algorithms that allow us to find a solution. The second part deals with supervised learning problems for classification and ranking using the SVM framework. It is shown that the regularization path of these problems is piecewise linear and alternative proofs to the one of Rosset [Ross 07b] are given via the subdifferential. These results lead to the corresponding algorithms to solve the mentioned supervised problems. The third part deals with semi-supervised learning problems followed by unsupervised learning problems. For the semi-supervised learning a sparsity constraint is introduced along with the corresponding regularization path algorithm. Graph-based dimensionality reduction methods are used for unsupervised learning problems. Our main contribution is a novel algorithm that allows to choose the number of nearest neighbors in an adaptive and appropriate way contrary to classical approaches based on a fix number of neighbors

APA, Harvard, Vancouver, ISO, and other styles

15

Vezard, Laurent. "Réduction de dimension en apprentissage supervisé. Application à l'étude de l'activité cérébrale." Phd thesis, Université Sciences et Technologies - Bordeaux I, 2013. http://tel.archives-ouvertes.fr/tel-00926845.

Full text

Abstract:

L'objectif de ce travail est de développer une méthode capable de déterminer automatiquement l'état de vigilance chez l'humain. Les applications envisageables sont multiples. Une telle méthode permettrait par exemple de détecter automatiquement toute modification de l'état de vigilance chez des personnes qui doivent rester dans un état de vigilance élevée (par exemple, les pilotes ou les personnels médicaux). Dans ce travail, les signaux électroencéphalographiques (EEG) de 58 sujets dans deux états de vigilance distincts (état de vigilance haut et bas) ont été recueillis à l'aide d'un casque à 58 électrodes posant ainsi un problème de classification binaire. Afin d'envisager une utilisation de ces travaux sur une application du monde réel, il est nécessaire de construire une méthode de prédiction qui ne nécessite qu'un faible nombre de capteurs (électrodes) afin de limiter le temps de pose du casque à électrodes ainsi que son coût. Au cours de ces travaux de thèse, plusieurs approches ont été développées. Une première approche propose d'utiliser un pré-traitement des signaux EEG basé sur l'utilisation d'une décomposition en ondelettes discrète des signaux EEG afin d'extraire les contributions de chaque fréquence dans le signal. Une régression linéaire est alors effectuée sur les contributions de certaines de ces fréquences et la pente de cette régression est conservée. Un algorithme génétique est utilisé afin d'optimiser le choix des fréquences sur lesquelles la régression est réalisée. De plus, cet algorithme génétique permet la sélection d'une unique électrode. Une seconde approche est basée sur l'utilisation du Common Spatial Pattern (CSP). Cette méthode permet de définir des combinaisons linéaires des variables initiales afin d'obtenir des signaux synthétiques utiles pour la tâche de classification. Dans ce travail, un algorithme génétique ainsi que des méthodes de recherche séquentielle ont été proposés afin de sélectionner un sous groupes d'électrodes à conserver lors du calcul du CSP. Enfin, un algorithme de CSP parcimonieux basé sur l'utilisation des travaux existant sur l'analyse en composantes principales parcimonieuse a été développé. Les résultats de chacune des approches seront détaillés et comparés. Ces travaux ont aboutit sur l'obtention d'un modèle permettant de prédire de manière rapide et fiable l'état de vigilance d'un nouvel individu.

APA, Harvard, Vancouver, ISO, and other styles

16

Shehzad, Muhammad Ahmed. "Pénalisation et réduction de la dimension des variables auxiliaires en théorie des sondages." Phd thesis, Université de Bourgogne, 2012. http://tel.archives-ouvertes.fr/tel-00812880.

Full text

Abstract:

Les enquêtes par sondage sont utiles pour estimer des caractéristiques d'une populationtelles que le total ou la moyenne. Cette thèse s'intéresse à l'étude detechniques permettant de prendre en compte un grand nombre de variables auxiliairespour l'estimation d'un total.Le premier chapitre rappelle quelques définitions et propriétés utiles pour lasuite du manuscrit : l'estimateur de Horvitz-Thompson, qui est présenté commeun estimateur n'utilisant pas l'information auxiliaire ainsi que les techniques decalage qui permettent de modifier les poids de sondage de facon à prendre encompte l'information auxiliaire en restituant exactement dans l'échantillon leurstotaux sur la population.Le deuxième chapitre, qui est une partie d'un article de synthèse accepté pourpublication, présente les méthodes de régression ridge comme un remède possibleau problème de colinéarité des variables auxiliaires, et donc de mauvais conditionnement.Nous étudions les points de vue "model-based" et "model-assisted" dela ridge regression. Cette technique qui fournit de meilleurs résultats en termed'erreur quadratique en comparaison avec les moindres carrés ordinaires peutégalement s'interpréter comme un calage pénalisé. Des simulations permettentd'illustrer l'intérêt de cette technique par compar[a]ison avec l'estimateur de Horvitz-Thompson.Le chapitre trois présente une autre manière de traiter les problèmes de colinéaritévia une réduction de la dimension basée sur les composantes principales. Nousétudions la régression sur composantes principales dans le contexte des sondages.Nous explorons également le calage sur les moments d'ordre deux des composantesprincipales ainsi que le calage partiel et le calage sur les composantes principalesestimées. Une illustration sur des données de l'entreprise Médiamétrie permet deconfirmer l'intérêt des ces techniques basées sur la réduction de la dimension pourl'estimation d'un total en présence d'un grand nombre de variables auxiliaires

APA, Harvard, Vancouver, ISO, and other styles

17

Dao, Ngoc Bich. "Réduction de dimension de sac de mots visuels grâce à l’analyse formelle de concepts." Thesis, La Rochelle, 2017. http://www.theses.fr/2017LAROS010/document.

Full text

Abstract:

La réduction des informations redondantes et/ou non-pertinentes dans la description de données est une étape importante dans plusieurs domaines scientifiques comme les statistiques, la vision par ordinateur, la fouille de données ou l’apprentissage automatique. Dans ce manuscrit, nous abordons la réduction de la taille des signatures des images par une méthode issue de l’Analyse Formelle de Concepts (AFC), qui repose sur la structure du treillis des concepts et la théorie des treillis. Les modèles de sac de mots visuels consistent à décrire une image sous forme d’un ensemble de mots visuels obtenus par clustering. La réduction de la taille des signatures des images consiste donc à sélectionner certains de ces mots visuels. Dans cette thèse, nous proposons deux algorithmes de sélection d’attributs (mots visuels) qui sont utilisables pour l’apprentissage supervisé ou non. Le premier algorithme, RedAttSansPerte, ne retient que les attributs qui correspondent aux irréductibles du treillis. En effet, le théorème fondamental de la théorie des treillis garantit que la structure du treillis des concepts est maintenue en ne conservant que les irréductibles. Notre algorithme utilise un graphe d’attributs, le graphe de précédence, où deux attributs sont en relation lorsque les ensembles d’objets à qui ils appartiennent sont inclus l’un dans l’autre. Nous montrons par des expérimentations que la réduction par l’algorithme RedAttsSansPerte permet de diminuer le nombre d’attributs tout en conservant de bonnes performances de classification. Le deuxième algorithme, RedAttsFloue, est une extension de l’algorithme RedAttsSansPerte. Il repose sur une version approximative du graphe de précédence. Il s’agit de supprimer les attributs selon le même principe que l’algorithme précédent, mais en utilisant ce graphe flou. Un seuil de flexibilité élevé du graphe flou entraîne mécaniquement une perte d’information et de ce fait une baisse de performance de la classification. Nous montrons par des expérimentations que la réduction par l’algorithme RedAttsFloue permet de diminuer davantage l’ensemble des attributs sans diminuer de manière significative les performances de classification
In several scientific fields such as statistics, computer vision and machine learning, redundant and/or irrelevant information reduction in the data description (dimension reduction) is an important step. This process contains two different categories : feature extraction and feature selection, of which feature selection in unsupervised learning is hitherto an open question. In this manuscript, we discussed about feature selection on image datasets using the Formal Concept Analysis (FCA), with focus on lattice structure and lattice theory. The images in a dataset were described as a set of visual words by the bag of visual words model. Two algorithms were proposed in this thesis to select relevant features and they can be used in both unsupervised learning and supervised learning. The first algorithm was the RedAttSansPerte, which based on lattice structure and lattice theory, to ensure its ability to remove redundant features using the precedence graph. The formal definition of precedence graph was given in this thesis. We also demonstrated their properties and the relationship between this graph and the AC-poset. Results from experiments indicated that the RedAttsSansPerte algorithm reduced the size of feature set while maintaining their performance against the evaluation by classification. Secondly, the RedAttsFloue algorithm, an extension of the RedAttsSansPerte algorithm, was also proposed. This extension used the fuzzy precedence graph. The formal definition and the properties of this graph were demonstrated in this manuscript. The RedAttsFloue algorithm removed redundant and irrelevant features while retaining relevant information according to the flexibility threshold of the fuzzy precedence graph. The quality of relevant information was evaluated by the classification. The RedAttsFloue algorithm is suggested to be more robust than the RedAttsSansPerte algorithm in terms of reduction

APA, Harvard, Vancouver, ISO, and other styles

18

Blazere, Melanie. "Inférence statistique en grande dimension pour des modèles structurels. Modèles linéaires généralisés parcimonieux, méthode PLS et polynômes orthogonaux et détection de communautés dans des graphes." Thesis, Toulouse, INSA, 2015. http://www.theses.fr/2015ISAT0018/document.

Full text

Abstract:

Cette thèse s'inscrit dans le cadre de l'analyse statistique de données en grande dimension. Nous avons en effet aujourd'hui accès à un nombre toujours plus important d'information. L'enjeu majeur repose alors sur notre capacité à explorer de vastes quantités de données et à en inférer notamment les structures de dépendance. L'objet de cette thèse est d'étudier et d'apporter des garanties théoriques à certaines méthodes d'estimation de structures de dépendance de données en grande dimension.La première partie de la thèse est consacrée à l'étude de modèles parcimonieux et aux méthodes de type Lasso. Après avoir présenté les résultats importants sur ce sujet dans le chapitre 1, nous généralisons le cas gaussien à des modèles exponentiels généraux. La contribution majeure à cette partie est présentée dans le chapitre 2 et consiste en l'établissement d'inégalités oracles pour une procédure Group Lasso appliquée aux modèles linéaires généralisés. Ces résultats montrent les bonnes performances de cet estimateur sous certaines conditions sur le modèle et sont illustrés dans le cas du modèle Poissonien. Dans la deuxième partie de la thèse, nous revenons au modèle de régression linéaire, toujours en grande dimension mais l'hypothèse de parcimonie est cette fois remplacée par l'existence d'une structure de faible dimension sous-jacente aux données. Nous nous penchons dans cette partie plus particulièrement sur la méthode PLS qui cherche à trouver une décomposition optimale des prédicteurs étant donné un vecteur réponse. Nous rappelons les fondements de la méthode dans le chapitre 3. La contribution majeure à cette partie consiste en l'établissement pour la PLS d'une expression analytique explicite de la structure de dépendance liant les prédicteurs à la réponse. Les deux chapitres suivants illustrent la puissance de cette formule aux travers de nouveaux résultats théoriques sur la PLS . Dans une troisième et dernière partie, nous nous intéressons à la modélisation de structures au travers de graphes et plus particulièrement à la détection de communautés. Après avoir dressé un état de l'art du sujet, nous portons notre attention sur une méthode en particulier connue sous le nom de spectral clustering et qui permet de partitionner les noeuds d'un graphe en se basant sur une matrice de similarité. Nous proposons dans cette thèse une adaptation de cette méthode basée sur l'utilisation d'une pénalité de type l1. Nous illustrons notre méthode sur des simulations
This thesis falls within the context of high-dimensional data analysis. Nowadays we have access to an increasing amount of information. The major challenge relies on our ability to explore a huge amount of data and to infer their dependency structures.The purpose of this thesis is to study and provide theoretical guarantees to some specific methods that aim at estimating dependency structures for high-dimensional data. The first part of the thesis is devoted to the study of sparse models through Lasso-type methods. In Chapter 1, we present the main results on this topic and then we generalize the Gaussian case to any distribution from the exponential family. The major contribution to this field is presented in Chapter 2 and consists in oracle inequalities for a Group Lasso procedure applied to generalized linear models. These results show that this estimator achieves good performances under some specific conditions on the model. We illustrate this part by considering the case of the Poisson model. The second part concerns linear regression in high dimension but the sparsity assumptions is replaced by a low dimensional structure underlying the data. We focus in particular on the PLS method that attempts to find an optimal decomposition of the predictors given a response. We recall the main idea in Chapter 3. The major contribution to this part consists in a new explicit analytical expression of the dependency structure that links the predictors to the response. The next two chapters illustrate the power of this formula by emphasising new theoretical results for PLS. The third and last part is dedicated to graphs modelling and especially to community detection. After presenting the main trends on this topic, we draw our attention to Spectral Clustering that allows to cluster nodes of a graph with respect to a similarity matrix. In this thesis, we suggest an alternative to this method by considering a $l_1$ penalty. We illustrate this method through simulations

APA, Harvard, Vancouver, ISO, and other styles

19

Spagnol, Adrien. "Indices de sensibilité via des méthodes à noyaux pour des problèmes d'optimisation en grande dimension." Thesis, Lyon, 2020. http://www.theses.fr/2020LYSEM012.

Full text

Abstract:

Cette thèse s'intéresse à l'optimisation sous contraintes de problèmes type « boite-noire » en grande dimension. Répandus dans les applications industrielles, elles ont généralement un coût élevé ce qui empêche d'utiliser la plupart des méthodes d'optimisation classiques. Afin de résoudre ces problèmes, la dimension de celui-ci est souvent réduite via différentes techniques telle que l'analyse de sensibilité. Un nouvel indice de sensibilité est proposé dans ces travaux afin de distinguer quelles sont les entrées du problèmes influentes et celles négligeables et d'obtenir un problème simplifié n’incluant que les premières. Notre indice, reposant sur le critère d'indépendance d'Hilbert Schmidt, fournit une connaissance de l'impact d'une variable sur la performance de la sortie ou le respect des contraintes, des aspects primordiaux dans notre cadre d'étude. Outre la caractérisation des variables influentes, plusieurs stratégies sont proposées pour traiter les paramètres négligeables. De plus, les applications industrielles coûteuses sont généralement remplacées par des modèles proxys moins coûteux qui sont optimisés de manière séquentielle. Afin de contourner les limitations dues au nombre élevé de paramètres, aussi connu sous le nom de fléau de la dimension, une extension de l'optimisation basée sur des métamodèles est proposée dans cette thèse. Grâce aux nouveaux indices de sensibilités susmentionnés, les paramètres influents sont détectés à chaque itération et l'optimisation est effectuée dans un espace de dimension inférieure
This thesis treats the optimization under constraints of high-dimensional black-box problems. Common in industrial applications, they frequently have an expensive associated cost which make most of the off-the-shelf techniques impractical. In order to come back to a tractable setup, the dimension of the problem is often reduced using different techniques such as sensitivity analysis. A novel sensitivity index is proposed in this work to distinct influential and negligible subsets of inputs in order to obtain a more tractable problem by solely working with the primer. Our index, relying on the Hilbert Schmidt independence criterion, provides an insight on the impact of a variable on the performance of the output or constraints satisfaction, key information in our study setting. Besides assessing which inputs are influential, several strategies are proposed to deal with negligible parameters. Furthermore, expensive industrial applications are often replaced by cheap surrogate models and optimized in a sequential manner. In order to circumvent the limitations due to the high number of parameters, also known as the curse of dimensionality, we introduce in this thesis an extension of the surrogated-based optimization. Thanks to the aforementioned new sensitivity indices, parameters are detected at each iteration and the optimization is conducted in a reduced space

APA, Harvard, Vancouver, ISO, and other styles

20

Tenenhaus, Arthur. "Apprentissage dans les espaces de grande dimension : Application à la caractérisation de tumeurs noires de la peau à partir d'images." Phd thesis, Université Pierre et Marie Curie - Paris VI, 2006. http://tel.archives-ouvertes.fr/tel-00142439.

Full text

Abstract:

L'objectif de la thèse est de définir les bases conceptuelles permettant de développer des méthodes efficaces et adaptées à la classification dans les espaces de grande dimension. Dans ce contexte, les méthodes à noyau s'avèrent particulièrement adaptées. En effet, au-delà de leurs propriétés de régularisation - régularisation de type Tikhonov (Régression Ridge, Support Vector Machines, ... ) ou réduction de dimension (Partial Least Squares, Régression sur Composantes Principales,...) – elles offrent des avantages algorithmiques majeurs lorsque la dimension des données est supérieure au nombre d'observations. Ces méthodes ont fait l'objet d'une étude approfondie à la fois du point de vue théorique et appliqué dans les deux premiers chapitres de la thèse.

Les deux chapitres suivants proposent de nouvelles méthodes, découlant de cette étude. Elles se fondent sur des principes de réduction de dimension supervisée en se focalisant principalement sur la régression PLS, particulièrement bien adaptée à la gestion de données de grande dimension. Il s'agissait de concevoir des algorithmes de classification s'appuyant sur les principes algorithmiques de la régression PLS. Nous avons proposé, la Kernel Logistic PLS, modèle de classification nonlinéaire et binaire basé à la fois sur la construction de variables latentes et sur des transformations du type Empirical Kernel Map. Nous avons étendu la KL-PLS au cas où la variable à prédire est polytomique donnant naissance à la Kernel Multinomial Logistic PLS regression.
Enfin dans les deux derniers chapitres, nous avons appliqué ces méthodes à de nombreux domaines, notamment en analyse d'images. Nous avons ainsi contribué au développement d'une application en vraie grandeur dans le domaine médical en élaborant un outil d'aide au diagnostic de tumeurs noires de la peau à partir d'images.

APA, Harvard, Vancouver, ISO, and other styles

21

Lespinats, Sylvain. "Style du génome exploré par analyse textuelle de l'ADN." Phd thesis, Université Pierre et Marie Curie - Paris VI, 2006. http://tel.archives-ouvertes.fr/tel-00151611.

Full text

Abstract:

Les séquences d'ADN peuvent être considérées comme des textes écrits dans un alphabet de 4 lettres. Des techniques inspirées de l'analyse textuelle permettent donc de les caractériser, entre autres à partir de fréquences d'apparition de courtes suites de caractères (les oligonucléotides ou mots). L'ensemble des fréquences des mots d'une longueur donnée est appelé « signature génomique » (cet ensemble est spécifique de l'espèce, ce qui justifie le terme de « signature »). La signature d'espèce est observable sur la plupart des courts fragments d'ADN, ce qui donne à penser qu'elle résulte d'un « style d'écriture ». De plus, la proximité entre espèces du point de vue de la signature génomique correspond bien souvent à une proximité en terme taxonomique. Pourtant, l'analyse des signatures génomiques se confronte rapidement à des limitations dues à la malédiction de la dimension. En effet, les données de grande dimension (la signature génomique a généralement 256 dimensions) montrent des propriétés qui mettent en défaut l'intuition. Par exemple, le phénomène de concentration des distances euclidiennes est bien connu.
Partant de ces constatations, nous avons mis en place des procédures d'évaluation des distances entre signatures de façon à rendre plus manifeste les informations biologiques sur lesquelles s'appuient nos analyses. Une méthode de projection non-linéaire des voisinages y est associée ce qui permet de s'affranchir des problèmes de grande dimension et de visualiser l'espace occupé par les données. L'analyse des relations entre les signatures pose le problème de la contribution de chaque variable (les mots) à la distance entre les signatures. Un Z-score original basé sur la variation de la fréquence des mots le long des génomes a permis de quantifier ces contributions. L'étude des variations de l'ensemble des fréquences le long d'un génomes permet d'extraire des segments originaux. Une méthode basée sur l'analyse du signal permet d'ailleurs de segmenter précisément ces zones originales.
Grâce à cet ensemble de méthodes, nous proposons des résultats biologiques. En particulier, nous mettons en évidence une organisation de l'espace des signatures génomiques cohérente avec la taxonomie des espèces. De plus, nous constatons la présence d'une syntaxe de l'ADN : il existe des « mots à caractère syntaxique » et des « mots à caractère sémantique », la signature s'appuyant surtout sur les mots à caractère syntaxique. Enfin, l'analyse des signatures le long du génome permet une détection et une segmentation précise des ARN et de probables transferts horizontaux. Une convergence du style des transferts horizontaux vers la signature de l'hôte a d'ailleurs pu être observée.
Des résultats variés ont été obtenus par analyse des signatures. Ainsi, la simplicité d'utilisation et la rapidité de l'analyse des séquences par signatures en font un outil puissant pour extraire de l'information biologique à partir des génomes.

APA, Harvard, Vancouver, ISO, and other styles

22

Roget-Vial, Céline. "deux contributions à l'étude semi-paramétrique d'un modèle de régression." Phd thesis, Université Rennes 1, 2003. http://tel.archives-ouvertes.fr/tel-00008730.

Full text

Abstract:

Cette thèse s'intéresse à deux modèles de régression semi-paramétrique permettant de contourner le problème classique du "fléau de la dimension" inhérent aux approches non-paramétriques usuelles. La première partie du travail concerne l'étude d'un modèle de régression dit partiellement linéaire ; le but est d'identifier les régresseurs qui composent la partie non-linéaire de la fonction de régression ainsi que d'estimer tous les paramètres du modèle. Pour ce faire nous définissons des quantités caractéristiques du modèle qui mesurent la linéarité des régresseurs puis nous développons un test du nombre de composantes non-linéaires basé sur cette mesure. La seconde partie porte sur l'étude d'un modèle dit à direction révélatrice unique et consiste à estimer, via des propriétés géométriques, l'axe du modèle et d'en déduire un test convergent et puissant sous une suite d'alternatives locales.

APA, Harvard, Vancouver, ISO, and other styles

23

Dimeglio, Chloé. "Méthodes d'estimations statistiques et apprentissage pour l'imagerie agricole." Toulouse 3, 2013. http://www.theses.fr/2013TOU30110.

Full text

Abstract:

Nous disposons de séries temporelles d'indices associés à chaque pixel d'une image satellite. Notre objectif est de fournir au plus tôt une information fiable sur les estimations de surfaces en culture à partir de l'information attachée à chaque pixel et caractérisée par la courbe qui lui est associée. Il s'agira donc dans un premier temps de caractériser la variabilité spatiale associée à ces pixels et de déterminer une segmentation spatiale qui permette d'homogénéiser les données par classe. Dans un second temps l'extraction de l'information utile tiendra compte de la structure des courbes caractéristiques de la nature des pixels de l'image. L'étape finale consistera à déterminer la méthode adéquate d'estimation pour une prédiction des surfaces en cultures
We have to provide reliable information on the acreage estimate of crop areas. We have time series of indices contained in satellite images, and thus sets of curves. We propose to segment the space in order to reduce the variability of our initial classes of curves. Then, we reduce the data volume and we find a set of meaningful representative functions that characterizes the common behavior of each crop class. This method is close to the extraction of a "structural mean". We compare each unknown curve to a curve of the representative base and we allocate each curve to the class of the nearest representative curve. At the last step we learn the error of estimates on known data and correct the first estimate by calibration

APA, Harvard, Vancouver, ISO, and other styles

24

Romary, Thomas. "Inversion des modèles stochastiques de milieux hétérogènes." Paris 6, 2008. https://tel.archives-ouvertes.fr/tel-00395528.

Full text

Abstract:

Le problème du calage d'historique en ingénierie de réservoir est un problème inverse mal posé. Dans un cadre bayésien, sa résolution suppose l'inférence de la distribution de probabilité du modèle géostatistique conditionné aux données dynamiques. Typiquement, la résolution de ce problème passe par la génération d'un échantillon représentatif de la distribution conditionnelle. Les modèles géostatistiques sont en général discrétisés sur des grilles de plusieurs centaines de milliers de blocs ; les approches classiques tentent de résoudre le problème inverse en considérant l'ensemble des blocs comme paramètres. La dimension est alors considérable et les méthodes d'échantillonnages deviennent impraticables. Il convient alors de choisir une paramétrisation susceptible de réduire la dimension. Dans une première partie, nous présentons une méthode de paramétrisation optimale de certains modèles géostatistiques, à partir de leur décomposition de Karhunen-Loève. Nous en décrivons les fondements théoriques, puis, sur des applications aux modèles courants en géostatistique pétrolière, selon des critères d'abord statistiques puis hydrodynamiques, nous quantifions la réduction de la dimension du problème offerte par cette paramétrisation. Dans la seconde partie, nous présentons les principes des méthodes de Monte-Carlo par Chaînes de Markov et les défauts des méthodes classiques pour la résolution du problème inverse dans le cadre bayésien. Nous développons alors l'approche par chaînes de Markov en interaction dont nous exposons les avantages. Enfin, les résultats obtenus par l'emploi conjoint de ces deux méthodes sont présentés dans deux articles.

APA, Harvard, Vancouver, ISO, and other styles

25

Thirion, Bertrand. "Analyse de données d' IRM fonctionnelle : statistiques, information et dynamique." Phd thesis, Télécom ParisTech, 2003. http://tel.archives-ouvertes.fr/tel-00457460.

Full text

Abstract:

Dans cette thèse, nous discutons et proposons un certains nombre de méthodes pour l'analyse de données d'IRM -imagerie par résonance magnétique- fonctionnelle. L'IRM fonctionnelle est une modalité récente de l'exploration du cerveau: elle produit des séquences d'images reflétant l'activité métabolique locale, celle-ci reflétant l'activité neuronale. Nous nous intéressons tout d'abord à la modélisation des séries temporelles obtenues pour chaque voxel séparément, en faisant appel aux techniques de prédiction linéaire et au calcul de l'information des processus modélisés. Nous étudions ensuite différentes généralisations multivariées de ce modèle. Après avoir rappelé et discuté certaines techniques classiques (analyse en composantes indépendantes, regroupement), nous proposons successivement une approche linéaire fondée sur la théorie des systèmes à état et une approche non-linéaire fondée sur les décompositions à noyau. Le but commun de ces méthodes -qui peuvent se compléter- est de proposer des décompositions qui préservent au mieux la dynamique des données. Nous introduisons ensuite une approche nouvelle par réduction de la dimension des données; cette approche offre une représentation plus structurée et relativement agréable à visualiser. Nous montrons ses avantages par rapport aux techniques linéaires classiques. Enfin, nous décrivons une méthodologie d'analyse qui synthétise une grande partie de ce travail, et repose sur des hypothèses très souples. Nos résultats offrent ainsi une description globale des processus dynamiques qui sont mis en image lors des expériences d'IRM fonctionnelle.

APA, Harvard, Vancouver, ISO, and other styles

26

Girard, Sylvain. "Diagnostic du colmatage des générateurs de vapeur à l'aide de modèles physiques et statistiques." Phd thesis, Ecole Nationale Supérieure des Mines de Paris, 2012. http://pastel.archives-ouvertes.fr/pastel-00798355.

Full text

Abstract:

Les générateurs de vapeur sont d'imposants échangeurs de chaleur qui alimentent les turbines des centrales nucléaires à eau pressurisée. Au cours de leur exploitation, des dépôts d'oxydes s'y accumulent et obstruent progressivement des trous prévus pour le passage du fluide. Ce phénomène, appelé colmatage, pose des problèmes de sûreté. Une méthode de diagnostic est nécessaire pour optimiser la stratégie de maintenance permettant de s'en prémunir. La piste explorée dans cette thèse est l'analyse de la réponse dynamique des générateurs de vapeur lors de transitoire de puissance, à l'aide d'un modèle physique monodimensionnel. Deux améliorations ont été apportées au modèle existant au cours de la thèse : la prise en compte des débits perpendiculaires à l'axe du générateur de vapeur et la modélisation du déséquilibre cinématique entre la phase liquide et la phase vapeur. Ces éléments ont ajouté des degrés de liberté permettant de mieux reproduire le comportement réel des générateurs de vapeur. Une nouvelle méthodologie de calage et de validation a alors été proposée afin de garantir la robustesse du modèle.Le problème inverse initial était mal posé car plusieurs configurations spatiales de colmatage peuvent donner des réponses identiques. La magnitude relative de l'effet des dépôts suivant leur localisation a été évaluée par analyse de sensibilité avec la méthode de Sobol'. La dimension de la sortie fonctionnelle du modèle a au préalable été réduite par une analyse en composantes principales.Enfin, une méthode de réduction de dimension appelée régression inverse par tranches a été mise en œuvre pour déterminer dessous-espaces de projection optimaux pour le diagnostic. Une méthode de diagnostic plus robuste et mieux maitrisée que celle existante a pu être proposée grâce à cette nouvelle formulation.

APA, Harvard, Vancouver, ISO, and other styles

27

Chiapino, Maël. "Apprentissage de structures dans les valeurs extrêmes en grande dimension." Thesis, Paris, ENST, 2018. http://www.theses.fr/2018ENST0035/document.

Full text

Abstract:

Nous présentons et étudions des méthodes d’apprentissage non-supervisé de phénomènes extrêmes multivariés en grande dimension. Dans le cas où chacune des distributions marginales d’un vecteur aléatoire est à queue lourde, l’étude de son comportement dans les régions extrêmes (i.e. loin de l’origine) ne peut plus se faire via les méthodes usuelles qui supposent une moyenne et une variance finies. La théorie des valeurs extrêmes offre alors un cadre adapté à cette étude, en donnant notamment une base théorique à la réduction de dimension à travers la mesure angulaire. La thèse s’articule autour de deux grandes étapes : - Réduire la dimension du problème en trouvant un résumé de la structure de dépendance dans les régions extrêmes. Cette étape vise en particulier à trouver les sous-groupes de composantes étant susceptible de dépasser un seuil élevé de façon simultané. - Modéliser la mesure angulaire par une densité de mélange qui suit une structure de dépendance déterminée à l’avance. Ces deux étapes permettent notamment de développer des méthodes de classification non-supervisée à travers la construction d’une matrice de similarité pour les points extrêmes
We present and study unsupervised learning methods of multivariate extreme phenomena in high-dimension. Considering a random vector on which each marginal is heavy-tailed, the study of its behavior in extreme regions is no longer possible via usual methods that involve finite means and variances. Multivariate extreme value theory provides an adapted framework to this study. In particular it gives theoretical basis to dimension reduction through the angular measure. The thesis is divided in two main part: - Reduce the dimension by finding a simplified dependence structure in extreme regions. This step aim at recover subgroups of features that are likely to exceed large thresholds simultaneously. - Model the angular measure with a mixture distribution that follows a predefined dependence structure. These steps allow to develop new clustering methods for extreme points in high dimension

APA, Harvard, Vancouver, ISO, and other styles

28

Chiapino, Maël. "Apprentissage de structures dans les valeurs extrêmes en grande dimension." Electronic Thesis or Diss., Paris, ENST, 2018. http://www.theses.fr/2018ENST0035.

Full text

Abstract:

Nous présentons et étudions des méthodes d’apprentissage non-supervisé de phénomènes extrêmes multivariés en grande dimension. Dans le cas où chacune des distributions marginales d’un vecteur aléatoire est à queue lourde, l’étude de son comportement dans les régions extrêmes (i.e. loin de l’origine) ne peut plus se faire via les méthodes usuelles qui supposent une moyenne et une variance finies. La théorie des valeurs extrêmes offre alors un cadre adapté à cette étude, en donnant notamment une base théorique à la réduction de dimension à travers la mesure angulaire. La thèse s’articule autour de deux grandes étapes : - Réduire la dimension du problème en trouvant un résumé de la structure de dépendance dans les régions extrêmes. Cette étape vise en particulier à trouver les sous-groupes de composantes étant susceptible de dépasser un seuil élevé de façon simultané. - Modéliser la mesure angulaire par une densité de mélange qui suit une structure de dépendance déterminée à l’avance. Ces deux étapes permettent notamment de développer des méthodes de classification non-supervisée à travers la construction d’une matrice de similarité pour les points extrêmes
We present and study unsupervised learning methods of multivariate extreme phenomena in high-dimension. Considering a random vector on which each marginal is heavy-tailed, the study of its behavior in extreme regions is no longer possible via usual methods that involve finite means and variances. Multivariate extreme value theory provides an adapted framework to this study. In particular it gives theoretical basis to dimension reduction through the angular measure. The thesis is divided in two main part: - Reduce the dimension by finding a simplified dependence structure in extreme regions. This step aim at recover subgroups of features that are likely to exceed large thresholds simultaneously. - Model the angular measure with a mixture distribution that follows a predefined dependence structure. These steps allow to develop new clustering methods for extreme points in high dimension

APA, Harvard, Vancouver, ISO, and other styles

29

Raphel, Fabien. "Mathematical modelling and learning of biomedical signals for safety pharmacology." Thesis, Sorbonne université, 2022. http://www.theses.fr/2022SORUS116.

Full text

Abstract:

En tant que branche de la pharmacologie, la pharmacologie de sécurité cardiaque vise à étudier les effets secondaires des composés sur le système cardiaque, à des doses thérapeutiques. Ces études, réalisées par le biais d’expériences in silico, in vitro et in vivo, permettent de sélectionner/rejeter un composé à chaque étape du processus de développement du médicament. Un vaste sous-domaine de la pharmacologie de sécurité cardiaque est consacré à l’étude de l’activité électrique des cellules cardiaques à partir d’expériences in silico et in vitro. Cette activité électrique est la conséquence d’échanges de structures polarisées (principalement des ions) entre le milieu extracellulaire et intracellulaire. Une modification des échanges ioniques induit des changements dans l’activité électrique de la cellule cardiaque qui peuvent être pathologiques (par ex. en générant des arythmies). Une bonne connaissance de ces signaux électriques est donc essentielle pour prévenir les risques d’évènements létaux. Les techniques de patch-clamp sont les méthodes les plus courantes pour enregistrer l’activité électrique d’une cellule cardiaque. Bien que ces signaux électriques soient bien connus, ils sont lents et fastidieux à réaliser, et donc, coûteux. Une alternative récente consiste à considérer les dispositifs de réseaux de microélectrodes (MEA). Développés à l’origine pour l’étude des neurones, leur extension aux cellules cardiaques permet un criblage à haut débit qui n’était pas possible avec les techniques de patch-clamp. Un MEA est une plaque avec des puits dans lesquels des cellules cardiaques (formant un tissu) recouvrent des électrodes. Par conséquent, l’extension de ces dispositifs aux cellules cardiaques permet d’enregistrer l’activité électrique des cellules au niveau du tissu (avant et après l’ajout d’un composé dans les puits). Comme il s’agit d’un nouveau signal, de nombreuses études doivent être menées pour comprendre comment les échanges ioniques induisent cette activité électrique enregistrée, et, enfin, pour procéder à la sélection/rejet d’un composé. Bien que ces signaux soient encore mal connus, des études récentes ont montré des résultats prometteurs dans la prise en compte des MEA dans la pharmacologie de sécurité cardiaque. L’automatisation de la sélection/rejet d’un composé est encore difficile et loin des applications industrielles, ce qui est l’objectif final de ce manuscrit. Mathématiquement, le processus de sélection/rejet peut être considéré comme un problème de classification binaire. Comme dans toute classification supervisée (et dans les tâches d’apprentissage automatique, plus généralement), une entrée doit être définie. Dans notre cas, les séries temporelles des activités électriques cardiaques sont éventuellement longues (minutes ou heures) avec un taux d’échantillonnage élevé (∼ kHz) conduisant à une entrée appartenant à un espace de grande dimension (centaines, milliers ou même plus). De plus, le nombre de données disponibles est encore faible (au plus quelques centaines). Ce régime critique nommé haute dimension/faible taille d’échantillon rend le contexte difficile. Le but de ce manuscrit est de fournir une stratégie systématique pour sélectionner/rejeter des composés d’une manière automatisée, sous les contraintes suivantes: • Traiter le régime de haute dimension/faible taille d’échantillon. • Aucune hypothèse sur la distribution des données. • Exploiter les modèles in silico pour améliorer les performances de classification. • Pas ou peu de paramètres à régler. La première partie du manuscrit est consacrée au contexte, suivie de la description des techniques de patch-clamp et de MEA. Enfin, une description des modèles de potentiel d’action et de potentiel de champ pour réaliser des expériences in silico est donnée. Dans une seconde partie, deux aspects méthodologiques sont développés en respectant au mieux les contraintes définies par le contexte industriel. Le premier décrit une stratégie de [...]
As a branch of pharmacology, cardiac safety pharmacology aims at investigating compound side effects on the cardiac system at therapeutic doses. These investigations, made through in silico, in vitro and in vivo experiments, allow to select/reject a compound at each step of the drug development process. A large subdomain of cardiac safety pharmacology is devoted to the study of the electrical activity of cardiac cells based on in silico and in vitro assays. This electrical activity is the consequence of polarised structure exchanges (mainly ions) between the extracellular and intracellular medium. A modification of the ionic exchanges induces changes in the electrical activity of the cardiac cell which can be pathological (e.g. by generating arrhythmia). Strong knowledges of these electrical signals are therefore essential to prevent risk of lethal events. Patch-clamp techniques are the most common methods to record the electrical activity of a cardiac cell. Although these electrical signals are well known, they are slow and tedious to perform, and therefore, expansive. A recent alternative is to consider microelectrode array (MEA) devices. Originally developped for neurons studies, its extension to cardiac cells allows a high throughput screening which was not possible with patch-clamp techniques. It consists of a plate with wells in which cardiac cells (forming a tissue) cover some electrodes. Therefore, the extension of these devices to cardiac cells allow to record the electrical activity of the cells at a tissue level (before and after compound addition into the wells). As a new signal, many studies have to be done to understand how ionic exchanges induce this recorded electrical activity, and, finally, to proceed the selection/rejection of a compound. Despite these signals are still not well known, recent studies have shown promising results in the consideration of MEA into cardiac safety pharmacology. The automation of the compound selection/rejection is still challenging and far from industrial applications, which is the final goal of this manuscript. Mathematically, the selection/rejection process can be seen as a binary classification problem. As in any supervised classification (and machine learning tasks, more generally), an input has to be defined. In our case, time series of the cardiac electrical activities are possibly long (minutes or hours) with a high sampling rate (∼ kHz) leading to an input living in a high-dimensional space (hundreds, thousands or even more). Moreover the number of available data is still low (at most hundreds). This critical regime named high dimension/low sample size make the context challenging. The aim of this manuscript is to provide a systematic strategy to select/reject compounds in an automated way, under the following constraints:• Deal with high dimension/low sample size regime. • No assumptions on the data distributions. • Exploit in silico models to improve the classification performances. • No or few parameters to tune. The first part of the manuscript is devoted to the context, followed by the description of the patch-clamp and MEA technologies. This part ends by the description of action potential and field potential models to perform in silico experiments. In a second part, two methodological aspects are developped, trying to comply, at best, with the constraints of the industrial application. The first one describes a double greedy goal-oriented strategy to reduce the input space based on a score function related to the classification success rate. Comparisons with classical dimension reduction methods such as PCA and PLS (with default parameters) are performed, showing that the proposed method led to better results. The second method consists in the construction of an augmented training set based on a reservoir of simulations, by considering the Hausdorff distance between sets and the maximisation of same score function as in the first method. The proposed strategy [...]

APA, Harvard, Vancouver, ISO, and other styles

30

Gkamas, Theodosios. "Modélisation statistique de tenseurs d'ordre supérieur en imagerie par résonance magnétique de diffusion." Thesis, Strasbourg, 2015. http://www.theses.fr/2015STRAD036/document.

Full text

Abstract:

L'IRMd est un moyen non invasif permettant d'étudier in vivo la structure des fibres nerveuses du cerveau. Dans cette thèse, nous modélisons des données IRMd à l'aide de tenseurs d'ordre 4 (T4). Les problèmes de comparaison de groupes ou d'individu avec un groupe normal sont abordés, et résolus à l'aide d'analyses statistiques sur les T4s. Les approches utilisent des réductions non linéaires de dimension, et bénéficient des métriques non euclidiennes pour les T4s. Les statistiques sont calculées dans l'espace réduit, et permettent de quantifier la dissimilarité entre le groupe (ou l'individu) d'intérêt et le groupe de référence. Les approches proposées sont appliquées à la neuromyélite optique et aux patients atteints de locked in syndrome. Les conclusions tirées sont cohérentes avec les connaissances médicales actuelles
DW-MRI is a non-invasive way to study in vivo the structure of nerve fibers in the brain. In this thesis, fourth order tensors (T4) were used to model DW-MRI data. In addition, the problems of group comparison or individual against a normal group were discussed and solved using statistical analysis on T4s. The approaches use nonlinear dimensional reductions, assisted by non-Euclidean metrics for T4s. The statistics are calculated in the reduced space and allow us to quantify the dissimilarity between the group (or the individual) of interest and the reference group. The proposed approaches are applied to neuromyelitis optica and patients with locked in syndrome. The derived conclusions are consistent with the current medical knowledge

APA, Harvard, Vancouver, ISO, and other styles

31

Brunet, Camille. "Classification parcimonieuse et discriminante de données complexes. Une application à la cytologie." Phd thesis, Université d'Evry-Val d'Essonne, 2011. http://tel.archives-ouvertes.fr/tel-00671333.

Full text

Abstract:

Les thèmes principaux de ce mémoire sont la parcimonie et la discrimination pour la modélisation de données complexes. Dans une première partie de ce mémoire, nous nous plaçons dans un contexte de modèle de mélanges gaussiens: nous introduisons une nouvelle famille de modèles probabilistes qui simultanément classent et trouvent un espace discriminant tel que cet espace discrimine au mieux les groupes. Une famille de 12 modèles latents discriminants (DLM) modèles est introduite et se base sur trois idées: tout d'abord, les données réelles vivent dans un sous-espace latent de dimension intrinsèque plus petite que celle de l'espace observé; deuxièmement, un sous-espace de K-1 dimensions est suffisant pour discriminer K groupes; enfin, l'espace observé et celui latent sont liés par une transformation linéaire. Une procédure d'estimation, appelée Fisher-EM, est proposée et améliore la plupart du temps les performances de clustering grâce à l'utilisation du sous-espace discriminant. Dans un second travail, nous nous sommes intéressés à la détermination du nombre de groupes en utilisant le cadre de la sériation. nous proposons d'intégrer de la parcimonie dans les données par l'intermédiaire d'une famille de matrices binaires. Ces dernière sont construites à partir d'une mesure de dissimilarité basée sur le nombre de voisins communs entre paires d'observations. En particulier, plus le nombre de voisins communs imposé est important, plus la matrice sera parcimonieuse, i.e. remplie de zéros, ce qui permet, à mesure que le seuil de parcimonie augmente, de retirer les valeurs extrêmes et les données bruitées. Cette collection de matrices parcimonieuses est ordonnée selon un algorithme de sériation de type forward, nommé PB-Clus, aﬁn d'obtenir des représentations par blocs des matrices sériées. Ces deux méthodes ont été validées sur une application biologique basée sur la détection du cancer du col de l'utérus.

APA, Harvard, Vancouver, ISO, and other styles

32

Zwald, Laurent. "PERFORMANCES STATISTIQUES D'ALGORITHMES D'APPRENTISSAGE : ``KERNEL PROJECTION MACHINE'' ET ANALYSE EN COMPOSANTES PRINCIPALES A NOYAU." Phd thesis, Université Paris Sud - Paris XI, 2005. http://tel.archives-ouvertes.fr/tel-00012011.

Full text

Abstract:

La thèse se place dans le cadre de l'apprentissage statistique. Elle apporte
des contributions à la communauté du machine learning en utilisant des
techniques de statistiques modernes basées sur des avancées dans l'étude
des processus empiriques. Dans une première partie, les propriétés statistiques de
l'analyse en composantes principales à noyau (KPCA) sont explorées. Le
comportement de l'erreur de reconstruction est étudié avec un point de vue
non-asymptotique et des inégalités de concentration des valeurs propres de la matrice de
Gram sont données. Tous ces résultats impliquent des vitesses de
convergence rapides. Des propriétés
non-asymptotiques concernant les espaces propres de la KPCA eux-mêmes sont également
proposées. Dans une deuxième partie, un nouvel
algorithme de classification a été
conçu : la Kernel Projection Machine (KPM).
Tout en s'inspirant des Support Vector Machines (SVM), il met en lumière que la sélection d'un espace vectoriel par une méthode de
réduction de la dimension telle que la KPCA régularise
convenablement. Le choix de l'espace vectoriel utilisé par la KPM est guidé par des études statistiques de sélection de modéle par minimisation pénalisée de la perte empirique. Ce
principe de régularisation est étroitement relié à la projection fini-dimensionnelle étudiée dans les travaux statistiques de
Birgé et Massart. Les performances de la KPM et de la SVM sont ensuite comparées sur différents jeux de données. Chaque thème abordé dans cette thèse soulève de nouvelles questions d'ordre théorique et pratique.

APA, Harvard, Vancouver, ISO, and other styles

33

Malfante, Marielle. "Automatic classification of natural signals for environmental monitoring." Thesis, Université Grenoble Alpes (ComUE), 2018. http://www.theses.fr/2018GREAU025/document.

Full text

Abstract:

Ce manuscrit de thèse résume trois ans de travaux sur l’utilisation des méthodes d’apprentissage statistique pour l’analyse automatique de signaux naturels. L’objectif principal est de présenter des outils efficaces et opérationnels pour l’analyse de signaux environnementaux, en vue de mieux connaitre et comprendre l’environnement considéré. On se concentre en particulier sur les tâches de détection et de classification automatique d’événements naturels.Dans cette thèse, deux outils basés sur l’apprentissage supervisé (Support Vector Machine et Random Forest) sont présentés pour (i) la classification automatique d’événements, et (ii) pour la détection et classification automatique d’événements. La robustesse des approches proposées résulte de l’espace des descripteurs dans lequel sont représentés les signaux. Les enregistrements y sont en effet décrits dans plusieurs espaces: temporel, fréquentiel et quéfrentiel. Une comparaison avec des descripteurs issus de réseaux de neurones convolutionnels (Deep Learning) est également proposée, et favorise les descripteurs issus de la physique au détriment des approches basées sur l’apprentissage profond.Les outils proposés au cours de cette thèse sont testés et validés sur des enregistrements in situ de deux environnements différents : (i) milieux marins et (ii) zones volcaniques. La première application s’intéresse aux signaux acoustiques pour la surveillance des zones sous-marines côtières : les enregistrements continus sont automatiquement analysés pour détecter et classifier les différents sons de poissons. Une périodicité quotidienne est mise en évidence. La seconde application vise la surveillance volcanique : l’architecture proposée classifie automatiquement les événements sismiques en plusieurs catégories, associées à diverses activités du volcan. L’étude est menée sur 6 ans de données volcano-sismiques enregistrées sur le volcan Ubinas (Pérou). L’analyse automatique a en particulier permis d’identifier des erreurs de classification faites dans l’analyse manuelle originale. L’architecture pour la classification automatique d’événements volcano-sismiques a également été déployée et testée en observatoire en Indonésie pour la surveillance du volcan Mérapi. Les outils développés au cours de cette thèse sont rassemblés dans le module Architecture d’Analyse Automatique (AAA), disponible en libre accès
This manuscript summarizes a three years work addressing the use of machine learning for the automatic analysis of natural signals. The main goal of this PhD is to produce efficient and operative frameworks for the analysis of environmental signals, in order to gather knowledge and better understand the considered environment. Particularly, we focus on the automatic tasks of detection and classification of natural events.This thesis proposes two tools based on supervised machine learning (Support Vector Machine, Random Forest) for (i) the automatic classification of events and (ii) the automatic detection and classification of events. The success of the proposed approaches lies in the feature space used to represent the signals. This relies on a detailed description of the raw acquisitions in various domains: temporal, spectral and cepstral. A comparison with features extracted using convolutional neural networks (deep learning) is also made, and favours the physical features to the use of deep learning methods to represent transient signals.The proposed tools are tested and validated on real world acquisitions from different environments: (i) underwater and (ii) volcanic areas. The first application considered in this thesis is devoted to the monitoring of coastal underwater areas using acoustic signals: continuous recordings are analysed to automatically detect and classify fish sounds. A day to day pattern in the fish behaviour is revealed. The second application targets volcanoes monitoring: the proposed system classifies seismic events into categories, which can be associated to different phases of the internal activity of volcanoes. The study is conducted on six years of volcano-seismic data recorded on Ubinas volcano (Peru). In particular, the outcomes of the proposed automatic classification system helped in the discovery of misclassifications in the manual annotation of the recordings. In addition, the proposed automatic classification framework of volcano-seismic signals has been deployed and tested in Indonesia for the monitoring of Mount Merapi. The software implementation of the framework developed in this thesis has been collected in the Automatic Analysis Architecture (AAA) package and is freely available

APA, Harvard, Vancouver, ISO, and other styles

34

Belhadji, Ayoub. "Echantillonnage des sous-espaces à l’aide des processus ponctuels déterminantaux." Thesis, Ecole centrale de Lille, 2020. http://www.theses.fr/2020ECLI0021.

Full text

Abstract:

Les processus ponctuels déterminantaux sont des modèles probabilistes de répulsion. Ces modèles ont été étudié dans différents domaines: les matrices aléatoires, l’optique quantique, les statistiques spatiales, le traitement d’images, l’apprentissage automatique et récemment les quadratures.Dans cette thèse, on étudie l’échantillonnage des sous-espaces à l’aide des processus ponctuels déterminantaux. Ce problème se trouve à l’intersection de trois branches de la théorie d’approximation: la sous sélection dans les ensembles discrets, la quadrature à noyau et l’interpolation à noyau. On étudie ces questions classiques à travers une nouvelle interprétation de ces modèles aléatoires: un processus ponctuel déterminantal est une façon naturelle de définir un sous-espace aléatoire. En plus de donner une analyse unifiée de l’intégration et l’interpolation numériques sous les DPPs, cette nouvelle approche permet de développer les garanties théoriques de plusieurs algorithmes à base de DPPs, et même de prouver leur optimalité pour certains problèmes
Determinantal point processes are probabilistic models of repulsion.These models were studied in various fields: random matrices, quantum optics, spatial statistics, image processing, machine learning and recently numerical integration.In this thesis, we study subspace sampling using determinantal point processes. This problem takes place within the intersection of three sub-domains of approximation theory: subset selection, kernel quadrature and kernel interpolation. We study these classical topics, through a new interpretation of these probabilistic models: a determinantal point process is a natural way to define a random subspace. Beside giving a unified analysis to numerical integration and interpolation under determinantal point processes, this new perspective allows to work out the theoretical guarantees of several approximation algorithms, and to prove their optimality in some settings

APA, Harvard, Vancouver, ISO, and other styles

35

Belhadji, Ayoub. "Echantillonnage des sous-espaces à l’aide des processus ponctuels déterminantaux." Thesis, Centrale Lille Institut, 2020. http://www.theses.fr/2020CLIL0021.

Full text

Abstract:

Les processus ponctuels déterminantaux sont des modèles probabilistes de répulsion. Ces modèles ont été étudié dans différents domaines: les matrices aléatoires, l’optique quantique, les statistiques spatiales, le traitement d’images, l’apprentissage automatique et récemment les quadratures.Dans cette thèse, on étudie l’échantillonnage des sous-espaces à l’aide des processus ponctuels déterminantaux. Ce problème se trouve à l’intersection de trois branches de la théorie d’approximation: la sous sélection dans les ensembles discrets, la quadrature à noyau et l’interpolation à noyau. On étudie ces questions classiques à travers une nouvelle interprétation de ces modèles aléatoires: un processus ponctuel déterminantal est une façon naturelle de définir un sous-espace aléatoire. En plus de donner une analyse unifiée de l’intégration et l’interpolation numériques sous les DPPs, cette nouvelle approche permet de développer les garanties théoriques de plusieurs algorithmes à base de DPPs, et même de prouver leur optimalité pour certains problèmes
Determinantal point processes are probabilistic models of repulsion.These models were studied in various fields: random matrices, quantum optics, spatial statistics, image processing, machine learning and recently numerical integration.In this thesis, we study subspace sampling using determinantal point processes. This problem takes place within the intersection of three sub-domains of approximation theory: subset selection, kernel quadrature and kernel interpolation. We study these classical topics, through a new interpretation of these probabilistic models: a determinantal point process is a natural way to define a random subspace. Beside giving a unified analysis to numerical integration and interpolation under determinantal point processes, this new perspective allows to work out the theoretical guarantees of several approximation algorithms, and to prove their optimality in some settings

APA, Harvard, Vancouver, ISO, and other styles

36

Raja, Suleiman Raja Fazliza. "Méthodes de detection robustes avec apprentissage de dictionnaires. Applications à des données hyperspectrales." Thesis, Nice, 2014. http://www.theses.fr/2014NICE4121/document.

Full text

Abstract:

Le travail dans cette thèse porte sur le problème de détection «one among many» où l’on doit distinguer entre un bruit sous H0 et une parmi L alternatives connues sous H1. Ce travail se concentre sur l’étude et la mise en œuvre de méthodes de détection robustes de dimension réduite utilisant des dictionnaires optimisés. Ces méthodes de détection sont associées au test de Rapport de Vraisemblance Généralisé. Les approches proposées sont principalement évaluées sur des données hyperspectrales. Dans la première partie, plusieurs sujets techniques associés à cette thèse sont présentés. La deuxième partie met en évidence les aspects théoriques et algorithmiques des méthodes proposées. Deux inconvénients liés à un grand nombre d’alternatives se posent. Dans ce cadre, nous proposons des techniques d’apprentissage de dictionnaire basées sur un critère robuste qui cherche à minimiser la perte de puissance dans le pire des cas (type minimax). Dans le cas où l’on cherche un dictionnaire à K = 1 atome, nous montrons que la solution exacte peut être obtenue. Ensuite, nous proposons dans le cas K > 1 trois algorithmes d’apprentissage minimax. Finalement, la troisième partie de ce manuscrit présente plusieurs applications. L’application principale concerne les données astrophysiques hyperspectrales de l’instrument Multi Unit Spectroscopic Explorer. Les résultats numériques montrent que les méthodes proposées sont robustes et que le cas K > 1 permet d’augmenter les performances de détection minimax par rapport au cas K = 1. D’autres applications possibles telles que l’apprentissage minimax de visages et la reconnaissance de chiffres manuscrits dans le pire cas sont présentées
This Ph.D dissertation deals with a "one among many" detection problem, where one has to discriminate between pure noise under H0 and one among L known alternatives under H1. This work focuses on the study and implementation of robust reduced dimension detection tests using optimized dictionaries. These detection methods are associated with the Generalized Likelihood Ratio test. The proposed approaches are principally assessed on hyperspectral data. In the first part, several technical topics associated to the framework of this dissertation are presented. The second part highlights the theoretical and algorithmic aspects of the proposed methods. Two issues linked to the large number of alternatives arise in this framework. In this context, we propose dictionary learning techniques based on a robust criterion that seeks to minimize the maximum power loss (type minimax). In the case where the learned dictionary has K = 1 column, we show that the exact solution can be obtained. Then, we propose in the case K > 1 three minimax learning algorithms. Finally, the third part of this manuscript presents several applications. The principal application regards astrophysical hyperspectral data of the Multi Unit Spectroscopic Explorer instrument. Numerical results show that the proposed algorithms are robust and in the case K > 1 they allow to increase the minimax detection performances over the K = 1 case. Other possible applications such as worst-case recognition of faces and handwritten digits are presented

APA, Harvard, Vancouver, ISO, and other styles

37

Vuillemin, Pierre. "Approximation de modèles dynamiques de grande dimension sur intervalles de fréquences limités." Thesis, Toulouse, ISAE, 2014. http://www.theses.fr/2014ESAE0041/document.

Full text

Abstract:

Les systèmes physiques sont représentés par des modèles mathématiques qui peuvent être utilisés pour simuler, analyser ou contrôler ces systèmes. Selon la complexité du système qu’il est censé représenter, un modèle peut être plus ou moins complexe. Une complexité trop grande peut s’avérer problématique en pratique du fait des limitations de puissance de calcul et de mémoire des ordinateurs. L’une des façons de contourner ce problème consiste à utiliser l’approximation de modèles qui vise à remplacer le modèle complexe par un modèle simplifié dont le comportement est toujours représentatif de celui du système physique.Dans le cas des modèles dynamiques Linéaires et Invariants dans le Temps (LTI), la complexité se traduit par une dimension importante du vecteur d’état et on parle alors de modèles de grande dimension. L’approximation de modèle, encore appelée réduction de modèle dans ce cas, a pour but de trouver un modèle dont le vecteur d’état est plus petit que celui du modèle de grande dimension tel que les comportements entrée-sortie des deux modèles soient proches selon une certaine norme. La norme H2 a été largement considérée dans la littérature pour mesurer la qualité d’un modèle réduit. Cependant, la bande passante limitée des capteurs et des actionneurs ainsi que le fait qu’un modèle est généralement représentatif d’un système physique dans une certaine bande fréquentielle seulement, laissent penser qu’un modèle réduit dont le comportement est fidèle au modèle de grande dimension dans un intervalle de fréquences donné,peut être plus pertinent. C’est pourquoi, dans cette étude, la norme H2 limitée en fréquence,ou norme H2, Ω, qui est simplement la restriction de la norme H2 sur un intervalle de fréquences Ω, a été considérée. En particulier, le problème qui vise à trouver un modèle réduit minimisant la norme H2, Ω de l’erreur d’approximation avec le modèle de grande dimension a été traité.Deux approches ont été proposées dans cette optique. La première est une approche empirique basée sur la modification d’une méthode sous-optimale pour l’approximation H2. En pratique, ses performances s’avèrent intéressantes et rivalisent avec certaines méthodes connues pour l’approximation de modèles sur intervalles de fréquences limités.La seconde est une méthode d’optimisation basée sur la formulation pôles-résidus de la norme H2, Ω. Cette formulation généralise naturellement celle existante pour la norme H2 et permet également d’exprimer deux bornes supérieures sur la norme H∞ d’un modèle LTI, ce qui est particulièrement intéressant dans le cadre de la réduction de modèle. Les conditions d’optimalité du premier ordre pour le problème d’approximation optimale en norme H2, Ω ont été exprimées et utilisées pour créer un algorithme de descente visant à trouver un minimum local au problème d’approximation. Couplée aux bornes sur la norme H∞ de l’erreur d’approximation,cette méthode est utilisée pour le contrôle de modèle de grande dimension.D’un point de vue plus pratique, l’ensemble des méthodes proposées dans cette étude ont été appliquées, avec succès, dans un cadre industriel comme élément d’un processus global visant à contrôler un avion civil flexible
Physical systems are represented by mathematical models in order to be simulated, analysed or controlled. Depending on the complexity of the physical system it is meant to represent and on the way it has been built, a model can be more or less complex. This complexity can become an issue in practice due to the limited computational power and memory of computers. One way to alleviate this issue consists in using model approximation which is aimed at finding a simpler model that still represents faithfully the physical system.In the case of Linear Time Invariant (LTI) dynamical models, complexity translates into a large dimension of the state vector and one talks about large-scale models. Model approximation is in this case also called model reduction and consists in finding a model with a smaller state vector such that the input-to-output behaviours of both models are close with respect to some measure. The H2-norm has been extensively used in the literature to evaluate the quality of a reduced-order model. Yet, due to the limited band width of actuators, sensors and the fact that models are generally representative on a bounded frequency interval only, a reduced-order model that faithfully reproduces the behaviour of the large-scale one over a bounded frequency interval only, may be morerelevant. That is why, in this study, the frequency-limited H2-norm, or H2,Ω-norm, which is the restriction of theH2-norm over a frequency interval, has been considered. In particular, the problem of finding a reduced-ordermodel that minimises the H2, Ω-norm of the approximation error with the large-scale model has been addressed here. For that purpose, two approaches have been developed. The first one is an empirical approach based on the modification of a sub-optimal H2 model approximation method. Its performances are interesting in practice and compete with some well-known frequency-limited approximation methods. The second one is an optimisationmethod relying on the poles-residues formulation of the H2,Ω-norm. This formulation naturally extends the oneexisting for the H2-norm and can also be used to derive two upper bounds on the H∞-norm of LTI dynamical models which is of particular interest in model reduction. The first-order optimality conditions of the optimal H2,Ω approximation problem are derived and used to built a complex-domain descent algorithm aimed at finding a local minimum of the problem. Together with the H∞ bounds on the approximation error, this approach isused to perform control of large-scale models. From a practical point of view, the methods proposed in this study have been successfully applied in an industrial context as a part of the global process aimed at controlling a flexible civilian aircraft

APA, Harvard, Vancouver, ISO, and other styles

38

Durif, Ghislain. "Multivariate analysis of high-throughput sequencing data." Thesis, Lyon, 2016. http://www.theses.fr/2016LYSE1334/document.

Full text

Abstract:

L'analyse statistique de données de séquençage à haut débit (NGS) pose des questions computationnelles concernant la modélisation et l'inférence, en particulier à cause de la grande dimension des données. Le travail de recherche dans ce manuscrit porte sur des méthodes de réductions de dimension hybrides, basées sur des approches de compression (représentation dans un espace de faible dimension) et de sélection de variables. Des développements sont menés concernant la régression "Partial Least Squares" parcimonieuse (supervisée) et les méthodes de factorisation parcimonieuse de matrices (non supervisée). Dans les deux cas, notre objectif sera la reconstruction et la visualisation des données. Nous présenterons une nouvelle approche de type PLS parcimonieuse, basée sur une pénalité adaptative, pour la régression logistique. Cette approche sera utilisée pour des problèmes de prédiction (devenir de patients ou type cellulaire) à partir de l'expression des gènes. La principale problématique sera de prendre en compte la réponse pour écarter les variables non pertinentes. Nous mettrons en avant le lien entre la construction des algorithmes et la fiabilité des résultats.Dans une seconde partie, motivés par des questions relatives à l'analyse de données "single-cell", nous proposons une approche probabiliste pour la factorisation de matrices de comptage, laquelle prend en compte la sur-dispersion et l'amplification des zéros (caractéristiques des données single-cell). Nous développerons une procédure d'estimation basée sur l'inférence variationnelle. Nous introduirons également une procédure de sélection de variables probabiliste basée sur un modèle "spike-and-slab". L'intérêt de notre méthode pour la reconstruction, la visualisation et le clustering de données sera illustré par des simulations et par des résultats préliminaires concernant une analyse de données "single-cell". Toutes les méthodes proposées sont implémentées dans deux packages R: plsgenomics et CMF
The statistical analysis of Next-Generation Sequencing data raises many computational challenges regarding modeling and inference, especially because of the high dimensionality of genomic data. The research work in this manuscript concerns hybrid dimension reduction methods that rely on both compression (representation of the data into a lower dimensional space) and variable selection. Developments are made concerning: the sparse Partial Least Squares (PLS) regression framework for supervised classification, and the sparse matrix factorization framework for unsupervised exploration. In both situations, our main purpose will be to focus on the reconstruction and visualization of the data. First, we will present a new sparse PLS approach, based on an adaptive sparsity-inducing penalty, that is suitable for logistic regression to predict the label of a discrete outcome. For instance, such a method will be used for prediction (fate of patients or specific type of unidentified single cells) based on gene expression profiles. The main issue in such framework is to account for the response to discard irrelevant variables. We will highlight the direct link between the derivation of the algorithms and the reliability of the results. Then, motivated by questions regarding single-cell data analysis, we propose a flexible model-based approach for the factorization of count matrices, that accounts for over-dispersion as well as zero-inflation (both characteristic of single-cell data), for which we derive an estimation procedure based on variational inference. In this scheme, we consider probabilistic variable selection based on a spike-and-slab model suitable for count data. The interest of our procedure for data reconstruction, visualization and clustering will be illustrated by simulation experiments and by preliminary results on single-cell data analysis. All proposed methods were implemented into two R-packages "plsgenomics" and "CMF" based on high performance computing

APA, Harvard, Vancouver, ISO, and other styles

39

Palazzo, Martin. "Dimensionality Reduction of Biomedical Tumor Profiles : a Machine Learning Approach." Thesis, Troyes, 2021. http://www.theses.fr/2021TROY0031.

Full text

Abstract:

Le rythme croissant de génération de données à partir de profils tumoraux au cours de la dernière décennie a permis le développement d'algorithmes d'apprentissage statistique pour explorer et analyser le paysage des types et sous-types de tumeurs et la survie des patients d'un point de vue biomoléculaire. Les données tumorales sont principalement décrites par des caractéristiques transcriptomiques et le niveau d'expression d'un transcrit génique donné dans la cellule tumorale. Par conséquent, ces caractéristiques peuvent être utilisées pour apprendre des règles statistiques qui améliorent la compréhension de l'état et du type d'une cellule cancéreuse. Néanmoins, les données tumorales transcriptomiques sont de grande dimension et chaque tumeur peut être décrite par des milliers de caractéristiques génétiques, ce qui rend difficile la réalisation d'une tâche d'apprentissage automatique et la compréhension des mécanismes biologiques sous-jacents. Cette thèse étudie comment réduire la dimensionnalité et gagner en interprétabilité pour savoir quels gènes codent le signal de la distribution des données en proposant des méthodes de réduction de dimension basées sur un modèle qui envisage la structure globale des données à l'aide d'un espace de représentation latente. Les méthodes proposées ont montré des améliorations dans les tâches de sélection de caractéristiques supervisées et non supervisées par rapport aux méthodes de référence pour classer et apprendre des sous-groupes de tumeurs respectivement
The increasing pace of data generation from tumor profiles profiles during the last decade has enable the development of statistical learning algorithms to explore and analyze the landscape of tumor types, subtypes and patient survival from a biomolecular point of view. Tumor data is mainly described by trasncriptomic features and the level of expression of a given gene-transcript in the tumor cell, therefore these features can be used to learn statistical rules that improves the understanding about the state and type of a cancer cell. Nevertheless transcriptomic tumor data is high dimensional and each tumor can be described by thousands of gene features making it difficult to perform a machine learning task and to understand the underlying biological mechanisms. This thesis studies how to reduce dimensionality and to gain interpretability about which genes encode signals of the data distribution by proposing dimension reduction methods based on Feature Selection and Feature Extraction pipelines. The proposed methods are based on Latent Variable Models and Kernel Methods with the idea to explore the connection between pair-wise similarity functions of tumor samples and low dimensional latent spaces that captures the inner structure of the training data. Proposed methods have shown improvements in supervised and unsupervised feature selection tasks when compared with benchmark methods to classify and learn subgroups of tumors respectively

APA, Harvard, Vancouver, ISO, and other styles

40

El, anbari Mohammed. "Regularisation and variable selection using penalized likelihood." Phd thesis, Université Paris Sud - Paris XI, 2011. http://tel.archives-ouvertes.fr/tel-00661689.

Full text

Abstract:

We are interested in variable sélection in linear régression models. This research is motivated by recent development in microarrays, proteomics, brain images, among others. We study this problem in both frequentist and bayesian viewpoints.In a frequentist framework, we propose methods to deal with the problem of variable sélection, when the number of variables is much larger than the sample size with a possibly présence of additional structure in the predictor variables, such as high corrélations or order between successive variables. The performance of the proposed methods is theoretically investigated ; we prove that, under regularity conditions, the proposed estimators possess statistical good properties, such as Sparsity Oracle Inequalities, variable sélection consistency and asymptotic normality.In a Bayesian Framework, we propose a global noninformative approach for Bayesian variable sélection. In this thesis, we pay spécial attention to two calibration-free hierarchical Zellner's g-priors. The first one is the Jeffreys prior which is not location invariant. A second one avoids this problem by only considering models with at least one variable in the model. The practical performance of the proposed methods is illustrated through numerical experiments on simulated and real world datasets, with a comparison betwenn Bayesian and frequentist approaches under a low informative constraint when the number of variables is almost equal to the number of observations.

APA, Harvard, Vancouver, ISO, and other styles

41

Heredia, Guzman Maria Belen. "Contributions to the calibration and global sensitivity analysis of snow avalanche numerical models." Thesis, Université Grenoble Alpes, 2020. http://www.theses.fr/2020GRALU028.

Full text

Abstract:

Une avalanche de neige est un danger naturel défini comme une masse de neige en mouvement rapide. Depuis les années 30, scientifiques conçoivent des modèles d'avalanche de neige pour décrire ce phénomène. Cependant, ces modèles dépendent de certains paramètres d'entrée mal connus qui ne peuvent pas être mesurés. Pour mieux comprendre les paramètres d'entrée du modèle et les sorties du modèle, les objectifs de cette thèse sont (i) de proposer un cadre pour calibrer les paramètres d'entrée et (ii) de développer des méthodes pour classer les paramètres d'entrée en fonction de leur importance dans le modèle en tenant compte la nature fonctionnelle des sorties. Dans ce cadre, nous développons des méthodes statistiques basées sur l'inférence bayésienne et les analyses de sensibilité globale. Nos développements sont illustrés sur des cas de test et des données réelles des avalanches de neige.D'abord, nous proposons une méthode d'inférence bayésienne pour récupérer la distribution des paramètres d'entrée à partir de séries chronologiques de vitesse d'avalanche ayant été collectées sur des sites de test expérimentaux. Nos résultats montrent qu'il est important d'inclure la structure d'erreur (dans notre cas l'autocorrélation) dans la modélisation statistique afin d'éviter les biais dans l'estimation des paramètres de frottement.Deuxièmement, pour identifier les paramètres d'entrée importants, nous développons deux méthodes basées sur des mesures de sensibilité basées sur la variance. Pour la première méthode, nous supposons que nous avons un échantillon de données et nous voulons estimer les mesures de sensibilité avec cet échantillon. Dans ce but, nous développons une procédure d'estimation non paramétrique basée sur l'estimateur de Nadaraya-Watson pour estimer les indices agrégés de Sobol. Pour la deuxième méthode, nous considérons le cadre où l'échantillon est obtenu à partir de règles d'acceptation/rejet correspondant à des contraintes physiques. L'ensemble des paramètres d'entrée devient dépendant du fait de l'échantillonnage d'acceptation-rejet, nous proposons donc d'estimer les effets de Shapley agrégés (extension des effets de Shapley à des sorties multivariées ou fonctionnelles). Nous proposons également un algorithme pour construire des intervalles de confiance bootstrap. Pour l'application du modèle d'avalanche de neige, nous considérons différents scénarios d'incertitude pour modéliser les paramètres d'entrée. Dans nos scénarios, la position et le volume de départ de l'avalanche sont les entrées les plus importantes.Nos contributions peuvent aider les spécialistes des avalanches à (i) prendre en compte la structure d'erreur dans la calibration du modèle et (ii) proposer un classementdes paramètres d'entrée en fonction de leur importance dans les modèles en utilisant des approches statistiques
Snow avalanche is a natural hazard defined as a snow mass in fast motion. Since the thirties, scientists have been designing snow avalanche models to describe snow avalanches. However, these models depend on some poorly known input parameters that cannot be measured. To understand better model input parameters and model outputs, the aims of this thesis are (i) to propose a framework to calibrate input parameters and (ii) to develop methods to rank input parameters according to their importance in the model taking into account the functional nature of outputs. Within these two purposes, we develop statistical methods based on Bayesian inference and global sensitivity analyses. All the developments are illustrated on test cases and real snow avalanche data.First, we propose a Bayesian inference method to retrieve input parameter distribution from avalanche velocity time series having been collected on experimental test sites. Our results show that it is important to include the error structure (in our case the autocorrelation) in the statistical modeling in order to avoid bias for the estimation of friction parameters.Second, to identify important input parameters, we develop two methods based on variance based measures. For the first method, we suppose that we have a given data sample and we want to estimate sensitivity measures with this sample. Within this purpose, we develop a nonparametric estimation procedure based on the Nadaraya-Watson kernel smoother to estimate aggregated Sobol' indices. For the second method, we consider the setting where the sample is obtained from acceptance/rejection rules corresponding to physical constraints. The set of input parameters become dependent due to the acceptance-rejection sampling, thus we propose to estimate aggregated Shapley effects (extension of Shapley effects to multivariate or functional outputs). We also propose an algorithm to construct bootstrap confidence intervals. For the snow avalanche model application, we consider different uncertainty scenarios to model the input parameters. Under our scenarios, the release avalanche position and volume are the most crucial inputs.Our contributions should help avalanche scientists to (i) account for the error structure in model calibration and (ii) rankinput parameters according to their importance in the models using statistical methods

APA, Harvard, Vancouver, ISO, and other styles

42

Lefieux, Vincent. "Modèles semi-paramétriques appliqués à la prévision des séries temporelles : cas de la consommation d’électricité." Phd thesis, Rennes 2, 2007. https://theses.hal.science/tel-00179866/fr/.

Full text

Abstract:

Une prévision correcte de la consommation d’électricité est fondamentale pour le bon fonctionnement du réseau électrique français, dont Réseau de Transport d’Electricité a la charge. Les prévisions utilisées quotidiennement par RTE sont issues d’un modèle alliant une régression paramétrique non linéaire et un modèle SARIMA. Dans l’idée d’obtenir un modèle de prévision adaptatif, des méthodes de prévision non-paramétriques ont déjà été testées sans succès véritable. On sait notamment que la qualité d’un prédicteur nonparamétrique résiste mal à un grand nombre de variables explicatives, ce qu’on appelle communément le fléau de la dimension. On a proposé récemment des méthodes semi-paramétriques d’estimation d’une régression qui améliorent l’approche non-paramétrique pure. L’une d’elles, basée sur la notion de ”directions révélatrices” appellée MAVE (Moving Average -conditional- Variance Estimation), peut s’appliquer aux séries temporelles. Nous étudions empiriquement son efficacité pour prédire les valeurs futures d’une série temporelle autorégressive. Nous adaptons ensuite cette méthode, d’un point de vue pratique, pour prédire la consommation électrique. Nous proposons un modèle semi-paramétrique semi-linéaire, basé partiellement sur la méthode MAVE, qui permet de prendre en compte simultanément l’aspect autorégressif du problème, et l’introduction de variables exogènes. La procédure d’estimation proposée se révèle efficace en pratique
Réseau de Transport d’Electricité (RTE), in charge of operating the French electric transportation grid, needs an accurate forecast of the power consumption in order to operate it correctly. The forecasts used everyday result from a model combining a nonlinear parametric regression and a SARIMA model. In order to obtain an adaptive forecasting model, nonparametric forecasting methods have already been tested without real success. In particular, it is known that a nonparametric predictor behaves badly with a great number of explanatory variables, what is commonly called the curse of dimensionality. Recently, semiparametric methods which improve the pure nonparametric approach have been proposed to estimate a regression function. Based on the concept of ”dimension reduction”, one those methods (called MAVE : Moving Average -conditional- Variance Estimate) can apply to time series. We study empirically its effectiveness to predict the future values of an autoregressive time series. We then adapt this method, from a practical point of view, to forecast power consumption. We propose a partially linear semiparametric model, based on the MAVE method, which allows to take into account simultaneously the autoregressive aspect of the problem and the exogenous variables. The proposed estimation procedure is practicaly efficient

APA, Harvard, Vancouver, ISO, and other styles

43

Romary, Thomas. "INVERSION DES MODELES STOCHASTIQUES DE MILIEUX HETEROGENES." Phd thesis, Université Pierre et Marie Curie - Paris VI, 2008. http://tel.archives-ouvertes.fr/tel-00395528.

Full text

Abstract:

La problématique du calage d'historique en ingénierie de réservoir, c'est-à-dire le calage des modèles géostatistiques aux données de production, est un problème inverse mal posé. Dans un cadre bayésien, sa résolution suppose l'inférence de la distribution de probabilité du modèle géostatistique conditionné aux données dynamiques, rendant compte à la fois de l'a priori géologique, exprimé dans le modèle géostatistique, et de l'adéquation aux données de production. Typiquement, la résolution de ce problème passe par la génération d'un ensemble de réalisations calées aux données, échantillon représentatif de cette distribution. Les modèles géostatistiques sont en général discrétisés sur des grilles de plusieurs centaines de milliers, voire des millions de blocs ; les approches classiques tentent de résoudre le problème inverse en considérant l'ensemble des blocs comme paramètres du modèle. Sa dimension est alors considérable et les méthodes d'échantillonnages deviennent impraticables sur un cas réel. Il convient alors de choisir une paramétrisation susceptible de réduire la dimension du problème. Dans la première partie de cette thèse, nous présentons une méthode de paramétrisation optimale des modèles géostatistiques basés sur les champs aléatoires gaussiens, à partir de leur décomposition de Karhunen-Loève (KL). Nous en décrivons les fondements théo- riques, puis, sur des applications aux modèles de champs aléatoires gaussiens courants en géostatistique, selon des critères d'abord statistiques puis hydrodynamiques, nous quantifions la réduction de la dimension du problème offerte par cette paramétrisation. Dans la seconde partie, nous présentons les principes des méthodes de Monte-Carlo par Chaînes de Markov (MCMC) et les défauts des méthodes classiques pour la résolution du problème inverse dans le cadre bayésien. Nous développons alors l'approche par chaînes de Markov en interaction dont nous exposons les avantages. Enfin, les résultats obtenus par l'emploi conjoint de ces deux méthodes sont présentés dans deux articles. Une approche différente, passant par l'emploi de méthodes d'analyse de sensibilité, est également décrite dans un troisième article.

APA, Harvard, Vancouver, ISO, and other styles

44

Brunet, Camille. "Sparse and discriminative clustering for complex data : application to cytology." Thesis, Evry-Val d'Essonne, 2011. http://www.theses.fr/2011EVRY0018/document.

Full text

Abstract:

Les thèmes principaux de ce mémoire sont la parcimonie et la discrimination pour la modélisation de données complexes. Dans un première partie de ce mémoire, nous nous plaçons dans un contexte de modèle de mélanges gaussiens: nous introduisons une nouvelle famille de modèles probabilistes qui simultanément classent et trouvent un espace discriminant tel que cet espace discrimine au mieux les groupes. Une famille de 12 modèles est introduite et se base sur deux idées clefs: tout d'abord, les données réelles vivent dans un sous-espace latent de dimension intrinsèque plus petite que celle de l'espace observé; deuxièmement, un sous-espace de dimensions K-1 est suffisant pour discriminer K groupes; enfin, l'espace observé et celui latent sont liés par une transformation linéaire. Une procédure d'estimation, appelée Fisher-EM, est proposée et améliore la plupart du temps les performances de clustering grâce à l'utilisation du sous-espace discriminant. Puisque chaque axe engendrant le sous-espace discriminant est une combinaison linéaire des variables d'origine, nous avons proposé trois méthodes différentes basées sur des critères pénalisés afin de faciliter l'interprétation des résultats. En particulier, ces méthodes permettent d'introduire de la parcimonie directement dans les composantes de la matrice de projection et peut se traduite comme une étape de sélection de variables discriminantes pour la classification. Dans une seconde partie, nous nous plaçons dans le contexte de la sériation. Nous proposons une mesure de dissimilarités basée sur le voisinage commun qui permet d'introduire de la parcimonie dans les données. Une procédure algorithmique appelée l'algorithme PB-Clus est introduite et permet d'obtenir une représentation diagonale par blocs des données. Cet outil permet de révéler la structure intrinsèque des données même dans le cas de données fortement bruitées ou de recouvrement de groupes. Ces deux méthodes ont été validées dans le cadre d'une application biologique basée sur la détection de cellules cancéreuses
The main topics of this manuscript are sparsity and discrimination for modeling complex data. In a first part, we focus on the GMM context: we introduce a new family of probabilistic models which both clusters and finds a discriminative subspace chosen such as it best discriminates the groups. A family of 12 DLM models is introduced and is based on two three-ideas: firstly, the actual data live in a latent subspace with an intrinsic dimension lower than the dimension of the observed space; secondly, a subspace of K-1 dimensions is theoretically sufficient to discriminate K groups; thirdly, the observation and the latent spaces are linked by a linear transformation. An estimation procedure, named Fisher-EM is proposed and improves, most of the time, clustering performances owing to the use of a discriminative subspace. As each axis, spanning the discriminative subspace, is a linear combination of all original variables, we therefore proposed 3 different methods based on a penalized criterion in order to ease the interpretation results. In particular, it allows to introduce sparsity directly in the loadings of the projection matrix which enables also to make variable selection for clustering. In a second part, we deal with the seriation context. We propose a dissimilarity measure based on a common neighborhood which allows to deal with noisy data and overlapping groups. A forward stepwise seriation algorithm, called the PB-Clus algorithm, is introduced and allows to obtain a block representation form of the data. This tool enables to reveal the intrinsic structure of data even in the case of noisy data, outliers, overlapping and non-Gaussian groups. Both methods has been validated on a biological application based on the cancer cell detection

APA, Harvard, Vancouver, ISO, and other styles

45

Portier, François. "Réduction de la dimension en régression." Phd thesis, Université Rennes 1, 2013. http://tel.archives-ouvertes.fr/tel-00871049.

Full text

Abstract:

Dans cette thèse, nous étudions le problème de réduction de la dimension dans le cadre du modèle de régression suivant Y=g(B X,e), où X est un vecteur de dimension p, Y appartient à R, la fonction g est inconnue et le bruit e est indépendant de X. Nous nous intéressons à l'estimation de la matrice B, de taille dxp où d est plus petit que p, (dont la connaissance permet d'obtenir de bonnes vitesses de convergence pour l'estimation de g). Ce problème est traité en utilisant deux approches distinctes. La première, appelée régression inverse nécessite la condition de linéarité sur X. La seconde, appelée semi-paramétrique ne requiert pas une telle condition mais seulement que X possède une densité lisse. Dans le cadre de la régression inverse, nous étudions deux familles de méthodes respectivement basées sur E[X f(Y)] et E[XX^T f(Y)]. Pour chacune de ces familles, nous obtenons les conditions sur f permettant une estimation exhaustive de B, aussi nous calculons la fonction f optimale par minimisation de la variance asymptotique. Dans le cadre de l'approche semi-paramétrique, nous proposons une méthode permettant l'estimation du gradient de la fonction de régression. Sous des hypothèses semi-paramétriques classiques, nous montrons la normalité asymptotique de notre estimateur et l'exhaustivité de l'estimation de B. Quel que soit l'approche considérée, une question fondamentale est soulevée : comment choisir la dimension de B ? Pour cela, nous proposons une méthode d'estimation du rang d'une matrice par test d'hypothèse bootstrap.

APA, Harvard, Vancouver, ISO, and other styles

46

Giacofci, Madison. "Classification non supervisée et sélection de variables dans les modèles mixtes fonctionnels. Applications à la biologie moléculaire." Phd thesis, Université de Grenoble, 2013. http://tel.archives-ouvertes.fr/tel-00987441.

Full text

Abstract:

Un nombre croissant de domaines scientifiques collectent de grandes quantités de données comportant beaucoup de mesures répétées pour chaque individu. Ce type de données peut être vu comme une extension des données longitudinales en grande dimension. Le cadre naturel pour modéliser ce type de données est alors celui des modèles mixtes fonctionnels. Nous traitons, dans une première partie, de la classification non-supervisée dans les modèles mixtes fonctionnels. Nous présentons dans ce cadre une nouvelle procédure utilisant une décomposition en ondelettes des effets fixes et des effets aléatoires. Notre approche se décompose en deux étapes : une étape de réduction de dimension basée sur les techniques de seuillage des ondelettes et une étape de classification où l'algorithme EM est utilisé pour l'estimation des paramètres par maximum de vraisemblance. Nous présentons des résultats de simulations et nous illustrons notre méthode sur des jeux de données issus de la biologie moléculaire (données omiques). Cette procédure est implémentée dans le package R "curvclust" disponible sur le site du CRAN. Dans une deuxième partie, nous nous intéressons aux questions d'estimation et de réduction de dimension au sein des modèles mixtes fonctionnels et nous développons en ce sens deux approches. La première approche se place dans un objectif d'estimation dans un contexte non-paramétrique et nous montrons dans ce cadre, que l'estimateur de l'effet fixe fonctionnel basé sur les techniques de seuillage par ondelettes possède de bonnes propriétés de convergence. Notre deuxième approche s'intéresse à la problématique de sélection des effets fixes et aléatoires et nous proposons une procédure basée sur les techniques de sélection de variables par maximum de vraisemblance pénalisée et utilisant deux pénalités SCAD sur les effets fixes et les variances des effets aléatoires. Nous montrons dans ce cadre que le critère considéré conduit à des estimateurs possédant des propriétés oraculaires dans un cadre où le nombre d'individus et la taille des signaux divergent. Une étude de simulation visant à appréhender les comportements des deux approches développées est réalisée dans ce contexte.

APA, Harvard, Vancouver, ISO, and other styles

47

Grishchenko, Dmitry. "Optimisation proximale avec réduction automatique de dimension." Thesis, Université Grenoble Alpes, 2020. http://www.theses.fr/2020GRALM055.

Full text

Abstract:

Dans cette thèse, nous proposons des algorithmes proximaux, avec réduction de dimension automatique, pour des problèmes d’optimisation avec solutions parcimonieuses. Dans un premier temps, nous proposons une méthode générale de réduction de dimension, exploitant la propriété d’identification proximale, par des projections adaptées à la structure de l’itéré courant. Dans le cas parcimonieux, cet algorithme permet de travailler dans des sous-espaces aléatoires de petites dimensions plutôt que dans l’espace entier, possiblement de très grande dimension. Dans un deuxième temps, nous nous plaçons dans un cadre d’optimisation distribuée asynchrone et utilisons la méthode précédente pour réduire la taille des communications entre machines. Nous montrons tout d’abord, que l’application directe de notre méthode de réduction dimension dans ce cadre fonctionne si le problème est bien conditionné. Pour attaquer les problèmes généraux, nous proposons ensuite un reconditionnement proximal donnant ainsi un algorithme avec garanties théorétiques de convergence et de réduction de communications. Des experiences numériques montrent un gain important pour des problèmes classiques fortement parcimonieux
In this thesis, we develop a framework to reduce the dimensionality of composite optimization problems with sparsity inducing regularizers. Based on the identification property of proximal methods, we first develop a ``sketch-and-project'' method that uses projections based on the structure of the correct point. This method allows to work with random low-dimensional subspaces instead of considering the full space in the cases when the final solution is sparse. Second, we place ourselves in the context of the delay-tolerant asynchronous proximal methods and use our dimension reduction technique to decrease the total size of communications. However, this technique is proven to converge only for well-conditioned problems both in theory in practice.Thus, we investigate wrapping it up into a proximal reconditioning framework. This leads to a theoretically backed algorithm that is guaranteed to cost less in terms of communications compared with a non-sparsified version; we show in practice that it implies faster runtime convergence when the sparsity of the problem is sufficiently big

APA, Harvard, Vancouver, ISO, and other styles

48

Prigent, Sylvain. "Apport de l'imagerie multi et hyperspectrale pour l'évaluation de la pigmentation de la peau." Phd thesis, Université de Nice Sophia-Antipolis, 2012. http://tel.archives-ouvertes.fr/tel-00764831.

Full text

Abstract:

L'objectif principal de ce travail de thèse est de développer un score mesurant la pigmentation de la peau à partir d'images spectrales. L'objectif final est de construire un outil plus objectif et au moins aussi performant que les outils cliniques, dans l'évaluation de l'effet des traitements agissant sur l'hyper-pigmentation de la peau. Cet outil a pour vocation à être utilisé dans des essais cliniques. Le travail se focalise sur le mélasma qui est une pathologie pigmentaire symétrique due principalement à des troubles hormonaux et à l'exposition au soleil. Pour évaluer la sévérité de cette pathologie et son évolution sous traitements, deux types de classification sont proposés. Le premier concerne une classification binaire entre tissu sain et tissu pathologique. Le second consiste à définir différents niveaux de sévérité pour les tissus pathologiques. La première classification s'inscrit dans le cadre de la classification dans des espaces de grande dimension. Un outil de réduction de dimension associé à un algorithme de classification par séparateurs à vaste marge a été développé. Cet outil est issu d'une comparaison des techniques de poursuite de projection et de séparation de sources, ainsi que des méthodes d'automatisation pour estimer la dimension de l'espace d'arrivée, et l'estimation des différents groupes de bandes spectrales dans le cas de la poursuite de projection. La seconde classification vise à mesurer un critère clinique de sévérité de l'hyperpigmentation. Ce critère clinique comprend trois composantes : surface, contraste et homogénéïté. La composante de surface découle de la classification entre tissus sains et tissus pathologiques. Une méthodologie d'estimation de combinaison de bandes spectrales tenant conjointement compte de la signature spectrale et de la cinétique de l'effet d'un traitement sur toute une étude clinique est proposée afin d'obtenir un critère de contraste. Pour obtenir un critère d'homogénéïté spatiale, une approche fondée sur l'analyse multi-échelles de champs gaussiens et issue de la méthodologie du "statistical parametric mapping" est employée entre deux dates d'acquisition.

APA, Harvard, Vancouver, ISO, and other styles

49

Tilquin, Florian. "Statistical models on manifolds for anomaly detection in medical images." Thesis, Strasbourg, 2019. https://publication-theses.unistra.fr/public/theses_doctorat/2019/TILQUIN_Florian_2019_ED269.pdf.

Full text

Abstract:

On considère le problème de détecter des motifs anormaux au sein d’images neurologiques. Les approches classiques de détection d’anomalie sont le plus souvent des problèmes de classification à une classe, dans lesquels on souhaite détecter les sujets aberrants par rapport à la distribution (apprise préalablement) des sujets contrôles. Ces approches donnent une appréciation globale de la classe du sujet considéré (pathologique ou non), mais ne permettent pas d’obtenir une localisation spatiale des anomalies au sein de l’image du sujet elle-même. D’un autre côté, les approches développées pour localiser des anomalies au sein des sujets recourent généralement à des tests statistiques univariés sur des régions d’intérêt faisant l’hypothèse d’une distribution gaussienne. Dans cette thèse, nous présentons et comparons différentes méthodes (nouvelles ou de l’état de l’art) pour la détection et la localisation de motifs anormaux spécifiques aux sujets, dans le contexte d’un sujet unique confronté à un groupe témoin. Les méthodes proposées s’appuient sur une modélisation globale (multivariée), non linéaire d’images témoin, qui permet une représentation de motifs spatiaux complexes par des distributions non gaussiennes. La variété des motifs d’images témoin est apprise sur un groupe contrôle à l’aide de techniques de réduction de dimension non linéaires. On associe mathématiquement la tâche consistant à identifier les anomalies avec celle cherchant à trouver une projection de notre sujet sur la variété dans laquelle les sujets contrôles reposent. La phase de détection implique d’effectuer un test statistique sur le résidu entre notre projection et l’image d’origine. Différents types de jeux de données synthétiques ont été constitués dans le but de comparer ces différentes approches. Les expériences sur les données synthétiques montrent l’intérêt d’utiliser des représentations multivariées par rapport aux approches univariées standard. Les conclusions à propos de la comparaison entre méthodes univariées et multivariées diffèrent selon le jeu de données utilisé. Toutes les méthodes sont appliquées à la détection de motifs anormaux chez des sujets atteints de la maladie d’Alzheimer
We consider the detection of abnormal patterns in neuroimaging data, in the context of comparing a single subject to a normal control group. Standard approaches for anomaly detection are related to the one-class classification problem, in which one tries to detect outliers (corresponding here to “abnormal” subjects) with respect to a learned distribution of normal controls. These approaches will make a global statement about the subject class (i.e. pathological or not) but do not provide a spatial localization of abnormal patterns within the subject’s image data. On the other hand, the approaches developed for localizing subject-specific abnormalities generally resort to univariate voxel-wise or ROI-based statistical tests and rely on Gaussian distribution assumption. In this thesis we present and compare different standard and novel methods for the detection and localization of subject-specific abnormal patterns within the framework of subject-versus group comparison. The proposed methods rely on a global (multivariate) non-linear modelisation of normal images data, which enable the representation of complex spatial patterns with non Gaussian distributions. The manifold of normal image patterns is learned from a control group with the help of non-linear dimension reduction techniques. Identifying abnormalities is mathematically associated with finding the projection of a subject over the manifold in which the control group lies. The detection itself involves a statistical test of the residual between the projection and the original image. Different types of synthetic datasets have been created in the purpose of comparing the different approaches. Experiments on synthetic data underline the benefit of using multivariate representations, compared to standard univariate approaches. Conclusions regarding the comparisons of linear and non linear multivariate approaches can broadly differ depending on the kind of dataset being analysed. All methods are also illustrated on the detection of abnormal spatial patterns in neuroimage data of dementia afflicted patients

APA, Harvard, Vancouver, ISO, and other styles

50

Guérif, Sébastien. "Réduction de dimension en apprentissage numérique non supervisé." Paris 13, 2006. http://www.theses.fr/2006PA132032.

Full text

Abstract:

La classification automatique - clustering - est une étape importante du processus d'extraction de connaissances à partir de données (ECD). Elle vise à découvrir la structure intrinsèque d'un ensemble d'objets en formant des regroupements - clusters - qui partagent des caractéristiques similaires. La complexité de cette tache s'est fortement accrue ces deux dernières décennies lorsque les masses de données disponibles ont vu leur volume exploser. En effet, le nombre d'objets présents dans les bases de données a fortement augmente mais également la taille de leur description. L'augmentation de la dimension des données a des conséquences non négligeables sur les traitements classiquement mis en œuvre: outre l'augmentation naturelle des temps de traitements, les approches classiques s'avèrent parfois inadaptées en présence de bruit ou de redondance. Dans cette thèse, nous nous intéressons à la réduction de dimension dans le cadre de la classification non supervisée. Différentes approches de sélection ou de pondération de variables sont proposées pour traiter les problèmes lies a la présence d'attributs redondants ou d'attributs fortement bruites : Nous proposons d'abord l'algorithme p-SOM qui limite l‘effet de la présence d'attributs redondants en calculant une pondération des attributs à partir d'une classification simultanée des objets et des attributs. Nous présentons ensuite une approche intégrée - embedded - de sélection de variables pour la classification automatique qui permet de découvrir à la fois le nombre de groupes d' objets présents dans les données mais aussi un sous-ensemble d'attributs pertinents. Nous terminons en présentant l'algorithme wβ -SOM qui introduit une pondération des attributs dans la fonction de coût des cartes auto-organisatrices - Self Organizing Maps - qui est ensuite optimisée itérativement en altérant trois étapes : optimisation des affectations, optimisation des prototypes et optimisation des poids. La pondération obtenue après convergence est ensuite utilisée pour proposer une approche filtre - Filter - de selection de variables. Nous concluons cette these en indiquant les limites des approches proposées et envisageant quelques axes à développer lors de la poursuite ces recherches.

APA, Harvard, Vancouver, ISO, and other styles

We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!