Dissertations / Theses on the topic 'Analyse exploratoire de données multivariées'

To see the other types of publications on this topic, follow the link: Analyse exploratoire de données multivariées.

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 36 dissertations / theses for your research on the topic 'Analyse exploratoire de données multivariées.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Verbanck, Marie. "Analyse exploratoire de données transcriptomiques : de leur visualisation à l'intégration d’information extérieure." Rennes, Agrocampus Ouest, 2013. http://www.theses.fr/2013NSARG011.

Full text
Abstract:
Nous proposons de nouvelles méthodologies statistiques exploratoires dédiées au traitement des données transcriptomiques (puce à ADN). Les données transcriptomiques offrent une image du transcriptome qui lui-même est le résultat des phénomènes d'activation ou d'inhibition de l'expression des gènes. Cependant, cette image du transcriptome est bruitée. C'est pourquoi, nous abordons premièrement la problématique de débruitage des données transcriptomiques. Ainsi, nous proposons une version régularisée de l'analyse en composantes principales. Cette version régularisée permet de mieux reconstituer et visualiser le signal sous-jacent de données bruitées. Par ailleurs, nous pouvons nous demander si la connaissance du seul transcriptome est suffisante pour démêler la complexité des relations entre gènes. Nous proposons donc d'intégrer d'autres sources d'information sur les gènes, de façon active, dans l'analyse des données transcriptomiques. Deux grands mécanismes semblent intervenir dans la régulation de l'expression, les protéines régulatrices et les réseaux de régulation d'une part, la localisation chromosomique et l'architecture du génome d'autre part. Premièrement, nous nous focalisons sur la régulation par l'intermédiaire de protéines régulatrices ; nous proposons un algorithme de classification des gènes basé sur l'intégration de connaissances fonctionnelles sur les gènes, fournies par les annotations Gene Ontology. Cet algorithme fournit des clusters de gènes similaires du point de vue de l'expression et des annotations fonctionnelles et qui sont ainsi de meilleurs candidats à l'interprétation. Enfin, nous proposons de relier l'étude des données transcriptomiques à la localisation chromosomique au sein d'une méthodologie développée en collaboration avec des généticiens
We propose new methodologies of exploratory statistics which are dedicated to the analysis of transcriptomic data (DNA microarray data). Transcriptomic data provide an image of the transcriptome which itself is the result of phenomena of activation or inhibition of gene expression. However, the image of the transcriptome is noisy. That is why, firstly we focus on the issue of transcriptomic data denoising, in a visualisation framework. To do so, we propose a regularised version of principal component analysis. This regularised version allows to better estimate and visualise the underlying signal of noisy data. In addition, we can wonder if the knowledge of only the transcriptome is enough to understand the complexity of relationships between genes. That is why we propose to integrate other sources of information about genes, and in an active way, in the analysis of transcriptomic data. Two major mechanisms seem to be involved in the regulation of gene expression, regulatory proteins (for instance transcription factors) and regulatory networks on the one hand, chromosomal localisation and genome architecture on the other hand. Firstly, we focus on the regulation of gene expression by regulatory proteins; we propose a gene clustering algorithm based on the integration of functional knowledge about genes, which is provided by Gene Ontology annotations. This algorithm provides clusters constituted by genes which have both similar expression profiles and similar functional annotations. The clusters thus constituted are then better candidates for interpretation. Secondly, we propose to link the study of transcriptomic data to chromosomal localisation in a methodology developed in collaboration with geneticists
APA, Harvard, Vancouver, ISO, and other styles
2

Béranger, Boris. "Modélisation de la structure de dépendance d'extrêmes multivariés et spatiaux." Thesis, Paris 6, 2016. http://www.theses.fr/2016PA066004/document.

Full text
Abstract:
La prédiction de futurs évènements extrêmes est d’un grand intérêt dans de nombreux domaines tels que l’environnement ou la gestion des risques. Alors que la théorie des valeurs extrêmes univariées est bien connue, la complexité s’accroît lorsque l’on s’intéresse au comportement joint d’extrêmes de plusieurs variables. Un intérêt particulier est porté aux évènements de nature spatiale, définissant le cadre d’un nombre infini de dimensions. Sous l’hypothèse que ces évènements soient marginalement extrêmes, nous focalisons sur la structure de dépendance qui les lie. Dans un premier temps, nous faisons une revue des modèles paramétriques de dépendance dans le cadre multivarié et présentons différentes méthodes d’estimation. Les processus maxstables permettent l’extension au contexte spatial. Nous dérivons la loi en dimension finie du célèbre modèle de Brown- Resnick, permettant de faire de l’inférence par des méthodes de vraisemblance ou de vraisemblance composée. Nous utilisons ensuite des lois asymétriques afin de définir la représentation spectrale d’un modèle plus large : le modèle Extremal Skew-t, généralisant la plupart des modèles présents dans la littérature. Ce modèle a l’agréable propriété d’être asymétrique et non-stationnaire, deux notions présentées par les évènements environnementaux spatiaux. Ce dernier permet un large spectre de structures de dépendance. Les indicateurs de dépendance sont obtenus en utilisant la loi en dimension finie.Enfin, nous présentons une méthode d’estimation non-paramétrique par noyau pour les queues de distributions et l’appliquons à la sélection de modèles. Nous illustrons notre méthode à partir de l’exemple de modèles climatiques
Projection of future extreme events is a major issue in a large number of areas including the environment and risk management. Although univariate extreme value theory is well understood, there is an increase in complexity when trying to understand the joint extreme behavior between two or more variables. Particular interest is given to events that are spatial by nature and which define the context of infinite dimensions. Under the assumption that events correspond marginally to univariate extremes, the main focus is then on the dependence structure that links them. First, we provide a review of parametric dependence models in the multivariate framework and illustrate different estimation strategies. The spatial extension of multivariate extremes is introduced through max-stable processes. We derive the finite-dimensional distribution of the widely used Brown-Resnick model which permits inference via full and composite likelihood methods. We then use Skew-symmetric distributions to develop a spectral representation of a wider max-stable model: the extremal Skew-t model from which most models available in the literature can be recovered. This model has the nice advantages of exhibiting skewness and nonstationarity, two properties often held by environmental spatial events. The latter enables a larger spectrum of dependence structures. Indicators of extremal dependence can be calculated using its finite-dimensional distribution. Finally, we introduce a kernel based non-parametric estimation procedure for univariate and multivariate tail density and apply it for model selection. Our method is illustrated by the example of selection of physical climate models
APA, Harvard, Vancouver, ISO, and other styles
3

Lazar, Cosmin. "Méthodes non supervisées pour l’analyse des données multivariées." Reims, 2008. http://theses.univ-reims.fr/exl-doc/GED00000846.pdf.

Full text
Abstract:
Tous les domaines de la science nécessitent d’analyser des données qu’il s’agisse des sciences humaines ou des sciences exactes et naturelles. Ces données peuvent être de nature différente et dans des nombreuses situations elles représentent plusieurs enregistrements du même phénomène physique, elles sont regroupées dans des bases des données multivariées que l’on cherche à interpréter. Leur interprétation requiert la connaissance du domaine d’application qui sert de guide afin d’extraire l’information utile pour la compréhension des phénomènes étudiés. Une étape essentielle dans ce processus est le regroupement des données ayant des caractéristiques similaires dans des classes ; cette étape est appelée classification non supervisée (ou automatique) ou clustering. Concernant ce domaine d’analyse, des questions restent ouvertes comme la dimension intrinsèque et la réduction de dimension des données multivariées, le choix de la mesure de similarité ou la validation du nombre de classes. Ce travail apporte des contributions aux deux questions précédentes : le choix de la mesure de similarité pour la classification non supervisée et la réduction de dimension de données multivariées. Le phénomène de concentration des métriques est étudié et la pertinence de métriques non euclidiennes comme mesure de similarité dans de problèmes de classification est testée. Des indices prenant en compte la distance interclasse sont proposés pour choisir la métrique optimale si les classes sont gaussiennes. Les méthodes de séparation aveugle de sources sont étudiées dans le contexte de la réduction de dimension ; une méthode de SAS basée sur une interprétation géométrique du modèle de mélange linéaire est proposée. Des méthodes de SAS prenant en compte les contraintes des applications sont utilisées pour la réduction de dimension dans deux applications en imagerie multivariée. Celles-ci permettent la mise en évidence de facteurs physiquement interprétables ainsi que la réduction de la complexité des algorithmes de classification utilisés pour l’analyse. Les travaux sont illustrés sur deux applications sur des données réelles
Many scientific disciplines deal with multivariate data. Different recordings of the same phenomenon are usually embedded in a multivariate data set. Multivariate data analysis gathers efficient tools for extracting relevant information in order to comprehend the phenomenon in study. Gathering data into groups or classes according to some similarity criteria is an essential step in the analysis. Intrinsic dimension or dimension reduction of multivariate data, the choice of the similarity criterion, cluster validation are problems which still let open questions. This work tries to make a step further concerning two of the problems mentioned above: the choice of the similarity measure for data clustering and the dimension reduction of multivariate data. The choice of the similarity measure for data clustering is investigated from the concentration phenomenon of metrics point of view. Non Euclidean metrics are tested as alternative to the classical Euclidian distance as similarity measure. We tested if less concentrated metrics are more discriminative for multivariate data clustering. We also proposed indices which take into account the inter-classes distance (e. G. Davies-Bouldin index) in order to find the optimal metric when the classes are supposed to be Gaussian. Blind Source Separation (BSS) methods are also investigated for dimension reduction of multivariate data. A BSS method based on a geometrical interpretation of the linear mixing model is proposed. BSS methods which take into account application constraints are used for dimension reduction in two different applications of multivariate imaging. These methods allow the extraction of meaningful factors from the whole data set; they also allow reducing the complexity and the computing time of the clustering algorithms which are used further in analysis. Applications on multivariate image analysis are also presented
APA, Harvard, Vancouver, ISO, and other styles
4

Mnassri, Baligh. "Analyse de données multivariées et surveillance des processus industriels par analyse en composantes principales." Phd thesis, Aix-Marseille Université, 2012. http://tel.archives-ouvertes.fr/tel-00749282.

Full text
Abstract:
Ce mémoire de thèse présente une étude fondamentale enrichie par des contributions qui sont articulées autour de la modélisation de processus ainsi qu'un diagnostic de défauts en utilisant l'analyse en composantes principales (ACP).
Dans l'objectif d'un choix optimal du modèle ACP, une étude comparative de quelques critères connus dans la littérature nous a permis de conclure que le problème rencontré est souvent lié à une ignorance des variables indépendantes et quasi-indépendantes. Dans ce cadre, nous avons réalisé deux démonstrations mettant en évidence les limitations de deux critères en particulier la variance non reconstruite (VNR). En s'appuyant sur le principe d'une telle variance, nous avons proposé trois nouveaux critères. Parmi eux, deux ont été considérés comme étant empiriques car seule l'expérience permettra de prouver leur efficacité. Le troisième critère noté VNRVI représente un remède à la limitation du critère VNR. Une étude de sa consistance théorique a permis d'établir les conditions garantissant l'optimalité de son choix. Les résultats de simulation ont validé une telle théorie en prouvant ainsi que le critère VNRVI étant plus efficace que ceux étudiés dans cette thèse.
Dans le cadre d'un diagnostic de défauts par ACP, l'approche de reconstruction des indices de détection ainsi que celle des contributions ont été utilisées. A travers une étude de généralisation, nous avons étendu le concept d'isolabilité de défauts par reconstruction à tout indice quadratique. Une telle généralisation nous a permis d'élaborer une analyse théorique d'isolabilité de défauts par reconstruction de la distance combinée versus celles des indices SPE et T2 de Hotelling en mettant en avant l'avantage de l'utilisation d'une telle distance. D'autre part, nous avons proposé une nouvelle méthode de contribution par décomposition partielle de l'indice SPE. Cette approche garantit un diagnostic correct de défauts simples ayant de grandes amplitudes. Nous avons également étendu une méthode de contribution classiquement connue par la RBC au cas multidimensionnel. Ainsi, la nouvelle forme garantit un diagnostic correct de défauts multiples de grandes amplitudes. En considérant la complexité de défauts, nous avons exploité la nouvelle approche de contribution RBC afin de proposer une nouvelle qui s'appelle RBCr. Cette dernière s'appuie sur un seuil de tolérance pour l'isolation de défauts. Une analyse de diagnosticabilité basée sur la RBCr montre que celle-ci garantit l'identification des défauts détectables. Ces derniers sont garantis isolables si leurs amplitudes satisfont les mêmes conditions d'isolabilité établies pour l'approche de reconstruction des indices.
APA, Harvard, Vancouver, ISO, and other styles
5

Pialot, Daniel Paul Marc. "Analyse des données de milieu en hydrobiologie : apport des techniques d'analyse multivariées." Lyon 1, 1985. http://www.theses.fr/1985LYO11680.

Full text
APA, Harvard, Vancouver, ISO, and other styles
6

Le, Floch Edith. "Méthodes multivariées pour l'analyse jointe de données de neuroimagerie et de génétique." Phd thesis, Université Paris Sud - Paris XI, 2012. http://tel.archives-ouvertes.fr/tel-00753829.

Full text
Abstract:
L'imagerie cérébrale connaît un intérêt grandissant, en tant que phénotype intermédiaire, dans la compréhension du chemin complexe qui relie les gènes à un phénotype comportemental ou clinique. Dans ce contexte, un premier objectif est de proposer des méthodes capables d'identifier la part de variabilité génétique qui explique une certaine part de la variabilité observée en neuroimagerie. Les approches univariées classiques ignorent les effets conjoints qui peuvent exister entre plusieurs gènes ou les covariations potentielles entre régions cérébrales.Notre première contribution a été de chercher à améliorer la sensibilité de l'approche univariée en tirant avantage de la nature multivariée des données génétiques, au niveau local. En effet, nous adaptons l'inférence au niveau du cluster en neuroimagerie à des données de polymorphismes d'un seul nucléotide (SNP), en cherchant des clusters 1D de SNPs adjacents associés à un même phénotype d'imagerie. Ensuite, nous prolongeons cette idée et combinons les clusters de voxels avec les clusters de SNPs, en utilisant un test simple au niveau du "cluster 4D", qui détecte conjointement des régions cérébrale et génomique fortement associées. Nous obtenons des résultats préliminaires prometteurs, tant sur données simulées que sur données réelles.Notre deuxième contribution a été d'utiliser des méthodes multivariées exploratoires pour améliorer la puissance de détection des études d'imagerie génétique, en modélisant la nature multivariée potentielle des associations, à plus longue échelle, tant du point de vue de l'imagerie que de la génétique. La régression Partial Least Squares et l'analyse canonique ont été récemment proposées pour l'analyse de données génétiques et transcriptomiques. Nous proposons ici de transposer cette idée à l'analyse de données de génétique et d'imagerie. De plus, nous étudions différentes stratégies de régularisation et de réduction de dimension, combinées avec la PLS ou l'analyse canonique, afin de faire face au phénomène de sur-apprentissage dû aux très grandes dimensions des données. Nous proposons une étude comparative de ces différentes stratégies, sur des données simulées et des données réelles d'IRM fonctionnelle et de SNPs. Le filtrage univarié semble nécessaire. Cependant, c'est la combinaison du filtrage univarié et de la PLS régularisée L1 qui permet de détecter une association généralisable et significative sur les données réelles, ce qui suggère que la découverte d'associations en imagerie génétique nécessite une approche multivariée.
APA, Harvard, Vancouver, ISO, and other styles
7

Le, floch Edith. "Méthodes multivariées pour l'analyse jointe de données de neuroimagerie et de génétique." Thesis, Paris 11, 2012. http://www.theses.fr/2012PA112214/document.

Full text
Abstract:
L'imagerie cérébrale connaît un intérêt grandissant, en tant que phénotype intermédiaire, dans la compréhension du chemin complexe qui relie les gènes à un phénotype comportemental ou clinique. Dans ce contexte, un premier objectif est de proposer des méthodes capables d'identifier la part de variabilité génétique qui explique une certaine part de la variabilité observée en neuroimagerie. Les approches univariées classiques ignorent les effets conjoints qui peuvent exister entre plusieurs gènes ou les covariations potentielles entre régions cérébrales.Notre première contribution a été de chercher à améliorer la sensibilité de l'approche univariée en tirant avantage de la nature multivariée des données génétiques, au niveau local. En effet, nous adaptons l'inférence au niveau du cluster en neuroimagerie à des données de polymorphismes d'un seul nucléotide (SNP), en cherchant des clusters 1D de SNPs adjacents associés à un même phénotype d'imagerie. Ensuite, nous prolongeons cette idée et combinons les clusters de voxels avec les clusters de SNPs, en utilisant un test simple au niveau du "cluster 4D", qui détecte conjointement des régions cérébrale et génomique fortement associées. Nous obtenons des résultats préliminaires prometteurs, tant sur données simulées que sur données réelles.Notre deuxième contribution a été d'utiliser des méthodes multivariées exploratoires pour améliorer la puissance de détection des études d'imagerie génétique, en modélisant la nature multivariée potentielle des associations, à plus longue échelle, tant du point de vue de l'imagerie que de la génétique. La régression Partial Least Squares et l'analyse canonique ont été récemment proposées pour l'analyse de données génétiques et transcriptomiques. Nous proposons ici de transposer cette idée à l'analyse de données de génétique et d'imagerie. De plus, nous étudions différentes stratégies de régularisation et de réduction de dimension, combinées avec la PLS ou l'analyse canonique, afin de faire face au phénomène de sur-apprentissage dû aux très grandes dimensions des données. Nous proposons une étude comparative de ces différentes stratégies, sur des données simulées et des données réelles d'IRM fonctionnelle et de SNPs. Le filtrage univarié semble nécessaire. Cependant, c'est la combinaison du filtrage univarié et de la PLS régularisée L1 qui permet de détecter une association généralisable et significative sur les données réelles, ce qui suggère que la découverte d'associations en imagerie génétique nécessite une approche multivariée
Brain imaging is increasingly recognised as an interesting intermediate phenotype to understand the complex path between genetics and behavioural or clinical phenotypes. In this context, a first goal is to propose methods to identify the part of genetic variability that explains some neuroimaging variability. Classical univariate approaches often ignore the potential joint effects that may exist between genes or the potential covariations between brain regions. Our first contribution is to improve the sensitivity of the univariate approach by taking advantage of the multivariate nature of the genetic data in a local way. Indeed, we adapt cluster-inference techniques from neuroimaging to Single Nucleotide Polymorphism (SNP) data, by looking for 1D clusters of adjacent SNPs associated with the same imaging phenotype. Then, we push further the concept of clusters and we combined voxel clusters and SNP clusters, by using a simple 4D cluster test that detects conjointly brain and genome regions with high associations. We obtain promising preliminary results on both simulated and real datasets .Our second contribution is to investigate exploratory multivariate methods to increase the detection power of imaging genetics studies, by accounting for the potential multivariate nature of the associations, at a longer range, on both the imaging and the genetics sides. Recently, Partial Least Squares (PLS) regression or Canonical Correlation Analysis (CCA) have been proposed to analyse genetic and transcriptomic data. Here, we propose to transpose this idea to the genetics vs. imaging context. Moreover, we investigate the use of different strategies of regularisation and dimension reduction techniques combined with PLS or CCA, to face the overfitting issues due to the very high dimensionality of the data. We propose a comparison study of the different strategies on both a simulated dataset and a real fMRI and SNP dataset. Univariate selection appears to be necessary to reduce the dimensionality. However, the generalisable and significant association uncovered on the real dataset by the two-step approach combining univariate filtering and L1-regularised PLS suggests that discovering meaningful imaging genetics associations calls for a multivariate approach
APA, Harvard, Vancouver, ISO, and other styles
8

Rigouste, Loïs. "Méthodes probabilistes pour l'analyse exploratoire de données textuelles." Phd thesis, Télécom ParisTech, 2006. http://pastel.archives-ouvertes.fr/pastel-00002424.

Full text
Abstract:
Nous abordons le problème de la classification non supervisée de documents par des méthodes probabilistes. Notre étude se concentre sur le modèle de mélange de lois multinomiales avec variables latentes thématiques au niveau des documents. La construction de groupes de documents thématiquement homogènes est une des technologies de base de la fouille de texte, et trouve de multiples applications, aussi bien en recherche documentaire qu'en catégorisation de documents, ou encore pour le suivi de thèmes et la construction de résumés. Diverses propositions récentes ont été faites de modèles probabilistes permettant de déterminer de tels regroupements. Les modèles de classification probabilistes peuvent également être vus comme des outils de construction de représentations numériques synthétiques d'informations contenues dans le document. Ces modèles, qui offrent des facilités pour la généralisation et l'interprétation des résultats, posent toutefois des problèmes d'estimation difficiles, dûs en particulier à la très grande dimensionnalité du vocabulaire. Notre contribution à cette famille de travaux est double: nous présentons d'une part plusieurs algorithmes d'inférence, certains originaux, pour l'estimation du modèle de mélange de multinomiales; nous présentons également une étude systématique des performances de ces algorithmes, fournissant ainsi de nouveaux outils méthodologiques pour mesurer les performances des outils de classification non supervisée. Les bons résultats obtenus par rapport à d'autres algorithmes classiques illustrent, à notre avis, la pertinence de ce modèle de mélange simple pour les corpus regroupant essentiellement des documents monothématiques.
APA, Harvard, Vancouver, ISO, and other styles
9

Bry, Xavier. "Une méthodologie exploratoire pour l'analyse et la synthèse d'un modèle explicatif : l'Analyse en Composantes Thématiques." Paris 9, 2004. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=2004PA090055.

Full text
APA, Harvard, Vancouver, ISO, and other styles
10

Ghalamallah, Ilhème. "Proposition d'un modèle d'analyse exploratoire multidimensionnelle dans un contexte d'intelligence économique." Toulouse 3, 2009. http://www.theses.fr/2009TOU30293.

Full text
Abstract:
La réussite d'une entreprise est souvent conditionnée par sa capacité à identifier, collecter, traiter et diffuser de l'information à des fins stratégiques. Par ailleurs, les technologies de l'information et de la connaissance apportent des contraintes auxquelles les entreprises doivent s'adapter : un flot continu, une circulation beaucoup plus rapide, des techniques toujours plus complexes. Le risque est d'être submergé par cette information et de ne plus pouvoir distinguer l'essentiel du négligeable. En effet, avec l'avènement de la nouvelle économie dominée par le marché, la problématique industrielle et commerciale de l'entreprise est devenue très complexe. Désormais, pour être compétitive, l'entreprise doit savoir gérer son capital immatériel. L'intelligence économique (IE) est une réponse aux bouleversements de l'environnement global des entreprises et plus largement de toute organisation. Dans une économie où tout se complexifie et bouge rapidement, la gestion stratégique de l'information est devenue l'un des moteurs essentiels de la performance globale des entreprises. L'IE est une démarche et un processus organisationnel qui permet d'être plus compétitif, par la surveillance de son environnement et de sa dynamique. Dans ce contexte, nous avons constaté qu'une grande part de l'information à portée stratégique vient du relationnel : liens entre acteurs du domaine, réseaux sémantiques, alliances, fusions, acquisitions, collaborations, cooccurrences de tous ordres. Nos travaux consistent à proposer un modèle d'analyse multidimensionnelle dédiée à l'IE. Cette approche repose sur l'extraction de connaissances par l'analyse de l'évolution des données relationnelles. Nous proposons un modèle permettant de mieux comprendre l'activité des acteurs d'un domaine donné, leurs interactions mais aussi leur évolution et leur stratégie, ceci dans une perspective décisionnelle. Cette démarche repose sur la conception d'un système d'information générique d'analyse en ligne permettant d'homogénéiser et d'organiser les données textuelles sous forme relationnelle et, de là, en extraire des connaissances implicites dont le contenu et la mise en forme sont adaptés à des décideurs non spécialistes du domaine de l'extraction des connaissances
A successful business is often conditioned by its ability to identify, collect, process and disseminate information for strategic purposes. Moreover, information technology and knowledge provide constraints that companies must adapt : a continuous stream, a circulation much faster techniques increasingly complex. The risk of being swamped by this information and no longer able to distinguish the essential from the trivial. Indeed, with the advent of new economy dominated by the market, the problem of industrial and commercial enterprise is become very complex. Now, to be competitive, the company must know how to manage their intangible capital. Competitive Intelligence (CI) is a response to the upheavals of the overall business environment and more broadly to any organization. In an economy where everything moves faster and more complex, management Strategic Information has become a key driver of overall business performance. CI is a process and an organizational process that can be more competitive, by monitoring its environment and its dynamics. In this context, we found that much information has strategic significance to the relationship: links between actors in the field, semantic networks, alliances, mergers, acquisitions, collaborations, co-occurrences of all kinds. Our work consists in proposing a model of multivariate analysis dedicated to the IE. This approach is based on the extraction of knowledge by analyzing the evolution of relational databases. We offer a model for understanding the activity of actors in a given field, but also their interactions their development and strategy, this decision in perspective. This approach is based on the designing a system of generic information online analysis to homogenize and organize text data in relational form, and thence to extract implicit knowledge of the content and formatting are adapted to non-specialist decision makers in the field of knowledge extraction
APA, Harvard, Vancouver, ISO, and other styles
11

Perrot-Dockès, Marie. "Méthodes régularisées pour l’analyse de données multivariées en grande dimension : théorie et applications." Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLS304/document.

Full text
Abstract:
Dans cette thèse nous nous intéressons au modèle linéaire général (modèle linéaire multivarié) en grande dimension. Nous proposons un nouvel estimateur parcimonieux des coefficients de ce modèle qui prend en compte la dépendance qui peut exister entre les différentes réponses. Cet estimateur est obtenu en estimant dans un premier temps la matrice de covariance des réponses puis en incluant cette matrice de covariance dans un critère Lasso. Les propriétés théoriques de cet estimateur sont étudiées lorsque le nombre de réponses peut tendre vers l’infini plus vite que la taille de l’échantillon. Plus précisément, nous proposons des conditions générales que doivent satisfaire les estimateurs de la matrice de covariance et de son inverse pour obtenir la consistance en signe des coefficients. Nous avons ensuite mis en place des méthodes, adaptées à la grande dimension, pour l’estimation de matrices de covariance qui sont supposées être des matrices de Toeplitz ou des matrices avec une structure par blocs, pas nécessairement diagonaux. Ces différentes méthodes ont enfin été appliquées à des problématiques de métabolomique, de protéomique et d’immunologie
In this PhD thesis we study general linear model (multivariate linearmodel) in high dimensional settings. We propose a novel variable selection approach in the framework of multivariate linear models taking into account the dependence that may exist between the responses. It consists in estimating beforehand the covariance matrix of the responses and to plug this estimator in a Lasso criterion, in order to obtain a sparse estimator of the coefficient matrix. The properties of our approach are investigated both from a theoretical and a numerical point of view. More precisely, we give general conditions that the estimators of the covariance matrix and its inverse have to satisfy in order to recover the positions of the zero and non-zero entries of the coefficient matrix when the number of responses is not fixed and can tend to infinity. We also propose novel, efficient and fully data-driven approaches for estimating Toeplitz and large block structured sparse covariance matrices in the case where the number of variables is much larger than the number of samples without limiting ourselves to block diagonal matrices. These approaches are appliedto different biological issues in metabolomics, in proteomics and in immunology
APA, Harvard, Vancouver, ISO, and other styles
12

Guigourès, Romain. "Utilisation des modèles de co-clustering pour l'analyse exploratoire des données." Phd thesis, Université Panthéon-Sorbonne - Paris I, 2013. http://tel.archives-ouvertes.fr/tel-00935278.

Full text
Abstract:
Le co-clustering est une technique de classification consistant à réaliser une partition simultanée des lignes et des colonnes d'une matrice de données. Parmi les approches existantes, MODL permet de traiter des données volumineuses et de réaliser une partition de plusieurs variables, continues ou nominales. Nous utilisons cette approche comme référence dans l'ensemble des travaux de la thèse et montrons la diversité des problèmes de data mining pouvant être traités, comme le partitionnement de graphes, de graphes temporels ou encore le clustering de courbes. L'approche MODL permet d'obtenir des résultats fins sur des données volumineuses, ce qui les rend difficilement interprétables. Des outils d'analyse exploratoire sont alors nécessaires pour les exploiter. Afin de guider l'utilisateur dans l'interprétation de tels résultats, nous définissons plusieurs outils consistant à simplifier des résultats fins afin d'en avoir une interprétation globale, à détecter les clusters remarquables, à déterminer les valeurs représentatives de leurs clusters et enfin à visualiser les résultats. Les comportements asymptotiques de ces outils d'analyse exploratoire sont étudiés afin de faire le lien avec les approches existantes. Enfin une application sur des comptes-rendus d'appels de l'opérateur Orange, collectés en Côte d'Ivoire, montre l'intérêt de l'approche et des outils d'analyse exploratoire dans un contexte industriel.
APA, Harvard, Vancouver, ISO, and other styles
13

Pagliarecci, Nico. "On the understanding of the vehicle-driver interaction using the objectification of subjective assessment : application to the tire development process." Thesis, Mulhouse, 2020. http://www.theses.fr/2020MULH4104.

Full text
Abstract:
Le pneu est fortement impliqué dans les performances d'un véhicule. La consommation de carburant du véhicule (résistance au roulement, aérodynamisme), le bruit, le confort, la tenue de route et la sécurité sont liés au pneumatique choisi. En utilisant des mesures objectives, il est possible de prédire certaines de ces caractéristiques, mais pour d'autres comme la manipulation, nous ne pouvons pas vraiment prédire l'évaluation subjective faite par des pilotes d'essai expérimentés. La méthodologie essai/erreur est parfois appliquée pour identifier le potentiel des pneus et évaluer les performances des pneus en fonction de conceptions et de caractéristiques mécaniques spécifiques.Aujourd'hui, dans l'industrie automobile, l'évaluation des performances de conduite des véhicules et des pneus est encore largement réalisée sur une base subjective par des conducteurs d'essai expérimentés. Ceci est justifié par le fait que la perception par les clients des performances du véhicule est également subjective et qu'aucune relation fiable n'a été trouvée pour relier les mesures objectives des performances à la perception humaine des performances.Une revue de littérature approfondie sur l'objectivation de l'évaluation subjective, l'interaction véhicule-conducteur, la simulation de la dynamique du véhicule et l'analyse de données multivariée exploratoire ainsi que les tests d'hypothèses statistiques est la première étape de la recherche visant à étudier les méthodologies, l'analyse des données et les outils statistiques. utilisé par d'autres chercheurs.Sur la base de la revue de la littérature, la thèse propose une méthodologie qui permet de traduire des évaluations subjectives en métriques objectives (environnement véhicule ainsi qu'environnement véhicule-pneu) permettant la prédiction du résultat d'un test subjectif en utilisant des mesures objectives conduisant à une réduction de les itérations au cours du processus de développement du pneu. Le choix de la complexité du modèle de dynamique du véhicule le plus pertinent décrit les principales caractéristiques mécaniques du pneu affectant les performances de tenue de route et leur effet sur les métriques objectives d'intérêt.Des manœuvres expérimentales spécifiques de la dynamique du véhicule ont été sélectionnées pour cette étude dans le but de dévoiler la complexité de l'évaluation subjective de la maniabilité sans être simpliste et en prêtant attention à l'interconnexion des différentes variables et à leur interaction avec les facteurs contextuels.Dans le cadre de l'étude de corrélation mentionnée ci-dessus, le rôle du conducteur dans le système conducteur-véhicule est étudié. Les résultats présentés montrent qu'avec la méthodologie choisie, il est possible de mieux comprendre la stratégie de test du conducteur en identifiant les principales réponses du véhicule affectant toutes les étapes de l'évaluation subjective.Pour approfondir et renforcer la compréhension du rôle du conducteur, deux études de panel impliquant des conducteurs professionnels et non professionnels ont été réalisées. Celles-ci ont permis l'étude et l'analyse de l'interaction véhicule-conducteur en termes de proprioception et de vision, d'influences audiovisuelles et de séquelles en mouvement
The tire is heavily involved in the performance of a vehicle. Vehicle's fuel consumption (rolling resistance, aerodynamics), noise, comfort, handling and safety are related to the tire chosen. By using objective measurements, it is possible to predict some of those features but for some others like handling we cannot really predict the subjective evaluation made by experienced test drivers. Trial/error methodology is sometimes applied to identify tire potential and to gauge the tire performance related to specific designs and mechanical characteristics.Today, in the automotive industry, the evaluation of vehicle and tire handling performance is still largely performed on a subjective basis by experienced test drivers. This is justified by the fact that customer perception of vehicle performance is also made subjectively and, no reliable relationship has been found to relate objective performance measures to the human perception of performance.An extensive literature review on the objectification of subjective assessment, the vehicle-driver interaction, the vehicle dynamics simulation and the explorative multivariate data analysis as well as statistical hypothesis testing is the first research step aimed to investigate the methodologies, the data analytics and statistical tools used by other researchers.Based on the literature review, the thesis proposes a methodology that allows to translate subjective evaluations into objective metrics (vehicle environment as well as vehicle-tire environment) enabling the prediction of the outcome of a subjective test by using objective measurements leading to a reduction of the iterations during the tire development process. The choice of the most relevant vehicle dynamics model’s complexity depicts the main tire mechanical features affecting the handling performance and their effect on the objective metrics of interest. Specific experimental vehicle dynamics maneuvers have been selected for this study with the aim of unpacking the complexity of the subjective handling assessment without being simplistic and paying attention to interconnectedness of the different variables and their interplay with contextual factors.In the frame of the above-mentioned correlation study, the role of the driver in the driver-vehicle system is investigated. The results presented show that, with the chosen methodology, it is possible to gain insights on the driver’s testing strategy identifying the main vehicle responses affecting all the stages of the subjective evaluation. To deepen and strengthen the understanding of the driver’s role, two panel studies involving professional and non-professional drivers have been carried out. Those allowed the study and analysis of the vehicle-driver interaction in terms of proprioception and vision, audio-visual influences and aftereffects in motion
APA, Harvard, Vancouver, ISO, and other styles
14

Guigourès, Romain. "Utilisation des modèles de co-clustering pour l'analyse exploratoire des données." Thesis, Paris 1, 2013. http://www.theses.fr/2013PA010070.

Full text
Abstract:
Le co-clustering est une technique de classification consistant à réaliser une partition simultanée des lignes et des colonnes d’une matrice de données. Parmi les approches existantes, MODL permet de traiter des données volumineuses et de réaliser une partition de plusieurs variables, continues ou nominales. Nous utilisons cette approche comme référence dans l’ensemble des travaux de la thèse et montrons la diversité des problèmes de data mining pouvant être traités, comme le partitionnement de graphes, de graphes temporels ou encore le clustering de courbes. L’approche MODL permet d’obtenir des résultats fins sur des données volumineuses, ce qui les rend difficilement interprétables. Des outils d’analyse exploratoire sont alors nécessaires pour les exploiter. Afin de guider l'utilisateur dans l'interprétation de tels résultats, nous définissons plusieurs outils consistant à simplifier des résultats fins afin d’en avoir une interprétation globale, à détecter les clusters remarquables, à déterminer les valeurs représentatives de leurs clusters et enfin à visualiser les résultats. Les comportements asymptotiques de ces outils d’analyse exploratoire sont étudiés afin de faire le lien avec les approches existantes.Enfin une application sur des comptes-rendus d’appels de l’opérateur Orange, collectés en Côte d’Ivoire, montre l’intérêt de l’approche et des outils d’analyse exploratoire dans un contexte industriel
Co-clustering is a clustering technique aiming at simultaneously partitioning the rows and the columns of a data matrix. Among the existing approaches, MODL is suitable for processing huge data sets with several continuous or categorical variables. We use it as the baseline approach in this thesis. We discuss the reliability of applying such an approach on data mining problems like graphs partitioning, temporal graphs segmentation or curve clustering.MODL tracks very fine patterns in huge data sets, that makes the results difficult to study. That is why, exploratory analysis tools must be defined in order to explore them. In order to help the user in interpreting the results, we define exploratory analysis tools aiming at simplifying the results in order to make possible an overall interpretation, tracking the most interesting patterns, determining the most representative values of the clusters and visualizing the results. We investigate the asymptotic behavior of these exploratory analysis tools in order to make the connection with the existing approaches.Finally, we highlight the value of MODL and the exploratory analysis tools owing to an application on call detailed records from the telecom operator Orange, collected in Ivory Coast
APA, Harvard, Vancouver, ISO, and other styles
15

Truong, Thérèse Quy Thy. "Le vandalisme de l’information géographique volontaire : analyse exploratoire et proposition d’une méthodologie de détection automatique." Thesis, Paris Est, 2020. http://www.theses.fr/2020PESC2009.

Full text
Abstract:
La qualité de l'information géographique volontaire est actuellement un sujet qui questionne autant les consommateurs de données géographiques que les producteurs de données d'autorité voulant exploiter les bienfaits de la démarche collaborative. En effet, si les données cartographiques collaboratives présentent l'intérêt d'être ouvertes, contrairement à certaines bases de données géographiques officielles, celles-ci sont néanmoins sujettes à des erreurs voire à des dégradations volontaires, provoquées par des contributeurs malintentionnés. Dans ce dernier cas, on parle de vandalisme cartographique ou de carto-vandalisme. Ce phénomène est un travers de la démarche collaborative, et bien qu'il ne concerne qu'une faible portion des contributions, il peut constituer un obstacle à l'utilisation des données cartographiques participatives. Dans une démarche de qualification de l'information géographique volontaire, ce travail de thèse a plus précisément pour objectif de détecter le vandalisme dans les données collaboratives cartographiques. Dans un premier temps, il s'agit de formaliser une définition du concept de carto-vandalisme. Puis, en partant du principe que les contributions volontairement dégradées proviennent de contributeurs malveillants, nous cherchons à démontrer que la qualification des contributeurs permettant d'évaluer leurs contributions. Enfin, nos expériences explorent la capacité des méthodes d'apprentissage machine (machine learning) à détecter le carto-vandalisme
The quality of Volunteered Geographic Information (VGI) is currently a topic that question spatial data users as well as authoritative data producers who are willing to exploit the benefits of crowdsourcing. Contrary to most authoritative databases, the advantage of VGI provides open access to spatial data. However, VGI is prone to errors, even to deliberate defacement perpetrated by ill-intended contributors. In the latter case, we may speak of cartographic vandalism of carto-vandalism. This phenomenon is one the main downsides of crowsdsourcing, and despite the small amount of incidents, it may be a barrier to the use of collaborative spatial data. This thesis follows an approach based on VGI quality -- in particular, the objective of this work is to detect vandalism in spatial collaborative data. First, we formalize a definition of the concept of carto-vandalism. Then, assuming that corrupted spatial data come from malicious contributors, we demonstate that qualifying contributors enables to assess the corresponding contributed data. Finally, the experiments explore the ability of learning methods to detect carto-vandalism
APA, Harvard, Vancouver, ISO, and other styles
16

Heymann, Sébastien. "Analyse exploratoire de flots de liens pour la détection d'événements." Phd thesis, Université Pierre et Marie Curie - Paris VI, 2013. http://tel.archives-ouvertes.fr/tel-00994766.

Full text
Abstract:
Un flot de liens représente une trace de l'activité d'un système complexe au cours du temps, où un lien apparaît lorsque deux entités du système entrent en interaction ; l'ensemble des entités et des liens forme un graphe. Ces traces constituent depuis quelques années des jeux de données stratégiques dans l'analyse de l'activité de systèmes complexes à grande échelle, impliquant des millions d'entités : réseaux de téléphone mobiles, réseaux sociaux, ou encore Internet. Cette thèse porte sur l'analyse exploratoire des flots de liens, en particulier sur la caractérisation de leur dynamique et l'identification d'anomalies au cours du temps (événements). Nous proposons un cadre exploratoire sans hypothèse sur les données, faisant appel à l'analyse statistique et à la visualisation. Les événements détectés sont statistiquement significatifs et nous proposons une méthode pour valider leur pertinence. Nous illustrons enfin notre méthodologie sur l'évolution du réseau social en ligne Github, où des centaines de milliers de développeurs collaborent sur des projets de logiciel.
APA, Harvard, Vancouver, ISO, and other styles
17

Schmutz, Amandine. "Contributions à l'analyse de données fonctionnelles multivariées, application à l'étude de la locomotion du cheval de sport." Thesis, Lyon, 2019. http://www.theses.fr/2019LYSE1241.

Full text
Abstract:
Avec l'essor des objets connectés pour fournir un suivi systématique, objectif et fiable aux sportifs et à leur entraineur, de plus en plus de paramètres sont collectés pour un même individu. Une alternative aux méthodes d'évaluation en laboratoire est l'utilisation de capteurs inertiels qui permettent de suivre la performance sans l'entraver, sans limite d'espace et sans procédure d'initialisation fastidieuse. Les données collectées par ces capteurs peuvent être vues comme des données fonctionnelles multivariées : se sont des entités quantitatives évoluant au cours du temps de façon simultanée pour un même individu statistique. Cette thèse a pour objectif de chercher des paramètres d'analyse de la locomotion du cheval athlète à l'aide d'un capteur positionné dans la selle. Cet objet connecté (centrale inertielle, IMU) pour le secteur équestre permet de collecter l'accélération et la vitesse angulaire au cours du temps, dans les trois directions de l'espace et selon une fréquence d'échantillonnage de 100 Hz. Une base de données a ainsi été constituée rassemblant 3221 foulées de galop, collectées en ligne droite et en courbe et issues de 58 chevaux de sauts d'obstacles de niveaux et d'âges variés. Nous avons restreint notre travail à la prédiction de trois paramètres : la vitesse par foulée, la longueur de foulée et la qualité de saut. Pour répondre aux deux premiers objectifs nous avons développé une méthode de clustering fonctionnelle multivariée permettant de diviser notre base de données en sous-groupes plus homogènes du point de vue des signaux collectés. Cette méthode permet de caractériser chaque groupe par son profil moyen, facilitant leur compréhension et leur interprétation. Mais, contre toute attente, ce modèle de clustering n'a pas permis d'améliorer les résultats de prédiction de vitesse, les SVM restant le modèle ayant le pourcentage d'erreur inférieur à 0.6 m/s le plus faible. Il en est de même pour la longueur de foulée où une précision de 20 cm est atteinte grâce aux Support Vector Machine (SVM). Ces résultats peuvent s'expliquer par le fait que notre base de données est composée uniquement de 58 chevaux, ce qui est un nombre d'individus très faible pour du clustering. Nous avons ensuite étendu cette méthode au co-clustering de courbes fonctionnelles multivariées afin de faciliter la fouille des données collectées pour un même cheval au cours du temps. Cette méthode pourrait permettre de détecter et prévenir d'éventuels troubles locomoteurs, principale source d'arrêt du cheval de saut d'obstacle. Pour finir, nous avons investigué les liens entre qualité du saut et les signaux collectés par l'IMU. Nos premiers résultats montrent que les signaux collectés par la selle seuls ne suffisent pas à différencier finement la qualité du saut d'obstacle. Un apport d'information supplémentaire sera nécessaire, à l'aide d'autres capteurs complémentaires par exemple ou encore en étoffant la base de données de façon à avoir un panel de chevaux et de profils de sauts plus variés
With the growth of smart devices market to provide athletes and trainers a systematic, objective and reliable follow-up, more and more parameters are monitored for a same individual. An alternative to laboratory evaluation methods is the use of inertial sensors which allow following the performance without hindering it, without space limits and without tedious initialization procedures. Data collected by those sensors can be classified as multivariate functional data: some quantitative entities evolving along time and collected simultaneously for a same individual. The aim of this thesis is to find parameters for analysing the athlete horse locomotion thanks to a sensor put in the saddle. This connected device (inertial sensor, IMU) for equestrian sports allows the collection of acceleration and angular velocity along time in the three space directions and with a sampling frequency of 100 Hz. The database used for model development is made of 3221 canter strides from 58 ridden jumping horses of different age and level of competition. Two different protocols are used to collect data: one for straight path and one for curved path. We restricted our work to the prediction of three parameters: the speed per stride, the stride length and the jump quality. To meet the first to objectives, we developed a multivariate functional clustering method that allow the division of the database into smaller more homogeneous sub-groups from the collected signals point of view. This method allows the characterization of each group by it average profile, which ease the data understanding and interpretation. But surprisingly, this clustering model did not improve the results of speed prediction, Support Vector Machine (SVM) is the model with the lowest percentage of error above 0.6 m/s. The same applied for the stride length where an accuracy of 20 cm is reached thanks to SVM model. Those results can be explained by the fact that our database is build from 58 horses only, which is a quite low number of individuals for a clustering method. Then we extend this method to the co-clustering of multivariate functional data in order to ease the datamining of horses’ follow-up databases. This method might allow the detection and prevention of locomotor disturbances, main source of interruption of jumping horses. Lastly, we looked for correlation between jumping quality and signals collected by the IMU. First results show that signals collected by the saddle alone are not sufficient to differentiate finely the jumping quality. Additional information will be needed, for example using complementary sensors or by expanding the database to have a more diverse range of horses and jump profiles
APA, Harvard, Vancouver, ISO, and other styles
18

Vrac, Mathieu. "Analyse et modélisation de données probabilistes par décomposition de mélange de copules et application à une base de données climatologiques." Phd thesis, Université Paris Dauphine - Paris IX, 2002. http://tel.archives-ouvertes.fr/tel-00002386.

Full text
Abstract:
Nous étendons les méthodes de décomposition de mélange de densités de probabilité au cas des données "fonctions de répartition", permettant ainsi de classifier ces fonctions et de modéliser une loi pour ces données fonctionnelles particulières. Cette loi est donnée par la notion de "fonctions de distribution de distributions" (FDD), basée sur la définition d'une fonction de répartition pour des variables aléatoires à valeurs dans un espace probabiliste. Les extensions sont effectuées en associant les FDD aux fonctions "copules" par le théorème de Sklar. Les copules "couplent" les fonctions de répartition à n dimensions (jointes) et à 1-dimension (marginales) d'un n-uplet de variables aléatoires. Nous regardons principalement une classe de copules paramétriques, les copules Archimédiennes, et proposons trois nouvelles méthodes d'estimation des paramètres dans le cas de copules multivariées : par coefficients de corrélation de Kendall, de Spearman, et par maximisation de la vraisemblance. L'association des FDD et des copules caractérise l'évolution des données fonctionnelles (i.e. la forme de ces fonctions) entre différents points à l'intérieur des classes pour chaque variable, et donne une mesure de dépendance entre les variables utilisées. Les méthodes sont tout d'abord développées pour une variable, puis divers généralisations sont proposées pour n dimensions. Certains points théoriques sont ensuite discutés, tels que la convergence de l'algorithme et le fait que la méthode par copules est une généralisation du cas classique. Une application de la méthode "approche classification" par copules est réalisée sur des données climatiques de l'atmosphère terrestre. Le but est la classification de "profils" atmosphériques et l'estimation de la loi sous-jacente des données. Les résultats sont comparés avec ceux de méthodes "classiques", prouvant ainsi les performances nettement supérieures de la méthode par décomposition de mélange de copules (DMC) et l'intérêt de l'utilisation des données probabilistes.
APA, Harvard, Vancouver, ISO, and other styles
19

Moudden, Yassir. "Estimation de paramètres physiques de combustion par modélisation du signal d'ionisation et inversion paramétrique." Paris 11, 2003. http://www.theses.fr/2003PA112004.

Full text
Abstract:
Cette thèse est consacrée à la conception d'un système de mesure indirecte pour l'estimation quantitative de paramètres de combustion pertinents en termes de diagnostics et de contrôle moteur, fondé sur l'observation d'une grandeur aisément accessible, le signal d'ionisation. Nous avons envisagé une approche au sens des problèmes inverses. Il s'agit de construire un modèle paramétrique du signal d'ionisation au moyen des équations de la physique puis d'estimer les paramètres par inversion du modèle dans une boucle d'optimisation. L'extrême complexité des phénomènes participant vraisemblablement à la construction de ce signal ne nous a pas permis d'aboutir et nous nous sommes orientés vers une approche plus expérimentale. Nous avons mené une analyse statistique aveugle des données fournies par RENAULT dans le but d'expliciter une relation entre le signal d'ionisation et les grandeurs à estimer. L'étude statistique de données évoluant dans un espace de grande dimension étant notoirement maladroite, différentes méthodes classiques de réduction de la dimension apparente des données telles que l'Analyse en Composantes Principales, Projection Pursuit, etc. Ont été utilisées avec profit. Nous avons par ailleurs proposé une extension de cette dernière méthode en montrant l'utilité de critères issus de la théorie de l'information tels que l'information mutuelle ou la mesure de dépendance de Hellinger, pour la sélection de projections intéressantes. Nous avons aussi pu profitablement diminuer la dimension des données étudiées en recherchant un ensemble réduit de variables intermédiaires susceptibles de retenir une information relative à la grandeur d'intérêt. Ces analyses nous ont ensuite permis de proposer différents estimateurs de l'angle de pression de chambre maximale dont la précision et la stabilité ont été étudiées sur un sous ensemble des données disponibles correspondant à un domaine assez large de points de fonctionnement du moteur
The work described in this thesis investigates the possibility of constructing an indirect measurement algorithm of relevant combustion parameters based on ionization signal processing. Indeed, automobile manufacturers are in need of low cost combustion diagnoses to enhance engine control. Because of the extreme complexity of the physical phenomena in which the ionization signal originates, the traditional model-based approach appeared unrealistic and did not bring about conclusive results. We hence turned to performing a blind statistical analysis of experimental data acquired on a test engine. The analysis of high dimensional data being notoriously awkward, it is necessary to first reduce the apparent dimension of the signal data, keeping in mind the necessity of preserving the information useful in terms of our estimation problem. The usual techniques such as Principal Component Analysis, Projection Pursuit, etc. Are used to form and detect relevant variables. Further, a procedure for high dimensional data analysis derived as an extension of Exploratory Projection Pursuit, is suggested and shown to be a profitable tool. With this method, we seek interesting projections of high dimensional data by optimizing probabilistic measures of dependence such as Mutual Information, Hellinger divergence, etc. Finally, results are presented that demonstrate the quality and the stability of the low complexity in-cylinder peak pressure position estimators we derived, for a wide range of engine states
APA, Harvard, Vancouver, ISO, and other styles
20

Kherif, Ferath. "Applications de modèles statistiques multivariés à la résolution de problèmes posés par les données d' imagerie fonctionnelle cérébrale." Paris 6, 2003. http://www.theses.fr/2003PA066598.

Full text
APA, Harvard, Vancouver, ISO, and other styles
21

Pfaender, Fabien. "Spatialisation de l'information." Compiègne, 2009. http://www.theses.fr/2009COMP1813.

Full text
Abstract:
L’objectif de ce travail est de proposer une sémiologie à même d’expliquer l’impact des présentations d’informations sur la cognition de façon à pouvoir ensuite les utiliser au mieux pour fouiller des données, synthétiser des informations et explorer des très grands jeux de données hétérogènes. Afin de comprendre comment les informations sont perçues et comment leurs présentations nous affectent et nous transforment, nous nous sommes placés dans une approche énactive où le monde de l’expérience vécue par le sujet se constitue dans le couplage entre l’organisme et son environnement et où la perception émerge du couplage entre ses actions et ses sensations. Nous avons alors proposé que les actions de lecture soient portées par des lignes pour former des gestes perceptifs. Ces gestes sont à la base de structures primaires qui composent toutes les présentations d’informations. Analysées en vertu des contraintes et libertés qu’elles offrent, tant du point de leur lecture globale que des variations locales liées à leur inscription, les structures peuvent ensuite se combiner pour créer des structures secondaires et l’on peut ainsi modéliser la perception et l’effet cognitif de toutes les spatialisations d’information. Cet appareil explicatif permet de proposer une méthode systématique qui met en œuvre les principes sémiologiques découvertes pour explorer des systèmes complexes et en produire des modèles en mettant à jour leur structure. Cette méthode et cette sémiologie ont été testées au sein d’un logiciel d’exploration du Web à base de spatialisations développé pour l’occasion
The goal of this work is to understand how information presentations affect cognition so as to use them efficiently to mine date, synthesize information and explorer large heterogeneous datasets. We chose an enactive approach as a conceptual framework to understand how informations are perceived and how the way they are presented affects and transform us. In enaction, the world as perceived by a subject is the result of a dynamic coupling between the organism and its environment. Perception itself emerges from the coupling between subject’s actions and its sensations. Following these principles, we proposed that lines are a perceptive support for actions of reading that lead to complex perceptive gestures. Those gestures are the basis of what we called primary structures which exist in every presentation of informations. The structures are analyzed in terms of constraints and liberties they offer both for global gesture support and for local gesture variations. The five structures identified are the list, the diagram, the array, the graph of nodes and edges and the map. Primary structures themselves can also be combined into secondary structures. Thus, knowing how primary and secondary structure are perceived, it becomes possible to understand perceptive and cognitive effect of all spatialization of informations. Finally, given the semiological principles we discovered, we were able to come up with a systematic and spatialization-based metho to explore complex systems and reveal their structure. The method and the semiology have been integrated and tested in a web exploration software we developed for the occasion
APA, Harvard, Vancouver, ISO, and other styles
22

Komaty, Ali. "Traitement et analyse des processus stochastiques par EMD et ses extensions." Thesis, Brest, 2014. http://www.theses.fr/2014BRES0107.

Full text
Abstract:
L’objectif de cette thèse est d’analyser le comportement de la décomposition modale empirique (EMD) et sa version multivariée (MEMD) dans le cas de processus stochastiques : bruit Gaussien fractionnaire (fGn) et processus symétrique alpha stable (SαS). Le fGn est un bruit large bande généralisant le cas du bruit blanc Gaussien et qui trouve des applications dans de nombreux domaines tels que le trafic internet, l’économie ou le climat. Par ailleurs, la nature «impulsive» d’un certain nombre de signaux (craquement des glaces, bruit des crevettes claqueuses, potentiel de champ local en neurosciences,…) est indéniable et le modèle Gaussien ne convient pas pour leur modélisation. La distribution SαS est une solution pour modéliser cette classe de signaux non-Gaussiens. L’EMD est un outil bien adapté au traitement et à l’analyse de ces signaux réels qui sont, en général, de nature complexe (non stationnaire,non linéaire). En effet, cette technique, pilotée par les données, permet la décomposition d’un signal en une somme réduite de composantes oscillantes, extraites de manière itérative, appelées modes empiriques ou IMFs (Intrinsic Mode Functions). Ainsi, nous avons montré que le MEMD s’organise spontanément en une structure de banc de filtres presque dyadiques. L'auto-similarité en termes de représentation spectrale des modes a aussi été établie. En outre, un estimateur de l’exposant de Hurst, caractérisant le fGn, a été construit et ses performances ont été comparées, en particulier à celles de l’approche ondelettes. Cette propriété de banc de filtres du MEMD a été vérifiée sur des données d'hydrodynamique navale (écoulement turbulent) et leur auto-similarité a été mise en évidence. De plus, l’estimation du coefficient de Hurst a mis en avant l’aspect longue dépendance (corrélation positive) des données. Enfin, l’aspect banc de filtres de l’EMD a été exploité à des fins de filtrage dans le domaine temporel en utilisant une mesure de similarité entre les densités de probabilités des modes extraits et celle du signal d’entrée. Pour éviter le problème du mode mixing de l'EMD standard, une approche de débruitage dans le domaine fréquentiel par une reconstruction complète des IMFs préalablement seuillées a été menée. L’ensemble des résultats a été validé par des simulations intensives (Monte Carlo) et sur des signaux réels
The main contribution of this thesis is aimed towards understanding the behaviour of the empirical modes decomposition (EMD) and its extended versions in stochastic situations
APA, Harvard, Vancouver, ISO, and other styles
23

Paillé, Pierre. "Les études sur la paix dans les collèges et universités : une analyse des données, des débats et des courants, avec survol exploratoire de la situation au Québec." Mémoire, Université de Sherbrooke, 1988. http://hdl.handle.net/11143/9209.

Full text
Abstract:
Les termes et les conditions de notre sécurité à tous, de nos rapports sociaux, politiques, économiques et de notre développement doivent être repensés et le temps nous semble compté. Les problèmes qui nous assaillent de toutes parts apparaissent parfois tellement définitifs qu'il ne faut pas s'étonner de voir notre société effectuer un repli narcissique. La tentation est grande, pour celui qui en a les moyens, de couper le contact et de bâtir, ailleurs, potager biologique et microcosme humanisé. Il pourrait d'ailleurs en émerger un modèle de société, à la mesure de l'homme, qui, ultimement, pourrait transformer l'ensemble des rapports humains, sociaux et politiques. Cette utopie, nous devons y travailler, et elle semble devoir passer dès maintenant par le potager biologique et le microcosme humanisé. Mais le problème global, planétaire, demeure entier. D'où l'importance inestimable, aussi, du mouvement pour la paix. Son étendue à travers le monde autorise peut-être à entretenir l'espoir que, pour paraphraser Albert Jacquard, à l'hominisation succédera l’humanisation. Cet espoir est peut-être encore plus fondé depuis que le thème de la paix a gagné les classes et les salles de cours d'un façon explicite et importante. L'enseignement relatif à la paix occupe une place importante au sein des efforts globaux de paix. Cet exposé porte sur les "études sur la paix". Par "études sur la paix", il faut entendre un ensemble de cours collégiaux et universitaires, parfois accompagnés d'activités ou de recherches, visant à explorer académiquement des connaissances, des habiletés et des valeurs pertinentes au problème global de la paix. Il s'agit d'un ensemble de cours spécifiques, mais ceux-ci s'inscrivent aussi dans une démarche globale qui peut pratiquement être assimilée à un "mouvement". La définition qui précède n'est, en fait, qu'exploratoire. L'objet, essentiel de ce mémoire est, justement, de décrire le plus adéquatement possible ce phénomène, ce qui n'est pas du tout évident à première vue. [...]
APA, Harvard, Vancouver, ISO, and other styles
24

Loubier, Eloïse. "Analyse et visualisation de données relationnelles par morphing de graphe prenant en compte la dimension temporelle." Phd thesis, Université Paul Sabatier - Toulouse III, 2009. http://tel.archives-ouvertes.fr/tel-00423655.

Full text
Abstract:
Avec la mondialisation, l'entreprise doit faire face aux menaces de plus en plus fortes de la concurrence et à l'accélération des flux d'information. Pour cela, elle est amenée à rester continuellement informée des innovations, des stratégies de la concurrence et de l'état du marché tout en gardant la maîtrise de son environnement. Le développement d'Internet et la globalisation ont à la fois renforcé cette exigence, et fourni les moyens de collecter l'information qui, une fois synthétisée, prend souvent une forme relationnelle. Pour analyser le relationnel, le recours à la visualisation par des graphes apporte un réel confort aux utilisateurs, qui, de façon intuitive, peuvent s'approprier une forme de connaissance difficile à appréhender autrement.
Nos travaux conduisent à l'élaboration des techniques graphiques permettant la compréhension des activités humaines, de leurs interactions mais aussi de leur évolution, dans une perspective décisionnelle. Nous concevons un outil alliant simplicité d'utilisation et précision d'analyse se basant sur deux types de visualisations complémentaires : statique et dynamique.
L'aspect statique de notre modèle de visualisation repose sur un espace de représentation, dans lequel les préceptes de la théorie des graphes sont appliqués. Le recours à des sémiologies spécifiques telles que le choix de formes de représentation, de granularité, de couleurs significatives permet une visualisation plus juste et plus précise de l'ensemble des données. L'utilisateur étant au cœur de nos préoccupations, notre contribution repose sur l'apport de fonctionnalités spécifiques, qui favorisent l'identification et l'analyse détaillée de structures de graphes. Nous proposons des algorithmes qui permettent de cibler le rôle des données au sein de la structure, d'analyser leur voisinage, tels que le filtrage, le k-core, la transitivité, de retourner aux documents sources, de partitionner le graphe ou de se focaliser sur ses spécificités structurelles.
Une caractéristique majeure des données stratégiques est leur forte évolutivité. Or l'analyse statistique ne permet pas toujours d'étudier cette composante, d'anticiper les risques encourus, d'identifier l'origine d'une tendance, d'observer les acteurs ou termes ayant un rôle décisif au cœur de structures évolutives.
Le point majeur de notre contribution pour les graphes dynamiques représentant des données à la fois relationnelles et temporelles, est le morphing de graphe. L'objectif est de faire ressortir les tendances significatives en se basant sur la représentation, dans un premier temps, d'un graphe global toutes périodes confondues puis en réalisant une animation entre les visualisations successives des graphes attachés à chaque période. Ce procédé permet d'identifier des structures ou des événements, de les situer temporellement et d'en faire une lecture prédictive.
Ainsi notre contribution permet la représentation des informations, et plus particulièrement l'identification, l'analyse et la restitution des structures stratégiques sous jacentes qui relient entre eux et à des moments donnés les acteurs d'un domaine, les mots-clés et concepts qu'ils utilisent.
APA, Harvard, Vancouver, ISO, and other styles
25

Combrexelle, Sébastien. "Multifractal analysis for multivariate data with application to remote sensing." Phd thesis, Toulouse, INPT, 2016. http://oatao.univ-toulouse.fr/16477/1/Combrexelle.pdf.

Full text
Abstract:
Texture characterization is a central element in many image processing applications. Texture analysis can be embedded in the mathematical framework of multifractal analysis, enabling the study of the fluctuations in regularity of image intensity and providing practical tools for their assessment, the coefficients or wavelet leaders. Although successfully applied in various contexts, multi fractal analysis suffers at present from two major limitations. First, the accurate estimation of multifractal parameters for image texture remains a challenge, notably for small sample sizes. Second, multifractal analysis has so far been limited to the analysis of a single image, while the data available in applications are increasingly multivariate. The main goal of this thesis is to develop practical contributions to overcome these limitations. The first limitation is tackled by introducing a generic statistical model for the logarithm of wavelet leaders, parametrized by multifractal parameters of interest. This statistical model enables us to counterbalance the variability induced by small sample sizes and to embed the estimation in a Bayesian framework. This yields robust and accurate estimation procedures, effective both for small and large images. The multifractal analysis of multivariate images is then addressed by generalizing this Bayesian framework to hierarchical models able to account for the assumption that multifractal properties evolve smoothly in the dataset. This is achieved via the design of suitable priors relating the dynamical properties of the multifractal parameters of the different components composing the dataset. Different priors are investigated and compared in this thesis by means of numerical simulations conducted on synthetic multivariate multifractal images. This work is further completed by the investigation of the potential benefit of multifractal analysis and the proposed Bayesian methodology for remote sensing via the example of hyperspectral imaging.
APA, Harvard, Vancouver, ISO, and other styles
26

Loubier, Éloïse. "Analyse et visualisation de données relationnelles par morphing de graphe prenant en compte la dimension temporelle." Toulouse 3, 2009. http://thesesups.ups-tlse.fr/2264/.

Full text
Abstract:
Avec la mondialisation, l'entreprise doit faire face aux menaces de plus en plus fortes de la concurrence et à l'accélération des flux d'information. Pour cela, elle est amenée à rester continuellement informée des innovations, des stratégies de la concurrence et de l'état du marché tout en gardant la maîtrise de son environnement. Le développement d'Internet et la globalisation ont à la fois renforcé cette exigence, et fourni les moyens de collecter l'information qui, une fois synthétisée, prend souvent une forme relationnelle. Pour analyser le relationnel, le recours à la visualisation par des graphes apporte un réel confort aux utilisateurs, qui, de façon intuitive, peuvent s'approprier une forme de connaissance difficile à appréhender autrement. Nos travaux conduisent à l'élaboration des techniques graphiques permettant la compréhension des activités humaines, de leurs interactions mais aussi de leur évolution, dans une perspective décisionnelle. Nous concevons un outil alliant simplicité d'utilisation et précision d'analyse se basant sur deux types de visualisations complémentaires : statique et dynamique. L'aspect statique de notre modèle de visualisation repose sur un espace de représentation, dans lequel les préceptes de la théorie des graphes sont appliqués. Le recours à des sémiologies spécifiques telles que le choix de formes de représentation, de granularité, de couleurs significatives permet une visualisation plus juste et plus précise de l'ensemble des données. L'utilisateur étant au cœur de nos préoccupations, notre contribution repose sur l'apport de fonctionnalités spécifiques, qui favorisent l'identification et l'analyse détaillée de structures de graphes. Nous proposons des algorithmes qui permettent de cibler le rôle des données au sein de la structure, d'analyser leur voisinage, tels que le filtrage, le k-core, la transitivité, de retourner aux documents sources, de partitionner le graphe ou de se focaliser sur ses spécificités structurelles. Une caractéristique majeure des données stratégiques est leur forte évolutivité. Or l'analyse statistique ne permet pas toujours d'étudier cette composante, d'anticiper les risques encourus, d'identifier l'origine d'une tendance, d'observer les acteurs ou termes ayant un rôle décisif au cœur de structures évolutives. Le point majeur de notre contribution pour les graphes dynamiques représentant des données à la fois relationnelles et temporelles, est le morphing de graphe. L'objectif est de faire ressortir les tendances significatives en se basant sur la représentation, dans un premier temps, d'un graphe global toutes périodes confondues puis en réalisant une animation entre les visualisations successives des graphes attachés à chaque période. Ce procédé permet d'identifier des structures ou des événements, de les situer temporellement et d'en faire une lecture prédictive. Ainsi notre contribution permet la représentation des informations, et plus particulièrement l'identification, l'analyse et la restitution des structures stratégiques sous jacentes qui relient entre eux et à des moments donnés les acteurs d'un domaine, les mots-clés et concepts qu'ils utilisent
With word wide exchanges, companies must face increasingly strong competition and masses of information flows. They have to remain continuously informed about innovations, competition strategies and markets and at the same time they have to keep the control of their environment. The Internet development and globalization reinforced this requirement and on the other hand provided means to collect information. Once summarized and synthesized, information generally is under a relational form. To analyze such a data, graph visualization brings a relevant mean to users to interpret a form of knowledge which would have been difficult to understand otherwise. The research we have carried out results in designing graphical techniques that allow understanding human activities, their interactions but also their evolution, from the decisional point of view. We also designed a tool that combines ease of use and analysis precision. It is based on two types of complementary visualizations: statics and dynamics. The static aspect of our visualization model rests on a representation space in which the precepts of the graph theory are applied. Specific semiologies such as the choice of representation forms, granularity, and significant colors allow better and precise visualizations of the data set. The user being a core component of our model, our work rests on the specification of new types of functionalities, which support the detection and the analysis of graph structures. We propose algorithms which make it possible to target the role of the data within the structure, to analyze their environment, such as the filtering tool, the k-core, and the transitivity, to go back to the documents, and to give focus on the structural specificities. One of the main characteristics of strategic data is their strong evolution. However the statistical analysis does not make it possible to study this component, to anticipate the incurred risks, to identify the origin of a trend, and to observe the actors or terms having a decisive role in the evolution structures. With regard to dynamic graphs, our major contribution is to represent relational and temporal data at the same time; which is called graph morphing. The objective is to emphasize the significant tendencies considering the representation of a graph that includes all the periods and then by carrying out an animation between successive visualizations of the graphs attached to each period. This process makes it possible to identify structures or events, to locate them temporally, and to make a predictive reading of it. Thus our contribution allows the representation of advanced information and more precisely the identification, the analysis, and the restitution of the underlying strategic structures which connect the actors of a domain, the key words, and the concepts they use; this considering the evolution feature
APA, Harvard, Vancouver, ISO, and other styles
27

Boiret, Mathieu. "Towards chemometric methodologies on hyperspectral imaging for low dose compound detection : application on Raman microscopy." Thesis, Montpellier, 2015. http://www.theses.fr/2015MONTS291.

Full text
Abstract:
L’imagerie hyperspectrale est désormais considérée comme un outil analytique à part entière dans l’industrie pharmaceutique, aussi bien au cours du développement pour assurer la qualité d’un produit que pour résoudre des problématiques de production après la mise sur le marché du médicament. Dans ces travaux, la microscopie Raman est utilisée pour étudier la distribution en principes actifs et excipients au sein d’une forme pharmaceutique solide, en se focalisant tout particulièrement sur l’identification d’un composé faiblement dosé. Ce dernier est défini comme étant un produit ayant de faibles contributions spatiale et spectrale, signifiant qu’il est distribué dans quelques pixels de l’image avec une information spectrale peu présente dans un spectre de mélange. Alors que la plupart des algorithmes chimiométriques se basent sur la décomposition de moments statistiques, nécessitant une variation suffisante entre les échantillons (les pixels d’une image), les limites de ces outils pour résoudre ce cas spécifique sont rapidement atteintes.La première partie de la thèse met en évidence les difficultés de détection d’un composé faiblement dosé en utilisant l’analyse en composantes indépendantes et la résolution multivariée de courbes. Des méthodologies de travail sont proposées pour contourner ces limitations. Pour les deux techniques, les étapes de réduction de dimensions apparaissent comme des paramètres critiques de la méthode. La seconde partie de la thèse se focalise sur l’espace des signaux pour déterminer des cartes d’absence/présence de constituants ou pour détecter des constituants dans une formulation inconnue, en se basant sur des espaces spectraux portant une information relative aux constituants de la formulation. Les techniques proposées sont parfaitement adaptées à la détection d’un composé faiblement dosé et ces méthodes pourraient être adaptées à d’autres techniques de mesure ou d’autres domaines d’application
Hyperspectral imaging is now considered as a powerful analytical tool in the pharmaceutical environment, both during development to ensure the drug product quality and to solve production issues on commercialized products.In this thesis, Raman microscopy is used to study the distribution of actives and excipients in a pharmaceutical drug product, by especially focusing on the identification of a low dose compound. This latter product is defined as a compound which has low spatial and spectra contributions, meaning that it is scattered in a few pixels of the image and that its spectral response is mixed with the other compounds of the formulation. While most chemometric tools are based on the decomposition of statistical moments (requiring sufficient variations between samples or image pixels), some limitations have been rapidly reached. The first part of this thesis highlights the difficulty to detect a low dose compound in a product by using independent component analysis or multivariate curve resolution. Different methodologies are proposed to circumvent these limitations. For both techniques, reduction of dimensions and filtering steps appears as critical parameters of the method. The second part of the thesis focusses on the signal space to determine absence/presence compound maps or to detect the compounds in an unknown formulation. The proposed methods are only based on the spectral space of each formulation compound. There are perfectly suitable to a low dose compound and should be well-adapted to other analytical techniques or to other environments
APA, Harvard, Vancouver, ISO, and other styles
28

Traore, Oumar Issiaka. "Méthodologie de traitement et d'analyse de signaux expérimentaux d'émission acoustique : application au comportement d'un élément combustible en situation accidentelle." Thesis, Aix-Marseille, 2018. http://www.theses.fr/2018AIXM0011/document.

Full text
Abstract:
L’objectif de cette thèse est de contribuer à l’amélioration du processus de dépouillement d’essais de sûreté visant étudier le comportement d'un combustible nucléaire en contexte d’accident d’injection de réactivité (RIA), via la technique de contrôle par émission acoustique. Il s’agit notamment d’identifier clairement les mécanismes physiques pouvant intervenir au cours des essais à travers leur signature acoustique. Dans un premier temps, au travers de calculs analytiques et des simulation numériques conduites au moyen d’une méthode d’éléments finis spectraux, l’impact du dispositif d’essais sur la propagation des ondes est étudié. Une fréquence de résonance du dispositif est identifiée. On établit également que les mécanismes basses fréquences ne sont pas impactés par le dispositif d'essais. En second lieu, diverses techniques de traitement du signal (soustraction spectrale, analyse spectrale singulière, ondelettes. . . ) sont expérimentées, afin de proposer des outils permettant de traiter différent types de bruit survenant lors des essais RIA. La soustraction spectrale s’avère être la méthode la plus robuste aux changements de nature du bruit, avec un fort potentiel d’amélioration du rapport signal-à-bruit. Enfin, des méthodes d’analyse de données multivariées et d’analyse de données fonctionnelles ont été appliquées, afin de proposer un algorithme de classification statistique permettant de mieux comprendre la phénoménologie des accidents de type RIA et d’identifier les mécanismes physiques. Selon l’approche (multivariée ou fonctionnelle), les algorithmes obtenus permettent de reconnaître le mécanisme associé à une salve dans plus de 80% des cas
The objective of the thesis is to contribute to the improvement of the monitoring process of nuclear safety experiments dedicated to study the behavior of the nuclear fuel in a reactivity initiated accident (RIA) context, by using the acoustic emission technique. In particular, we want to identify the physical mechanisms occurring during the experiments through their acoustic signatures. Firstly, analytical derivations and numerical simulations using the spectral finite element method have been performed in order to evaluate the impact of the wave travelpath in the test device on the recorded signals. A resonant frequency has been identified and it has been shown that the geometry and the configuration of the test device may not influence the wave propagation in the low frequency range. Secondly, signal processing methods (spectral subtraction, singular spectrum analysis, wavelets,…) have been explored in order to propose different denoising strategies according to the type of noise observed during the experiments. If we consider only the global SNR improvement ratio, the spectral subtraction method is the most robust to changes in the stochastic behavior of noise. Finally, classical multivariate and functional data analysis tools are used in order to create a machine learning algorithm dedicated to contribute to a better understanding of the phenomenology of RIA accidents. According to the method (multivariate or functional), the obtained algorithms allow to identify the mechanisms in more than 80 % of cases
APA, Harvard, Vancouver, ISO, and other styles
29

Boulfani, Fériel. "Caractérisation du comportement de systèmes électriques aéronautiques à partir d'analyses statistiques." Thesis, Toulouse 1, 2021. http://publications.ut-capitole.fr/43780/.

Full text
Abstract:
La caractérisation des systèmes électriques est une tâche essentielle dans la conception aéronautique. Elle consiste notamment à dimensionner les composants des systèmes, définir les exigences à respecter par les charges électriques, définir les intervalles de maintenance et identifier les causes racines des pannes sur avions. Aujourd'hui, les calculs sont basés sur la théorie du génie électrique ou des modèles physiques simulés. L'objectif de cette thèse est d'utiliser une approche statistique basée sur les données observées durant les vols et des modèles d'apprentissage automatique pour caractériser le comportement du système électrique aéronautique. La première partie de cette thèse traite de l'estimation de la consommation électrique maximale que fournit un système électrique, dans le but d'optimiser le dimensionnement des générateurs et de mieux connaître les marges réelles. La théorie des valeurs extrêmes a été utilisée pour estimer des quantiles qui sont comparés aux valeurs théoriques calculées par les ingénieurs. Dans la deuxième partie, différents modèles régularisés sont considérés pour prédire la température de l'huile du générateur électrique dans un contexte de données fonctionnelles. Cette étude permet notamment de comprendre le comportement du générateur dans des conditions extrêmes qui ne peuvent pas être réalisées physiquement. Enfin, dans la dernière partie, un modèle de maintenance prédictive est proposé afin de détecter des anomalies dans le fonctionnement du générateur électrique pour anticiper les pannes. Le modèle proposé utilise des variantes de la méthode "Invariant Coordinate Selection" pour des données fonctionnelles
The characterization of electrical systems is an essential task in aeronautic conception. It consists in particular of sizing the electrical components, defining maintenance frequency and finding the root cause of aircraft failures. Nowadays, the computations are made using electrical engineering theory and simulated physical models. The aim of this thesis is to use statistical approaches based on flight data and machine learning models to characterize the behavior of aeronautic electrical systems. In the first part, we estimate the maximal electrical consumption that the generator should deliver to optimize the generator size and to better understand its real margin. Using the extreme value theory we estimate quantiles that we compare to the theoretical values computed by the electrical engineers. In the second part, we compare different regularized procedures to predict the oil temperature of a generator in a functional data framework. In particular, this study makes it possible to understand the generator behavior under extreme conditions that could not be reproduced physically. Finally, in the last part, we develop a predictive maintenance model that detects the abnormal behavior of a generator to anticipate failures. This model is based on variants of "Invariant Coordinate Selection" adapted to functional data
APA, Harvard, Vancouver, ISO, and other styles
30

Mahmoudysepehr, Mehdi. "Modélisation du comportement du tunnelier et impact sur son environnement." Thesis, Centrale Lille Institut, 2020. http://www.theses.fr/2020CLIL0028.

Full text
Abstract:
Ce travail de recherche de thèse de doctorat consiste à comprendre le comportement du tunnelier en fonction de l’environnement rencontré afin de proposer des solutions sûres, durables et de quqlité pour le creusement du tunnel.Le principal objectif de ce travail de thèse de doctorat est de mieux comprendre le comportement du tunnelier en fonction de son environnement. Ainsi, on explorera comment le tunnelier réagit en fonction des différents types de terrain et comment il agit sur les différents éléments de structure du tunnel (voussoirs). Cela permettra de proposer un dimensionnement intelligent et optimal des voussoirs et des consignes de pilotages adaptées
This PhD thesis research work consists in understanding the behavior of the TBM according to the environment encountered in order to propose safe, durable and quality solutions for the digging of the tunnel.The main objective of this doctoral thesis work is to better understand the behavior of the TBM according to its environment. Thus, we will explore how the TBM reacts according to the different types of terrain and how it acts on the various elements of tunnel structure (voussoirs). This will make it possible to propose an intelligent and optimal dimensioning of the voussoirs and instructions of adapted piloting
APA, Harvard, Vancouver, ISO, and other styles
31

Irichabeau, Gabrielle. "Évaluation économique de la dépendance d'une activité au milieu naturel. L'exemple de l'ostréiculture arcachonnaise." Phd thesis, Université Montesquieu - Bordeaux IV, 2011. http://tel.archives-ouvertes.fr/tel-00662006.

Full text
Abstract:
Les activités économiques présentent des formes et des degrés de dépendance variables à l'environnement. L'environnement peut intervenir comme un facteur de production, comme une contrainte à l'usage de certains intrants, comme une contrainte pour certains facteurs de production. La dépendance peut être reliée à la disponibilité ou à la qualité de certaines ressources environnementales, à leur dimension de bien collectif. Il s'agira d'explorer les implications des différentes formes de dépendances bio-physico-chimiques mais aussi juridiques. Dans le cas de l'ostréiculture arcachonnaise, on examinera les formes de dépendance et leur mesure économique, à travers les impacts économiques liés à la disponibilité variable des ressources biologiques marines mais aussi à la productivité naturelle du milieu. L'analyse des caractéristiques socio-économiques des entreprises ostréicoles arcachonnaises permettra de dresser une typologie de ces dernières et ainsi caractériser l'activité. Une approche par la fonction de production sera utilisée pour mettre en évidence les degrés divers de sensibilité à une variation des conditions environnementales de production tandis que l'évaluation par la méthode des prix hédoniques permettra de déterminer le prix implicite des composantes environnementales des indemnités de substitution en tenant compte par ailleurs de la localisation géographique des concessions ostréicoles.
APA, Harvard, Vancouver, ISO, and other styles
32

Borderon, Marion. "Entre distance géographique et distance sociale : le risque de paludisme-infection en milieu urbain africain : l'exemple de l'agglomération de Dakar, Sénégal." Thesis, Aix-Marseille, 2016. http://www.theses.fr/2016AIXM3004/document.

Full text
Abstract:
Cette thèse défend l’intérêt d’appliquer une démarche d’analyse exploratoire de données spatiales pour examiner un phénomène complexe irréductible, dans un contexte limité en données : le paludisme-infection à Dakar. Chaque partie du système pathogène du paludisme est nécessaire mais non suffisante au fonctionnement du système. Il n’y a paludisme-infection que lorsque les trois composantes sont en contact : le parasite, le vecteur et l’hôte humain. La recherche des lieux où ces contacts peuvent s’opérer facilement est donc primordiale dans la lutte contre le paludisme et l’amélioration des programmes visant à la diminution voire l’élimination de la maladie. L’analyse exploratoire, encore très peu appliquée dans les pays dits du Sud, se définit ainsi comme une démarche de recherche mais aussi comme un moyen d’apporter des réponses aux besoins sanitaires. Elle pousse à l’observation, sous différents angles, des déterminants sociaux qui sont impliqués dans la réalisation du phénomène, tout comme à l’examen des interactions existantes entre eux. Nous avons récolté des informations quantitatives variées, en lien direct et indirect avec l’étude du paludisme. Interprétation d’images satellites, données censitaires, résultats d’enquêtes sociales et sanitaires ont été intégrées dans un système d’information géographique pour décrire la ville et ses habitants. Le croisement de ces sources a permis d’étudier les faces spatiales du risque épidémique palustre. Le recours à des analyses statistiques et géostatistiques, bivariées et multivariées, a permis de souligner que le risque d’infection des populations dépendait fortement d’une distance, que l’on a qualifié de sociale
This thesis applies an Exploratory Spatial Data Analysis (ESDA) approach to study a complex phenomenon in a data scarce environment: malaria infection in Dakar. Each component of the malaria pathogenic system is necessary but not sufficient to result in an infection when acting in isolation. For malaria infection to occur, three components need to interact: the parasite, the vector, and the human host. The identification of areas where these three components can easily interact is therefore essential in the fight against malaria and the improvement of programs for the prevention and control or elimination of the disease. ESDA, still rarely applied in developing countries, is thus defined as a research approach but also as a way to provide answers to global health challenges. It leads to observation, from different angles, on the social and spatial determinants of malaria infection, as well as the examination of existing interactions between its three components. Several streams of quantitative information were collected, both directly and indirectly related to the study of malaria. More specifically, multi-temporal satellite imagery, census data, and results from social and health surveys have been integrated into a Geographic Information System (GIS) to describe the city and its inhabitants. Combining these datasets has enabled to study the spatial variability of the risk of malaria infection
APA, Harvard, Vancouver, ISO, and other styles
33

Phan, Thi-Thu-Hong. "Elastic matching for classification and modelisation of incomplete time series." Thesis, Littoral, 2018. http://www.theses.fr/2018DUNK0483/document.

Full text
Abstract:
Les données manquantes constituent un challenge commun en reconnaissance de forme et traitement de signal. Une grande partie des techniques actuelles de ces domaines ne gère pas l'absence de données et devient inutilisable face à des jeux incomplets. L'absence de données conduit aussi à une perte d'information, des difficultés à interpréter correctement le reste des données présentes et des résultats biaisés notamment avec de larges sous-séquences absentes. Ainsi, ce travail de thèse se focalise sur la complétion de larges séquences manquantes dans les séries monovariées puis multivariées peu ou faiblement corrélées. Un premier axe de travail a été une recherche d'une requête similaire à la fenêtre englobant (avant/après) le trou. Cette approche est basée sur une comparaison de signaux à partir d'un algorithme d'extraction de caractéristiques géométriques (formes) et d'une mesure d'appariement élastique (DTW - Dynamic Time Warping). Un package R CRAN a été développé, DTWBI pour la complétion de série monovariée et DTWUMI pour des séries multidimensionnelles dont les signaux sont non ou faiblement corrélés. Ces deux approches ont été comparées aux approches classiques et récentes de la littérature et ont montré leur faculté de respecter la forme et la dynamique du signal. Concernant les signaux peu ou pas corrélés, un package DTWUMI a aussi été développé. Le second axe a été de construire une similarité floue capable de prender en compte les incertitudes de formes et d'amplitude du signal. Le système FSMUMI proposé est basé sur une combinaison floue de similarités classiques et un ensemble de règles floues. Ces approches ont été appliquées à des données marines et météorologiques dans plusieurs contextes : classification supervisée de cytogrammes phytoplanctoniques, segmentation non supervisée en états environnementaux d'un jeu de 19 capteurs issus d'une station marine MAREL CARNOT en France et la prédiction météorologique de données collectées au Vietnam
Missing data are a prevalent problem in many domains of pattern recognition and signal processing. Most of the existing techniques in the literature suffer from one major drawback, which is their inability to process incomplete datasets. Missing data produce a loss of information and thus yield inaccurate data interpretation, biased results or unreliable analysis, especially for large missing sub-sequence(s). So, this thesis focuses on dealing with large consecutive missing values in univariate and low/un-correlated multivariate time series. We begin by investigating an imputation method to overcome these issues in univariate time series. This approach is based on the combination of shape-feature extraction algorithm and Dynamic Time Warping method. A new R-package, namely DTWBI, is then developed. In the following work, the DTWBI approach is extended to complete large successive missing data in low/un-correlated multivariate time series (called DTWUMI) and a DTWUMI R-package is also established. The key of these two proposed methods is that using the elastic matching to retrieving similar values in the series before and/or after the missing values. This optimizes as much as possible the dynamics and shape of knowledge data, and while applying the shape-feature extraction algorithm allows to reduce the computing time. Successively, we introduce a new method for filling large successive missing values in low/un-correlated multivariate time series, namely FSMUMI, which enables to manage a high level of uncertainty. In this way, we propose to use a novel fuzzy grades of basic similarity measures and fuzzy logic rules. Finally, we employ the DTWBI to (i) complete the MAREL Carnot dataset and then we perform a detection of rare/extreme events in this database (ii) forecast various meteorological univariate time series collected in Vietnam
APA, Harvard, Vancouver, ISO, and other styles
34

Irichabeau, Gabrielle. "Evaluation économique de la dépendance d’une activité au milieu naturel : l'exemple de l'ostréiculrure arcachonnaise." Thesis, Bordeaux 4, 2011. http://www.theses.fr/2011BOR40035/document.

Full text
Abstract:
Les activités économiques présentent des formes et des degrés de dépendance variables à l’environnement. L’environnement peut intervenir comme un facteur de production, comme une contrainte à l’usage de certains intrants, comme une contrainte pour certains facteurs de production. La dépendance peut être reliée à la disponibilité ou à la qualité de certaines ressources environnementales, à leur dimension de bien collectif. Il s’agira d’explorer les implications des différentes formes de dépendances bio-physico-chimiques mais aussi juridiques. Dans le cas de l’ostréiculture arcachonnaise, on examinera les formes de dépendance et leur mesure économique, à travers les impacts économiques liés à la disponibilité variable des ressources biologiques marines mais aussi à la productivité naturelle du milieu. L’analyse des caractéristiques socio-économiques des entreprises ostréicoles arcachonnaises permettra de dresser une typologie de ces dernières et ainsi caractériser l’activité. Une approche par la fonction de production sera utilisée pour mettre en évidence les degrés divers de sensibilité à une variation des conditions environnementales de production tandis que l’évaluation par la méthode des prix hédoniques permettra de déterminer le prix implicite des composantes environnementales des indemnités de substitution en tenant compte par ailleurs de la localisation géographique des concessions ostréicoles
Economic activities have forms and degrees of dependency variables to the environment. The environment can act as a factor of production as a constraint to the use of certain inputs, such as a constraint for some inputs. Dependence may be related to the availability or quality of certain environmental resources. It will explore the implications of different forms of dependencies bio-physico-chemical as well as legal. In the case of the Arcachon Bay oyster-farming will examine the forms of dependence and economic measure, through the economic impacts associated with the variable availability of living marine resources but also to the natural productivity of the environment. The analysis of socio-economic characteristics of Arcachon Bay oyster-farms will develop a typology of the latter and thus characterize the activity. A production function approach will be used to highlight the varying degrees of sensitivity to changes in environmental conditions of production while the evaluation by the hedonic price method will determine the implicit price of environmental components of the oyster leases value taking into account also the geographical location of oyster leases
APA, Harvard, Vancouver, ISO, and other styles
35

Beaufils, Bertrand. "Topological Data Analysis and Statistical Learning for measuring pedestrian activities from inertial sensors." Thesis, université Paris-Saclay, 2020. http://www.theses.fr/2020UPASS107.

Full text
Abstract:
Cette thèse s’intéresse à la détection de mouvements spécifiques à partir du dispositif ActiMyo développé par la société Sysnav, système de capteurs inertiels miniatures bascoût pouvant se porté à la cheville et au poignet. En particulier, une approche d’apprentissage statistique supervisé vise à détecter les foulées dans les enregistrements cheville. Ce premier travail, combiné avec un algorithme breveté par l’entreprise Sysnav, permet de reconstruire la trajectoire du piéton. Cette trajectoire est ensuite utilisée dans une nouvelle méthode d’apprentissage supervisé pour la reconnaissance d’activité qui est une précieuse information notamment dans un contexte médical. Ces deux algorithmes proposent une approche innovante basée sur l’alignement des signaux inertiels et l’extraction d’intervalles candidats qui sont ensuite classés par l’algorithme de Gradient Boosting Trees. Le manuscrit présente également une architecture de réseaux de neurones combinant des channels de convolution et d’analyse topologique des données pour la détection de mouvements caractéristiques de la maladie de Parkinson tels que les tremblements et crises de dyskinésie
This thesis focuses on the detection of specific movements using ActiMyo, a device developed by the company Sysnav. This system is composed by low-cost miniature inertial sensors that can be worn on the ankle and wrist. In particular, a supervised statistical learning approach aims to detect strides in ankle recordings. This first work, combined with an algorithm patented by Sysnav, allows to compute the trajectory of the pedestrian. This trajectory is then used in a new supervised learning method for the activity recognition, which is valuable information, especially in a medical context. These two algorithms offer an innovative approach based on the alignment of inertial signals and the extraction of candidate intervals which are then classified by the Gradient Boosting Trees algorithm. This thesis also presents a neural network architecture combining convolutional channels and topological data analysis for the detection of movements representative of Parkinson’s disease such as tremors and dyskinesia crises
APA, Harvard, Vancouver, ISO, and other styles
36

Bacelar-Nicolau, Leonor. "Health Impact Assessment : Quantifying and Modeling to Better Decide." Thesis, Paris, CNAM, 2017. http://www.theses.fr/2017CNAM1151/document.

Full text
Abstract:
L’Évaluation d’Impact sur la Santé (EIS) est un instrument de support à la décision, pour juger une politique quant aux effets potentiels sur la santé et leur distribution (équité). C’est encore souvent une approche qualitative.L’objectif principal est de montrer l’utilité de méthodologies statistiques quantitatives multivariées pour enrichir la pratique d’EIS, améliorant la compréhension des résultats par des professionnels non-statisticiens.Les futures réformes des systèmes de santé déplacent le centre d’évaluation des services de santé des fournisseurs aux citoyens (besoins, préférences, équité d’accès aux gains de santé), exploitant big data associant information de soins aux données sociales, économiques et de déterminants de santé. Des méthodologies statistiques et d’évaluation innovantes sont nécessaires à cette transformation.Les méthodes de data mining et data science, souvent complexes, peuvent gérer des résultats graphiques compréhensibles pour amplifier l’usage d’EIS, qui deviendrait ainsi un outil précieux d’évaluation de politiques publiques pour amener les citoyens au centre de la prise de décision
Health Impact Assessment (HIA) is a decision-making support tool to judge a policy as to its potential effects and its distribution on a population’s health (equity). It’s still very often a qualitative approach.The main aim here is to show the usefulness of applying quantified multivariate statistical methodologies to enrich HIA practice, while making the decision-making process easier, by issuing understandable outputs even for non-statisticians.The future of healthcare reforms shifts the center of evaluation of health systems from providers to people’s individual needs and preferences, reducing health inequities in access and health outcomes, using big data linking information from providers to social and economic health determinants. Innovative statistical and assessment methodologies are needed to make this transformation.Data mining and data science methods, however complex, may lead to graphical outputs simple to understand by decision makers. HIA is thus a valuable tool to assure public policies are indeed evaluated while considering health determinants and equity and bringing citizens to the center of the decision-making process
A Avaliação de Impacte na Saúde (AIS) é um instrumento de suporte à decisão para julgar política quanto aos seus efeitos potenciais e à sua distribuição na saúde de uma população (equidade). É geralmente ainda uma abordagem qualitativa.O principal objetivo é mostrar a utilidade das metodologias estatísticas quantitativas e multivariadas para enriquecer a prática de AIS, melhorando a compreensão dos resultados por profissionais não-estatísticos.As futuras reformas dos sistemas de saúde deslocam o centro da avaliação dos serviços de saúde dos prestadores para as necessidades e preferências dos cidadãos, reduzindo iniquidades no acesso à saúde e ganhos em saúde, usando big data que associam informação de prestadores a dados sociais e económicos de determinantes de saúde. São necessárias metodologias estatísticas e de avaliação inovadoras para esta transformação.Métodos de data mining e data science, mesmo complexos, podem gerar resultados gráficos compreensíveis para os decisores. A AIS é assim uma ferramenta valiosa para avaliar políticas públicas considerando determinantes de saúde, equidade e trazendo os cidadãos para o centro da tomada de decisão
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography